一种融合传感器和视频流的手语识别方法技术

技术编号:38222053 阅读:10 留言:0更新日期:2023-07-25 17:53
本说明书实施例提供一种融合传感器和视频流的手语识别方法,包括:获取图像采集设备采集的对应于手语手势的视频信号以及动作传感器采集的所述手语手势的动作信号;提取所述视频信号中的每帧图像数据的视觉特征,得到按照时间维度排序的视觉特征序列;提取所述动作信号的动作特征,得到按照时间维度排序的动作特征序列;将所述视觉特征序列和动作特征序列进行特征融合,得到按照时间维度排序的融合特征序列;基于所述融合特征序列,得到与所述手语手势对应的语义数据。相应地,本说明书实施例还提供了一种融合传感器和视频流的手语识别装置。别装置。别装置。

【技术实现步骤摘要】
一种融合传感器和视频流的手语识别方法


[0001]本说明书一个或多个实施例涉及一种动作识别方法,尤其涉及一种手语识别方法。

技术介绍

[0002]残障人群是当今社会中亟需受到关爱的群体,其中,听障人群占很大一部分比重,在大部分情况下,手语是听障人群与外界进行沟通交流的主要方式,但是对于正常人来说,在未经过专门学习的情况下很难理解手语所表达的内容,从而难以获取听障人士的需求。为了让正常人也能理解手语,与听障人群可以无障碍地沟通交流,从而更好地帮助他们,相关技术人员开发了许多手语识别方法。其中,基于纯视觉的手语识别方法仅通过手语视频进行手势识别。基于纯传感器的手语识别方法仅通过获取传感器序列作为手语识别的依据。因此需要一种更精准更可靠的手语识别方法。
[0003]鉴于此,希望获得一种融合视觉和传感器的手语识别方法,该识别方法可以更准确地获取听障人群使用手语想表达的意思,帮助听障人群和正常人进行无障碍的交流。

技术实现思路

[0004]本说明一个或多个实施例的目的之一在于提供一种融合传感器和视频流的手语识别方法,该方法通过结合视频流和传感器序列两种维度的信息,可以减小单一维度的手势识别导致的误差,能够提高手语识别效率,提供准确、高质量的手语识别效果,从而帮助听障人群和正常人进行无障碍的交流。
[0005]基于上述专利技术目的,本说明书实施例提出了一种融合传感器和视频流的手语识别方法,其包括步骤:
[0006]获取图像采集设备采集的对应于手语手势的视频信号,并且获取动作传感器采集的所述手语手势的动作信号;
[0007]提取所述视频信号中的每帧图像数据的视觉特征,得到按照时间维度排序的视觉特征序列;并且提取所述动作信号的动作特征,得到按照时间维度排序的动作特征序列;
[0008]将所述视觉特征序列和动作特征序列进行特征融合,得到按照时间维度排序的融合特征序列;
[0009]基于所述融合特征序列,得到与所述手语手势对应的语义数据。
[0010]本说明书实施例通过采集手语手势对应的视频流和传感器序列两种维度的信息,并从中提取出视觉特征和动作特征,进行特征融合,根据融合后的特征得到对应的手语翻译结果,可以减小视觉或者传感器单一维度的手势识别导致的误差,从而提高手语识别效率,获得准确、高质量的手语识别效果,有利于听障人群和正常人进行无障碍的交流。
[0011]进一步地,提取所述视频信号中的每帧图像数据的视觉特征具体包括:
[0012]采用Vision Transformer对每帧图像数据进行特征抽取,得到图像表示向量,并将其作为所述视觉特征。
[0013]进一步地,提取所述动作信号的动作特征具体包括:
[0014]采用滑动窗口的方式获取每一时刻的动作数据。
[0015]进一步地,提取所述动作信号的动作特征具体包括:
[0016]采用Transformer对每一时刻的动作数据进行特征抽取,得到动作表示向量,并将其作为所述动作特征。
[0017]进一步地,将所述视觉特征序列和动作特征序列进行特征融合,得到按照时间维度排序的融合特征序列具体包括:
[0018]对于每一时刻的视觉特征和动作特征,均采用cross

attention模型,将该时刻的视觉特征作为cross

attention模型的Key和Value,将该时刻的动作特征作为query进行融合,得到该时刻的融合特征;
[0019]基于每一时刻的融合特征,得到按照时间维度排序的融合特征时间序列。
[0020]进一步地,将所述视觉特征序列和动作特征序列进行特征融合,得到按照时间维度排序的融合特征序列具体包括:
[0021]对于每一时刻的视觉特征和动作特征,将该时刻的视觉特征与动作特征直接相加,得到该时刻的融合特征;
[0022]基于每一时刻的融合特征,得到按照时间维度排序的融合特征时间序列。
[0023]进一步地,将所述视觉特征序列和动作特征序列进行特征融合,得到按照时间维度排序的融合特征序列具体包括:
[0024]对于每一时刻的视觉特征和动作特征,将该时刻的视觉特征与动作特征拼接,得到该时刻的融合特征;
[0025]基于每一时刻的融合特征,得到按照时间维度排序的融合特征时间序列。
[0026]进一步地,基于所述融合特征序列,得到与所述手语手势对应的语义数据具体包括:
[0027]将所述融合特征序列输入经过训练的Transformer,所述Transformer对所述融合特征序列进行编码和解码,输出与所述手语手势对应的文本数据。
[0028]本说明书一个或多个实施例的另一目的在于提供一种融合传感器和视频流的手语识别装置,该装置通过结合视频流和传感器序列两种维度的信息,可以减小单一维度的手势识别导致的误差,能够提高手语识别效率,提供准确、高质量的手语识别效果,从而帮助听障人群和正常人进行无障碍的交流。
[0029]基于上述目的,本说明书实施例还提供了一种融合传感器和视频流的手语识别装置,其包括:
[0030]视觉特征提取模块,其基于获取的图像采集设备采集的手语手势的视频信号,提取所述视频信号中的每帧图像数据的视觉特征,得到按照时间维度排序的视觉特征序列;
[0031]动作特征提取模块,其基于获取的动作传感器采集的所述手语手势的动作信号,提取所述动作信号的动作特征,得到按照时间维度排序的动作特征序列;
[0032]融合模块,其将所述视觉特征序列和动作特征序列进行特征融合,得到按照时间维度排序的融合特征序列;
[0033]翻译模块,其基于所述融合特征序列,得到与所述手语手势对应的语义数据。
[0034]进一步地,所述视觉特征提取模块采用Vision Transformer对每帧图像数据进行
特征抽取,得到图像表示向量,并将其作为所述视觉特征。
[0035]进一步地,所述动作特征提取模块采用滑动窗口的方式获取每一时刻的动作数据。
[0036]进一步地,所述动作特征提取模块采用Transformer对每一时刻的动作数据进行特征抽取,得到动作表示向量,并将其作为所述动作特征。
[0037]进一步地,所述融合模块:
[0038]对于每一时刻的视觉特征和动作特征,均采用cross

attention模型,将该时刻的视觉特征作为cross

attention模型的Key和Value,将动作特征作为query进行融合,得到该时刻的融合特征;
[0039]基于每一时刻的融合特征,得到融合特征时间序列。
[0040]进一步地,所述融合模块:
[0041]对于每一时刻的视觉特征和动作特征,将该时刻的视觉特征与动作特征直接相加,得到该时刻的融合特征;
[0042]基于每一时刻的融合特征,得到融合特征时间序列。
[0043]进一步地,所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合传感器和视频流的手语识别方法,其包括:获取图像采集设备采集的对应于手语手势的视频信号,并且获取动作传感器采集的所述手语手势的动作信号;提取所述视频信号中的每帧图像数据的视觉特征,得到按照时间维度排序的视觉特征序列;并且提取所述动作信号的动作特征,得到按照时间维度排序的动作特征序列;将所述视觉特征序列和动作特征序列进行特征融合,得到按照时间维度排序的融合特征序列;基于所述融合特征序列,得到与所述手语手势对应的语义数据。2.如权利要求1所述的融合传感器和视频流的手语识别方法,提取所述视频信号中的每帧图像数据的视觉特征具体包括:采用Vision Transformer对每帧图像数据进行特征抽取,得到图像表示向量,并将其作为所述视觉特征。3.如权利要求1所述的融合传感器和视频流的手语识别方法,提取所述动作信号的动作特征具体包括:采用滑动窗口的方式获取每一时刻的动作数据。4.如权利要求1所述的融合传感器和视频流的手语识别方法,提取所述动作信号的动作特征具体包括:采用Transformer对每一时刻的动作数据进行特征抽取,得到动作表示向量,并将其作为所述动作特征。5.如权利要求1所述的融合传感器和视频流的手语识别方法,将所述视觉特征序列和动作特征序列进行特征融合,得到按照时间维度排序的融合特征序列具体包括:对于每一时刻的视觉特征和动作特征,均采用cross

attention模型,将该时刻的视觉特征作为cross

attention模型的Key和Value,将该时刻的动作特征作为query进行融合,得到该时刻的融合特征;基于每一时刻的融合特征,得到按照时间维度排序的融合特征时间序列。6.如权利要求1所述的融合传感器和视频流的手语识别方法,将所述视觉特征序列和动作特征序列进行特征融合,得到按照时间维度排序的融合特征序列具体包括:对于每一时刻的视觉特征和动作特征,将该时刻的视觉特征与动作特征直接相加,得到该时刻的融合特征;基于每一时刻的融合特征,得到按照时间维度排序的融合特征时间序列。7.如权利要求1所述的融合传感器和视频流的手语识别方法,将所述视觉特征序列和动作特征序列进行特征融合,得到按照时间维度排序的融合特征序列具体包括:对于每一时刻的视觉特征和动作特征,将该时刻的视觉特征与动作特征拼接,得到该时刻的融合特征;基于每一时刻的融合特征,得到按照时间维度排序的融合特征时间序列。8.如权利要求1所述的融合传感器和视频流的手语识别方法,基于所述融合特征序列,得到与所述手语手势对应的语义数据具体包括:将所述融合特征序列输入经过训练的Transformer,所述Transformer对所述融合特...

【专利技术属性】
技术研发人员:唐董琦刘健
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1