基于人体动作分析的语义识别方法及相关装置制造方法及图纸

技术编号:32579600 阅读:16 留言:0更新日期:2022-03-09 17:10
本发明专利技术提供了一种基于人体动作分析的语义识别方法,包括:采集能够反映出目标用户的动作的视频数据;追踪并检测目标用户在所采集到的视频数据的每一帧图像中的预定区域内的肢体和面部的关键点,按照预置模板将其转换为一维的数字向量,从而得到对应于所述视频数据的四维张量[1,1,fr,info],其中,fr表示视频帧数,info表示所述数字向量;将所述视频数据的所述四维张量作为输入数据输入到预置的训练模型,经由预置的语义识别模型预测出与所述目标用户的动作对应的语义,以及将预测出的语义进行输出。此外,还提供了基于人体动作分析的语义识别装置、电子设备及存储介质。根据本发明专利技术,能够简单、高效且准确地识别出目标用户的动作的语义信息。动作的语义信息。动作的语义信息。

【技术实现步骤摘要】
基于人体动作分析的语义识别方法及相关装置


[0001]本申请涉及一种基于人体动作分析的语义识别方法、装置、电子设备及存储介质,涉及人工智能,计算机视觉,动作行为识别,深度学习技术。

技术介绍

[0002]信息的接收与传递是人类和整个世界基本的沟通方式。通常而言,这种沟通方式是通过语言的交流来实现的。然而,对于一些特殊的场景或人群,例如,环境非常嘈杂无法获取语音信息的场景,或者听障人士群体,难以通过语言的交流来实现信息的接受与传递,因此,人们通常使用肢体语言或唇语等来表示其想传达的信息。因此,如何能够将识别人体的动作的语义是迫切需要研究的方向。
[0003]目前,存在这样一种技术,其运用采集人体唇语的摄像头和采集人体声音的语音识别模块将图像数据和音频数据合成视频信号,再将视频信号转化为手语动作从而实现了基于动作识别及语音识别技术的唇语翻译。然而,将音频信息与视频中的唇语动作对齐就是很难突破的壁垒,更何况通过录音设备进行录制,再通过降噪获得语音信息,这种录音设备在非常嘈杂的环境下如商场、车间等很难剥离单一目标的语音,特别是在目标移动的情况下,效率低下还可能达不到预期效果。
[0004]为了解决传统技术中存在的技术问题,本专利技术利用计算机视觉技术,开发了一种基于动作行为识别模型来学习各种肢体语言、表情和唇语的组合以及他们对应的语义,而无需将图像数据和音频数据合成视频信号。

技术实现思路

[0005]本申请的目的在于提供一种基于人体动作分析的语义识别方法、装置、电子设备及存储介质,其可以通过拍摄装置例如高清摄像头追踪拍摄场景内的目标用户,并且能够随时捕捉目标用户的肢体语言、脸部表情和发声时的唇语,经过一系列的处理和计算,实时还原目标用户的语义信息,并且由输出装置如显示器或音响等输入。本专利技术的方法不会局限目标用户在场景中的位置,可以广泛应用于在医院、商场等场景,目标用户特别可以是后天失声人群或因处在嘈杂场景中无法获取语音信息的人群,这类特定人群懂得说话时口语,但很大可能不像先天失声人群那样懂得手语,所以普通人与他们交流可能会出现问题,目标用户可能是在呼救或者尝试与人交流,而这些语义信息无法通过传统的录音设备而获得。本专利技术由于不需要合成音频数据,因此解决了传统技术中的问题。本专利技术亦可被应用于配合语音识别设备补全缺失信息,这些缺失信息可以是没有声音视频的信息。
[0006]更具体地,本专利技术第一方面提供了一种基于人体动作分析的语义识别方法,其特征在于,包括:
[0007]采集能够反映出目标用户的动作的视频数据;
[0008]追踪并检测目标用户在所采集到的视频数据的每一帧图像中的预定区域内的肢体和面部的关键点,按照预置模板将其转换为一维的数字向量,从而得到对应于所述视频
数据的四维张量[1,1,fr,info],其中,fr表示视频帧数,info表示所述数字向量;
[0009]将所述视频数据的所述四维张量作为输入数据输入到预置的训练模型,经由预置的语义识别模型预测出与所述目标用户的动作对应的语义,以及;
[0010]将预测出的语义进行输出。
[0011]一般而言,用户的动作包括肢体语言、面部表情和唇语,因此,能够由肢体和面部的特征来表征用户的当前的动作。根据上述方法,能够简单地通过对视频数据中的目标用户的肢体和面部的关键点进行一系列的处理和计算,预测出该目标用户的动作的语义,并且进行输出。即,根据本专利技术第一方面的方法,能够有效地将用户的肢体语言、面部表情和发音时唇语的输入转换为对应语义的输出。本专利技术的方法仅需要采集表征动作的肢体和面部特征(包括面部表情和发音时的唇语),识别出肢体语言、面部表情和唇语的语义,而不需要采集音频数据,因此,语义识别的难易程度和准确率都能够大幅提升。
[0012]优选地,在第一方面的语义识别方法中,所述追踪和提取关键点包括:对于每一帧的图像,利用目标追踪算法将目标用户捕捉并画框,然后对框内的目标用户的肢体和面部进行关键点检测算法,从而将每一帧的肢体关键点和脸部关键点保留,以将一段视频的图像信息转化为目标关键点的数字信息。
[0013]根据上述的方法,通过成熟的目标追踪算法和关键点检测算法,可以更快捷、更准确的获取肢体语言、脸部表情和唇语动作的组合信息。另外,通过将目标用户的肢体和面部的关键点信息转化为数字信息,能够获得优异的计算能力。
[0014]优选地,在第一方面的语义识别方法,还包括:对所述数字信息按照依据所述关键点检测算法而定义的预置模板进行处理,使得每一帧的数字信息按照统一的格式进行排列,得到模板化处理信息;以及将所述模板化处理信息转化为所述一维的数字向量。
[0015]根据上述的方法,能够有效地应对关键点的漏检、误检等情况。更具体而言,由于目标用户的肢体或头部的转向而导致算法无法抓取到部分关键点,以及由于目标人物被遮挡或者图片模糊等原因而导致检测到的结果出现漏检、误检等误差。在本专利技术中,通过按照预定模板进行处理,能够将收集到的每一帧的数字信息按照统一的格式进行排列,而且能够处理被检测到的肢体和脸部关键点的顺序不定、被重复检测、未被检测到等问题。
[0016]优选地,在第一方面的语义识别方法中,所采集的所述视频数据为单一一句话的样本,在通过所述目标追踪算法、所述关键点检测算法以及模板统一化对视频数据进行了处理之后,将数字向量中的数字信息的数据集打乱顺序,并按照预定比例分成训练数据池和验证数据池,通过分别对所对应的数据池进行重复抽样,然后拼接视频,创建出训练数据集和验证数据集,该训练数据集和验证数据集中的每个数据为组合了多句话的视频拼接,从而使得fr变长并且得到fr变长的四维张量作为所述输入数据。
[0017]根据上述的方法,达成了数据增广的目的,从而增加了算法的泛化能力。
[0018]优选地,在第一方面的语义识别方法中,预置的所述训练模型采用CTC损失函数、Adam优化器以及正则项。
[0019]根据上述的方法,CTC损失函数能够非常有效的处理不定长问题,Adam优化器能够进行优化,正则化能够应对过拟合问题
[0020]优选地,在第一方面的语义识别方法中,所述语义识别模型包括:CBL模块,其至少由二维卷积、批标准化以及激活函数构成;LSTM模块,其调用双向长短期记忆网络;FA模块
与剪枝层的组合,FA模块至少是由全连接层和激活函数构成,剪枝层附加在多个FA模块之间以增强模型的泛化能力;以及输出层,其包含全连接层和激活函数,其中,所述输入数据依次经由CBL模块,LSTM模块,FA模块与剪枝层的组合以及输出层的处理和计算,作为能够预测出与所述目标用户的动作对应的语义的输出数据被输出。
[0021]根据上述的方法,通过各个模块之间的数据处理,能够实现高效且准确的语义识别。
[0022]优选地,在第一方面的语义识别方法中,所述语义识别模型预测的类包括:按照语义真值的词来定义的类,词包括表示停顿的词或者表示感叹疑问的语气词;以及表示“无”的类,“无”定义没有发出任何本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人体动作分析的语义识别方法,其特征在于,包括:采集能够反映出目标用户的动作的视频数据;追踪并检测目标用户在所采集到的视频数据的每一帧图像中的预定区域内的肢体和面部的关键点,按照预置模板将其转换为一维的数字向量,从而得到对应于所述视频数据的四维张量[1,1,fr,info],其中,fr表示视频帧数,info表示所述数字向量;将所述视频数据的所述四维张量作为输入数据输入到预置的训练模型,经由预置的语义识别模型预测出与所述目标用户的动作对应的语义,以及;将预测出的语义进行输出。2.根据权利要求1所述的语义识别方法,其特征在于,所述追踪和提取关键点包括:对于每一帧的图像,利用目标追踪算法将目标用户捕捉并画框,然后对框内的目标用户的肢体和面部进行关键点检测算法,从而将每一帧的肢体关键点和脸部关键点保留,以将一段视频的图像信息转化为目标关键点的数字信息。3.根据权利要求2所述的语义识别方法,其特征在于,还包括:对所述数字信息按照依据所述关键点检测算法而定义的预置模板进行处理,使得每一帧的数字信息按照统一的格式进行排列,得到模板化处理信息;以及将所述模板化处理信息转化为所述一维的数字向量。4.根据权利要求3所述的语义识别方法,其特征在于,所采集的所述视频数据为单一一句话的样本,在通过所述目标追踪算法、所述关键点检测算法以及模板统一化对视频数据进行了处理之后,将数字向量中的数字信息的数据集打乱顺序,并按照预定比例分成训练数据池和验证数据池,通过分别对所对应的数据池进行重复抽样,然后拼接视频,创建出训练数据集和验证数据集,该训练数据集和验证数据集中的每个数据为组合了多句话的视频拼接,从而使得fr变长并且得到fr变长的四维张量作为所述输入数据。5.根据权利要求4所述的语义识别方法,其特征在于,预置的所述训练模型采用CTC损失函数、Adam优化器以及正则项。6.根据权利要求5所述的语...

【专利技术属性】
技术研发人员:陈海波李连峰李新
申请(专利权)人:深兰人工智能应用研究院山东有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1