基于人体动作分析的语义识别方法及相关装置制造方法及图纸

技术编号：32579600 阅读：20 留言：0更新日期：2022-03-09 17:10

本发明专利技术提供了一种基于人体动作分析的语义识别方法，包括：采集能够反映出目标用户的动作的视频数据；追踪并检测目标用户在所采集到的视频数据的每一帧图像中的预定区域内的肢体和面部的关键点，按照预置模板将其转换为一维的数字向量，从而得到对应于所述视频数据的四维张量[1,1,fr,info]，其中，fr表示视频帧数，info表示所述数字向量；将所述视频数据的所述四维张量作为输入数据输入到预置的训练模型，经由预置的语义识别模型预测出与所述目标用户的动作对应的语义，以及将预测出的语义进行输出。此外，还提供了基于人体动作分析的语义识别装置、电子设备及存储介质。根据本发明专利技术，能够简单、高效且准确地识别出目标用户的动作的语义信息。动作的语义信息。动作的语义信息。

全部详细技术资料下载

【技术实现步骤摘要】
基于人体动作分析的语义识别方法及相关装置

[0001]本申请涉及一种基于人体动作分析的语义识别方法、装置、电子设备及存储介质，涉及人工智能，计算机视觉，动作行为识别，深度学习技术。

技术介绍

[0002]信息的接收与传递是人类和整个世界基本的沟通方式。通常而言，这种沟通方式是通过语言的交流来实现的。然而，对于一些特殊的场景或人群，例如，环境非常嘈杂无法获取语音信息的场景，或者听障人士群体，难以通过语言的交流来实现信息的接受与传递，因此，人们通常使用肢体语言或唇语等来表示其想传达的信息。因此，如何能够将识别人体的动作的语义是迫切需要研究的方向。
[0003]目前，存在这样一种技术，其运用采集人体唇语的摄像头和采集人体声音的语音识别模块将图像数据和音频数据合成视频信号，再将视频信号转化为手语动作从而实现了基于动作识别及语音识别技术的唇语翻译。然而，将音频信息与视频中的唇语动作对齐就是很难突破的壁垒，更何况通过录音设备进行录制，再通过降噪获得语音信息，这种录音设备在非常嘈杂的环境下如商场、车间等很难剥离单一目标的语音，特别是在目标移动的情况下，效率低下还可能达不到预期效果。
[0004]为了解决传统技术中存在的技术问题，本专利技术利用计算机视觉技术，开发了一种基于动作行为识别模型来学习各种肢体语言、表情和唇语的组合以及他们对应的语义，而无需将图像数据和音频数据合成视频信号。

技术实现思路

[0005]本申请的目的在于提供一种基于人体动作分析的语义识别方法、装置、电子设备及存储介质，其可以通过...

【技术保护点】

【技术特征摘要】
1.一种基于人体动作分析的语义识别方法，其特征在于，包括：采集能够反映出目标用户的动作的视频数据；追踪并检测目标用户在所采集到的视频数据的每一帧图像中的预定区域内的肢体和面部的关键点，按照预置模板将其转换为一维的数字向量，从而得到对应于所述视频数据的四维张量[1,1,fr,info]，其中，fr表示视频帧数，info表示所述数字向量；将所述视频数据的所述四维张量作为输入数据输入到预置的训练模型，经由预置的语义识别模型预测出与所述目标用户的动作对应的语义，以及；将预测出的语义进行输出。2.根据权利要求1所述的语义识别方法，其特征在于，所述追踪和提取关键点包括：对于每一帧的图像，利用目标追踪算法将目标用户捕捉并画框，然后对框内的目标用户的肢体和面部进行关键点检测算法，从而将每一帧的肢体关键点和脸部关键点保留，以将一段视频的图像信息转化为目标关键点的数字信息。3.根据权利要求2所述的语义识别方法，其特征在于，还包括：对所述数字信息按照依据所述关键点检测算法而定义的预置模板进行处理，使得每一帧的数字信息按照统一的格式进行排列，得到模板化处理信息；以及将所述模板化处理信息转化为所述一维的数字向量。4.根据权利要求3所述的语义识别方法，其特征在于，所采集的所述视频数据为单一一句话的样本，在通过所述目标追踪算法、所述关键点检测算法以及模板统一化对视频数据进行了处理之后，将数字向量中的数字信息的数据集打乱顺序，并按照预定比例分成训练数据池和验证数据池，通过分别对所对应的数据池进行重复抽样，然后拼接视频，创建出训练数据集和验证数据集，该训练数据集和验证数据集中的每个数据为组合了多句话的视频拼接，从而使得fr变长并且得到fr变长的四维张量作为所述输入数据。5.根据权利要求4所述的语义识别方法，其特征在于，预置的所述训练模型采用CTC损失函数、Adam优化器以及正则项。6.根据权利要求5所述的语...

【专利技术属性】
技术研发人员：陈海波，李连峰，李新，
申请(专利权)人：深兰人工智能应用研究院山东有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人