一种结合特征帧检测与自然语言辅助的手语识别方法技术

技术编号：42813731 阅读：3 留言：0更新日期：2024-09-24 20:54

本发明专利技术公开了一种结合特征帧检测与自然语言辅助的手语识别方法，涉及连续手语识别的技术领域，方法为：使用Mediapipe进行手语视频的关键点检测，并处理为独立图片与位置数据，利用聚类和人工检查确保数据一致性，之后通过CNN网络训练孤立词预训练模型；结合Mediapipe与CNN模型，对手语视频流中的手部动作进行识别和预测，输出每个瞬间手语的孤立词；对预测的孤立词进行后处理，包括词句补全、语序调整，并使用GPT模型优化句子结构，最终输出完整的手语识别结果。本发明专利技术能改善目前连续手语识别模型结构复杂的现状，确保输出结果流畅性，提高连续手语识别系统的实用性和准确度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及连续手语识别的，尤其涉及一种结合特征帧检测与自然语言辅助的手语识别方法。

技术介绍

1、手语是一种重要的人类肢体语言表达方式，是聋哑人和健听人之间沟通的主要方式，通过手部动作及身体其他部位的运动进行信息传达。手语识别是借助计算机自动将手语信号转换为文本或语音的过程。作为人工智能促进听障人群与健听人群无障碍交流的核心研究，连续手语识别利用计算机视觉及自然语言处理技术，将一段手语视频中对应的多个手语单词连续逐一识别出来。

2、连续手语识别所用模型复杂度高，长期的时序性要求强，现有技术通常需要辅助某种进行上下文语义信息建模算法逐一检测视频的连续帧，例如：双向长短时记忆网络模型、3维卷积网络模型和混合模型等，但目前的时序算法网络架构都较为复杂，对硬件以及时间的要求比较高，难以实现实时输出预测结果。

3、而孤立手语识别通常不需要提取连续帧进行识别，仅需要提取随机帧或特征帧即可完成检测，例如在专利号为2023102097176的专利技术专利中提出的一种基于事件相机的孤立手语词识别方法。但由于视频中两个动作切换时的冗余信息及大量相似动作均会导致识别准确率降低，因此不能直接将孤立手语的识别方法移植到连续手语识别上，需要采取自然语言处理等方法进行辅助措施。

技术实现思路

1、有鉴于此，本专利技术的目的在于提出一种结合特征帧检测与自然语言辅助的手语识别方法，通过mediapipe框架和1dcnn卷积神经网络，实现基于视频特征帧提取的连续手语动作识别，确保输出结果流

2、为实现上述目的，本专利技术采用下述技术方案：

3、一种结合特征帧检测与自然语言辅助的手语识别方法，本专利技术的具体步骤如下：

4、s1、预处理手语视频数据集，提取特征帧并预训练模型，具体包括：

5、s11、使用mediapipe框架对原始连续手语视频数据集进行手部关键点与手-肘-肩-头位置检测，返回手部关键点坐标与手-肘-肩-头的相对位置；

6、s12、根据手部关键点坐标与手-肘-肩-头的相对位置，对属于相同手语含义类别的视频选取相同瞬时动作序列做为特征帧，将手语视频分别切片为孤立图片，并将这些孤立图片的手部关键点坐标与手-肘-肩-头的相对位置按瞬时动作顺序编号，并人工检查相同手语含义类别下顺序编号相同的图片是否具有相同的瞬时动作；

7、s13、位置坐标归一化，使用聚类分析对相似度较高但含义不同的瞬时动作进行合并，建立孤立图片的位置坐标数据集；

8、s14、使用1dcnn神经网络对位置坐标数据集进行训练，生成孤立词预训练模型；

9、s2、使用手语识别mediapipe-1dcnn复合模型进行孤立词预测，具体包括：

10、s21、调用mediapipe框架预测视频流，返回视频流的手部关键点坐标与手-肘-肩-头的相对位置；

11、s22、位置坐标归一化，调用1dcnn模型对位置坐标进行预测，输出视频流手语的孤立词预测结果；

12、s3、对孤立词预测结果进行后处理，连接孤立词，进行语序调整、成分补全并删去不合语义的检测结果个例后，输出手语识别结果，具体包括：

13、s31、对常用词语和句型建立预设词句库，若存在连续的孤立词预测结果符合预设词句库，则补全或调整语序后输出；

14、s32、调用gpt大语言模型进行辅助检查，对不在预设词句库中的句子进行优化。

15、具体地，所述手部关键点坐标与手-肘-肩-头的相对位置，表示为：

16、

17、式中，pos&dis(t)代表t时刻手部关键点坐标与手-肘-肩-头的相对位置，x,y分别为相机坐标系横坐标和纵坐标，i为手部关键点序号，n为手部关键点坐标数量，j为手、肘、肩、头的序号。

18、具体地，所述对属于相同手语含义类别的视频选取相同瞬时动作序列做为特征帧，算法表达为：

19、

20、式中，分别为t时刻手部关键点坐标与手-肘-肩-头的相对位置的一阶差分均值、二阶差分均值，th1、th2分别为一阶差分均值、二阶差分均值的阈值，并记此时刻的瞬时动作为feature[c,v,num,pos&dis]，其中c为此瞬时动作所属的手语含义类别，v为此手语含义类别的第v个视频，num为此瞬时动作在c类别中的顺序编号。

21、具体地，所述聚类分析，具体为：选用bi-kmeans聚类，表示为：

22、

23、式中，ci、cj分别为期望聚类手语含义类别与已知手语含义类别，th3为聚类的阈值。

24、具体地，所述mediapipe-1dcnn复合模型包括：调用mediapipe框架中的人体姿势检测与手部关键点检测函数库，并使用此函数库对三通道rgb图片进行预测，返回pos&dis(t)经处理后得到feature[c,v,num,pos&dis]，作为1dcnn模型的输入；1dcnn模型包括：

25、第一卷积模块：包括一个卷积层(conv1d)与批归一化层(batchnorm1d)后接relu激活函数和最大池化层(maxpool1d)；

26、增强卷积模块：由多个卷积层构成，每个卷积层后均接有批归一化和relu激活函数，其中包括至少一个残差连接；

27、全局池化层：采用自适应平均池化(adaptiveavgpool1d)；

28、分类模块：包含多个全连接层(linear)。

29、具体地，所述语序调整、成分补全并删去不合语义的检测结果个例，包括：遍历输入的孤立词预测结果，并尝试将连续的预测结果组合匹配到预设词句库中定义的任何一个句子，包括：

30、预设词句库定义：预设词句库中的每个条目包含一个标签、该句子的长度及一个单词序列；

31、匹配函数：如果单词序列和预测结果序列的交集大小大于等于所需的最小匹配长度，并且单词序列和预测结果序列的交集大小加上允许的插入个例数大于等于子列表的长度，则匹配成功；否则，不匹配；

32、循环处理函数：迭代输入预测结果序列，检查每个可能的句式，如果子列表与序列成功匹配，则在结果中添加句式标签；如果不匹配，则添加当前元素。

33、本专利技术公开了一种结合特征帧检测与自然语言辅助的手语识别方法，与现有技术相比，本专利技术有益效果在于：

34、(1)将常用于孤立手语的特征帧识别应用于连续手语识别，把连续视频预测转为图片预测，提高算法运行速度，有利于实现实时输出预测结果；

35、(2)采用mediapipe-1dcnn复合模型，提取手部关键点与手-肘-肩-头位置坐标，把直接对整张图片进行预测转为对关键点的预测，可以直接使用一维卷积网络1dcnn以简化网络结构，减少冗余信息的负面影响；<本文档来自技高网...

【技术保护点】

1.一种结合特征帧检测与自然语言辅助的手语识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种结合特征帧检测与自然语言辅助的手语识别方法，其特征在于，所述手部关键点坐标与手-肘-肩-头的相对位置，表示为：

3.根据权利要求1所述的一种结合特征帧检测与自然语言辅助的手语识别方法，其特征在于，所述对属于相同手语含义类别的视频选取相同瞬时动作序列做为特征帧，算法表达为：

4.根据权利要求1所述的一种结合特征帧检测与自然语言辅助的手语识别方法，其特征在于，所述聚类分析，具体为：选用Bi-Kmeans聚类，表示为：

5.根据权利要求1所述的一种结合特征帧检测与自然语言辅助的手语识别方法，其特征在于，所述Mediapipe-1DCNN复合模型，具体为：调用Mediapipe框架中的人体姿势检测与手部关键点检测函数库，并使用此函数库对三通道RGB图片进行预测，返回pos&dis(t)经处理后得到Feature[C,V,num,pos&dis]，作为1DCNN模型的输入；1DCNN模型包括：

6.根据权利要

...

【技术特征摘要】

1.一种结合特征帧检测与自然语言辅助的手语识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种结合特征帧检测与自然语言辅助的手语识别方法，其特征在于，所述手部关键点坐标与手-肘-肩-头的相对位置，表示为：

4.根据权利要求1所述的一种结合特征帧检测与自然语言辅助的手语识别方法，其特征在于，所述聚类分析，具体为：选用bi-kmeans聚类，表示为：

5.根据权利要求1所述的一种结合特征...

【专利技术属性】
技术研发人员：孟庆鸿，郝沅鑫，马崇理，
申请(专利权)人：哈尔滨工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人