一种基于深度学习的实时手语识别系统及装置制造方法及图纸

技术编号：43298290 阅读：27 留言：0更新日期：2024-11-12 16:15

本发明专利技术提供一种基于深度学习的实时手语识别系统及装置，涉及视频识别技术领域。该基于深度学习的实时手语识别系统及装置，利用摄像头获取实时的手语RGB视频，将视频进行抽帧，把抽帧剩下的图像进行图像预处理，将处理后的数据输入Mediapipe网络进行关键点检测，之后将检测的关键点数据输入Transformer网络进行手语分类。该系统有实时性、识别率高等特点，能够实时检测人体关键点并进行手语识别，手语识别系统可以将手语动作转化为可理解的文字或语音信息，从而帮助聋哑人士与非手语用户进行无障碍的交流，具有广泛的应用前景，可部署在聋哑学校、商场、医院等地方辅助听障人士交流。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视频识别，具体为一种基于深度学习的实时手语识别系统及装置。

技术介绍

1、手语是一种以手部动作、手势和身体姿势为基础的视觉语言，被聋哑人士用来进行沟通和表达。然而，对于非手语用户来说，理解手语并进行交流可能是一项挑战。手语识别技术的出现为聋哑人士提供了更多的交流方式。通过利用计算机视觉和机器学习技术，手语识别系统可以将手语动作转化为可理解的文字或语音信息，从而帮助聋哑人士与非手语用户进行无障碍的交流。

2、手语识别的意义在于，它能够促进聋哑人士的社交融入和参与度。这项技术使得聋哑人士能够更轻松地与家人、朋友和社会大众进行沟通，消除了他们在面对面交流中的障碍。此外，手语识别技术还为聋哑人士提供了更多的教育和就业机会，使他们能够参与到更广泛的社会活动中去。

3、目前，手语识别技术已经取得了一定的进展，但仍面临一些挑战。手语的多样性和复杂性使得手语识别算法的设计变得复杂。此外，不同的手语系统存在差异，需要针对不同的手语系统进行适配和训练。这就需要更多的研究和开发来提高手语识别的准确性和实用性。目前手语识别方式主要分为两种，一种是通过穿戴式设备如手语识别手套，根据手套上的传感器来采集手部动作，根据这些动作信息来进行手语识别，这种方式需要专门的穿戴设备，较为不便。另一种是基于摄像头获取手语视频数据的识别方式，将手语视频进行特征提取，然后将特征使用模板匹配或其它机器学习方法进行识别。目前这两种手语识别方法识别率较低，难以满足实时手语识别的需求。

4、为此，我们研发出了新的一种基于深度学习的实时手语识别系统及装置。

技术实现思路

1、(一)解决的技术问题

2、针对现有技术的不足，本专利技术提供了一种基于深度学习的实时手语识别系统及装置，解决了现有技术中两种手语识别方式均存在一定的缺陷，其中，一种是通过穿戴式设备如手语识别手套，根据手套上的传感器来采集手部动作，根据这些动作信息来进行手语识别，这种方式需要专门的穿戴设备，较为不便；另一种是基于摄像头获取手语视频数据的识别方式，将手语视频进行特征提取，然后将特征使用模板匹配或其它机器学习方法进行识别。目前这两种手语识别方法识别率较低，难以满足实时手语识别的需求的问题。

3、(二)技术方案

4、为实现以上目的，本专利技术通过以下技术方案予以实现：一种基于深度学习的实时手语识别系统及装置，包括图像采集的摄像头模块、数据处理分析的主机模块和展示手语识别结果的显示模块，所述摄像头将采集到的数据实时传到数据处理分析主机模块，经过数据预处理和神经网络模型推理后结果传输到显示模块，用户便可以获取手语视频的含义；

5、其中，使用摄像头采集实时手语视频数据并抽取固定长度的帧数，利用med i api pe网络模型对抽取到的视频帧进行人体骨骼关键点和面部关键点进行检测，将关键点数据输入transformer的编码器网络，输出手语分类结果，将结果返回到手语识别系统。

6、优选的，所述实时手语识别模型的训练和识别方法包括以下具体步骤：

7、步骤一、数据采集与预处理：

8、多人对常见的500种手语词汇重复演示多遍，每段手语视频录制时长大约3s；

9、在系统发出开始识别信号后3s内，进行手语视频录制；

10、对录制的视频进行随机抽帧，总共抽取30帧，形成一个视频序列f＝[f1,f2.....f30]；

11、步骤二、面部、身体、手部关键点检测：

12、使用med i ap i pe中的ho l i st i c模型对视频帧中人体关键点进行矩阵检测，每帧包含33个身体关键点的三维位置以及置信度数据、468个面部关键点的三维位置数据以及左右手部各21个关键点的三维位置数据；

13、将单帧所有的关键点数据进行展平操作，30帧数据总共有30*1662个数据；

14、其中，第一维度代表视频的时间信息，第二维度数据代表视频动作的空间信息，手语不同于简单的空间手势识别，是连续的时空信息，所以上述的包含了时空信息的数据点可以作为手语识别的数据要素；

15、步骤三、数据标注及训练：

16、将得到的人体关键点数据进行标注，标注视频分为500类，将标注好的视频人体关键点信息和分类数据按照8：2分成训练集和测试集；

17、将数据集送入transformer网络进行训练，训练后的模型使用测试集进行效果验证。

18、优选的，训练过程中使用的损失函数为交叉熵损失函数，交叉熵损失函数按照预测类别与实际类别进行比较，根据概率与实际预期值的差距进行惩罚，其中，交叉熵损失函数的定义为：

19、

20、其中，ti取值为0或者1，为样本标签值，pi为样本预测值为第i类的可能性。

21、优选的，所述transformer网络编码器包含4层，多头注意力机制中头的数量为6，激活函数为re l u，前馈神经网络隐藏层节点数为2048，丢失率设置为0.1，然后将输出结果连接一个全连接神经网络，输出500分类的概率结果。

22、优选的，在使用训练好的模型进行推理时，将预测结果的最大概率值作为分类结果，调节检测的阈值可控制目标分类的结果的置信度，将置信度低于阈值的舍弃，只有置信度高于阈值的检测结果才被认为是正确的手语分类结果。

23、(三)有益效果

24、本专利技术提供了一种基于深度学习的实时手语识别系统及装置。具备以下

25、有益效果：

26、本专利技术利用摄像头获取实时的手语rgb视频，将视频进行抽帧，把抽帧剩下的图像进行图像预处理，将处理后的数据输入med i ap i pe网络进行关键点检测，之后将检测的关键点数据输入transformer网络进行手语分类。该系统有实时性、识别率高等特点，能够实时检测人体关键点并进行手语识别，手语识别系统可以将手语动作转化为可理解的文字或语音信息，从而帮助聋哑人士与非手语用户进行无障碍的交流，具有广泛的应用前景，可部署在聋哑学校、商场、医院等地方辅助听障人士交流。

本文档来自技高网...

【技术保护点】

1.一种基于深度学习的实时手语识别系统及装置，包括图像采集的摄像头模块、数据处理分析的主机模块和展示手语识别结果的显示模块，其特征在于：所述摄像头将采集到的数据实时传到数据处理分析主机模块，经过数据预处理和神经网络模型推理后结果传输到显示模块，用户便可以获取手语视频的含义；

2.根据权利要求1所述的一种基于深度学习的实时手语识别系统及装置，其特征在于，所述实时手语识别模型的训练和识别方法包括以下具体步骤：

3.根据权利要求2所述的一种基于深度学习的实时手语识别系统及装置，其特征在于：训练过程中使用的损失函数为交叉熵损失函数，交叉熵损失函数按照预测类别与实际类别进行比较，根据概率与实际预期值的差距进行惩罚，其中，交叉熵损失函数的定义为：

4.根据权利要求3所述的一种基于深度学习的实时手语识别系统及装置，其特征在于：所述Transformer网络编码器包含4层，多头注意力机制中头的数量为6，激活函数为Relu，前馈神经网络隐藏层节点数为2048，丢失率设置为0.1，然后将输出结果连接一个全连接神经网络，输出500分类的概率结果。

5.根

...

【技术特征摘要】

2.根据权利要求1所述的一种基于深度学习的实时手语识别系统及装置，其特征在于，所述实时手语识别模型的训练和识别方法包括以下具体步骤：

3.根据权利要求2所述的一种基于深度学习的实时手语识别系统及装置，其特征在于：训练过程中使用的损失函数为交叉熵损失函数，交叉熵损失函数按照预测类别与实际类别进行比较，根据概率与实际预期值的差距进行...

【专利技术属性】
技术研发人员：张桢君，李阳，娄彦利，程向明，张益恭，苏婕，刘笛，闫怀平，
申请(专利权)人：安阳工学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人