当前位置: 首页 > 专利查询>中国人民解放军军事科学院国防科技创新研究院专利>正文

一种基于多视角唇动图像的语音识别方法及装置制造方法及图纸

技术编号：44225752 阅读：0 留言：0更新日期：2025-02-11 13:31

本发明专利技术公开了一种基于多视角唇动图像的语音识别方法及装置。该方法包括：获取待处理图像信息和角度信息；所述待处理图像信息包括M个唇动图像信息；所述角度信息包括N个唇部角度；对所述待处理图像信息和所述角度信息进行融合处理，得到目标图像结果信息；所述目标图像结果信息包括L个唇动图像结果信息；所述L为大于等于1，小于等于N的正整数；基于所述目标图像结果信息，确定出语音识别结果信息。可见，本申请有利于更全面地捕捉语音信息，以提高在真实场景中的语音识别性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉及人机交互领域，尤其涉及一种基于多视角唇动图像的语音识别方法及装置。

技术介绍

1、在当今数字化的时代，人机交互方式正经历着革命性的变革，其中一项备受瞩目的技术是语音识别。语音识别技术允许计算机系统理解并转换口头语言为可操作的文本或指令，从而打破了传统输入方式的限制，为用户提供了更自然、便捷的交互体验。随着深度学习的发展，语音识别
除了传统的音频信息输入，视觉信息也被引入，推动了一类备受关注的技术——视觉语音识别(visual speech recognition)及其进一步的演进，即音视频融合的语音识别(audio-visual speech recognition)。

2、vsr专注于利用唇部运动的视觉特征，通过计算机视觉技术实现对口型的识别。通过分析嘴部形状、唇部运动等信息，vsr能够在无声音的情况下，理解和识别言语。这对于嘈杂环境、语音质量差或者需要保持缄默的环境中的语音识别任务具有重要意义。

3、avsr将视觉语音识别与音频信号相结合，进一步提高语音识别的性能。由于视觉信号和音频信号有很强的互补性，经常会联合作为模型的多模态输入。当音频信号的信噪比较低(即含较多背景噪音)时，视觉上下文信息能起到很好的补充和增强作用，而音频信号能有效的缓解视素与音素一对多的视觉歧义问题。通过同时利用音频和视觉信息，avsr可以更准确地还原说话者的语音，尤其在嘈杂环境下表现优越。

4、在现实场景使用唇语识别技术时，不论vsr还是avsr，大多数研究都只考虑了正面或者近正面的

技术实现思路

1、本专利技术所要解决的技术问题在于，提供一种基于多视角唇动图像的语音识别方法及装置，以更全面地捕捉语音信息，提高在真实场景中的语音识别性能。

2、为了解决上述技术问题，本专利技术实施例第一方面公开了一种基于多视角唇动图像的语音识别方法，所述方法包括：

3、s1，获取待处理图像信息和角度信息；所述待处理图像信息包括m个唇动图像信息；所述角度信息包括n个唇部角度；

4、s2，对所述待处理图像信息和所述角度信息进行融合处理，得到目标图像结果信息；所述目标图像结果信息包括l个唇动图像结果信息；所述l为大于等于1，小于等于n的整数；

5、s3，基于所述目标图像结果信息，确定出语音识别结果信息。

6、作为一种可选的实施方式，在本专利技术实施例第一方面中，所述对所述待处理图像信息和所述角度信息进行融合处理，得到目标图像结果信息，包括：

7、s21，对所述待处理图像信息和所述角度信息进行融合处理，得到目标角度和目标图像信息；所述目标图像信息包括若干个唇动目标图像信息；

8、s22，基于所述角度信息，确定目标模型信息；

9、s23，基于所述目标图像信息、所述目标角度和所述目标模型信息，确定出目标图像结果信息。

10、作为一种可选的实施方式，在本专利技术实施例第一方面中，对所述待处理图像信息和所述角度信息进行融合处理，得到目标角度和目标图像信息，包括：

11、s211，对所述角度信息中的所述n个所述唇部角度按照从大到小的顺序进行排序，得到预处理角度信息；

12、s212，对任一所述唇动图像信息进行特征提取，得到该唇动图像信息对应的第一角度；

13、s213，判断该唇动图像信息对应的所述第一角度是否大于所述预处理角度信息中的第一个所述唇部角度，得到第一判断结果；

14、当所述第一判断结果为否时，判断该第一角度是否小于所述预处理角度信息中的第n个所述唇部角度，得到第二判断结果；

15、当所述第二判断结果为否时，确定该唇动图像信息为目标图像信息中的一个唇动目标图像信息；

16、基于该第一角度与所述预处理角度信息，确定出该唇动目标图像信息对应的第二角度；

17、当所述第二判断结果为否时，结束所述第二判断结果对应的判断流程；

18、当所述第一判断结果为否时，结束所述第一判断结果对应的判断流程；

19、s214，对所述目标图像信息中的所有所述唇动目标图像信息对应的所述第二角度按角度大小进行归类处理，得到角度归类信息；所述角度归类信息包括若干个角度归类值；所述角度归类值表征同一所述第二角度的数量；

20、s215，确定最大的所述角度归类值对应的所述第二角度，为目标角度。

21、作为一种可选的实施方式，在本专利技术实施例第一方面中，所述对任一所述唇动图像信息进行特征提取，得到该唇动图像信息对应的第一角度，包括：

22、s2121，利用唇动图像计算模型，对任一所述唇动图像信息进行融合处理，得到该唇动图像信息对应的预处理图像信息；

23、其中，所述唇动图像计算模型为：

24、

25、式中，xs为所述预处理图像信息，dxs为第一像素值，xxs为第二像素值，hdi为所述唇动图像信息对应的第i个像素值，jbi为所述唇动图像信息对应的第i个像素值的局部均值，cs为第一修正参数，bzi为所述唇动图像信息对应的第i个像素值的局部方差，iall为所述唇动图形信息的像素值的总数量；

26、s2122，对该唇动图像信息对应的预处理图像信息进行融合处理，得到该唇动图像信息对应的特征信息；所述特征信息包括第一坐标信息、第二坐标信息和第三坐标信息；

27、s2123，基于该唇动图像信息对应的特征信息，确定出该唇动图像信息对应的第一角度。

28、作为一种可选的实施方式，在本专利技术实施例第一方面中，所述基于所述角度信息，确定目标模型信息，包括：

29、s221，基于所述角度信息，获取预识别模型信息和第一信息集；所述预识别模型信息包括唇部预识别模型；所述第一信息集包括p个第一信息；

30、其中，所述p的计算表达式为：

31、

32、式中，n为所述角度信息中所述唇部角度的数量，表示从n个元素中选取i个元素进行组合的数量，1≤i≤n；

33、s222，对所述预识别模型信息和所述第一信息集进行训练处理，得到目标模型信息；所述目标模型信息包括所述p个唇部识别模型。

34、作为一种可选的实施方式，在本专利技术实施例第一方面中，所述基于所述目标图像信息、所述目标角度和所述目标模型信息，确定出目标图像结果信息，包括：

35、s231，基于所述目标角度，获取第二信息集；

36、s232，利用所述目标模型信息中任一唇部识别模型，对所述第二信息集进行计算处理，得到该唇部识别模型对本文档来自技高网...

【技术保护点】

1.一种基于多视角唇动图像的语音识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于多视角唇动图像的语音识别方法，其特征在于，所述对所述待处理图像信息和所述角度信息进行融合处理，得到目标图像结果信息，包括：

3.根据权利要求2所述的基于多视角唇动图像的语音识别方法，其特征在于，对所述待处理图像信息和所述角度信息进行融合处理，得到目标角度和目标图像信息，包括：

4.根据权利要求3所述的基于多视角唇动图像的语音识别方法，其特征在于，所述对任一所述唇动图像信息进行特征提取，得到该唇动图像信息对应的第一角度，包括：

5.根据权利要求2所述的基于多视角唇动图像的语音识别方法，其特征在于，所述基于所述角度信息，确定目标模型信息，包括：

6.根据权利要求2所述的基于多视角唇动图像的语音识别方法，其特征在于，所述基于所述目标图像信息、所述目标角度和所述目标模型信息，确定出目标图像结果信息，包括：

7.根据权利要求6所述的基于多视角唇动图像的语音识别方法，其特征在于，所述基于所述目标图像信息和所述目标识别模型信息

8.一种基于多视角唇动图像的语音识别装置，其特征在于，所述装置包括：

9.一种基于多视角唇动图像的语音识别装置，其特征在于，所述装置包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令被调用时，用于执行如权利要求1-7任一项所述的基于多视角唇动图像的语音识别方法。

...

【技术特征摘要】

1.一种基于多视角唇动图像的语音识别方法，其特征在于，所述方法包括：

5.根据权利要求2所述的基于多视角唇动图像的语音识别方法，其特征在于，所述基于所述角度信息，确定目标模型信息，包括...

【专利技术属性】
技术研发人员：印二威，张星昱，沈继侠，张亚坤，郑昌艳，谢良，张皓洋，赵少楷，闫野，
申请(专利权)人：中国人民解放军军事科学院国防科技创新研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人