基于自监督学习的视听语音识别方法、设备和存储介质技术

技术编号：41858501 阅读：2 留言：0更新日期：2024-06-27 18:32

基于自监督学习的视听语音识别方法、设备和存储介质，属于数据处理技术领域，解决语音识别技术识别精度低和过度依赖标注数据成本高问题。本发明专利技术的方法包括：将视觉信息与音频信息结合起来进行语音识别，降低识别的错误率，并加入自监督预训练，通过对基于自监督模型的视听语音识别技术研究；在对视频数据特征提取中，在原来的卷积神经网络的基础上，加入了空间注意力机制和时间注意力机制，并且为防止模型在特定区域过度集中注意力，导致过拟合，还在模型参数中加入了正则化技术；利用随机掩蔽的策略，让模型进行自监督训练，进而提高模型的泛化能力；增强模型在复杂环境下的鲁棒性。本发明专利技术适用于需要高精度语音识别的各种应用场景。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及数据处理，尤其涉及语音识别方法。

技术介绍

1、在理想的无噪声条件下，单模态的音频语音识别系统能够取得不错的识别效果。然而，在真实世界的自然环境下，噪声的存在往往不可避免，这对识别的准确性构成了显著的挑战。

2、当前，领先的语音识别技术主要采用基于有监督学习的训练方式，这一方法依赖于配对的语音和文本数据。而全球近7000种语言中的大多数都难以获得这些配对数据。现有技术中，通过融合视觉信息的双模态视听语音识别技术为解决此问题提供了新的路径，但是，视频质量的不佳或说话者面部部分遮挡都可能削弱视觉信息的有效性，并且对于资源稀缺的语言，由于现有技术对大量标注数据的依赖，导致很难达到语音识别的要求，而且现有技术仍存在由于各种噪声导致的语音识别精度过低的技术问题。

技术实现思路

1、本专利技术目的是为了解决现有语音识别技术识别精度低和过度依赖标注数据成本高的问题，提供了基于自监督学习的视听语音识别方法、设备和存储介质。

2、本专利技术是通过以下技术方案实现的，本专利技术一方面，提供一种基于自监督学习的视听语音识别方法，所述方法包括：

3、步骤1：将获取到的音视频数据集分离为音频文件和视频文件，对所述视频文件进行预处理，获取图像数据；

4、步骤2：对于所述音频文件，提取出mfcc特征；根据所述图像数据，得到图像特征；

5、步骤3：使用自监督学习方法和随机掩蔽策略分别训练音频和视觉编码器；

6、步骤4：将音频特征和图

7、步骤5：将融合特征x送入到基于conformer的解码器，解码器解析融合特征x，输出最终的语音识别结果。

8、进一步地，步骤1中，所述对所述视频文件进行预处理，获取图像数据，具体包括：对所述视频文件提取视频帧，检测视频帧图像的嘴部，并将其转化为灰度图，得到图像数据。

9、进一步地，步骤2，具体包括：

10、对于所述音频文件，提取出mfcc特征，得到音频特征；

11、对于所述图像数据，采用基于二维卷积核构成的卷积网络进行卷积处理，得到图像特征。

12、进一步地，所述采用基于二维卷积核构成的卷积神经网络进行卷积处理，得到图像特征，具体包括：

13、进行卷积操作：

14、

15、其中，为图像序列，，t为序列的长度，每帧图像的维度为，是通道数，=1，h和w分别是帧的高度和宽度，的维度为，w为卷积核的权重，f为激活函数relu，b是一个偏置项；

16、采用最大化池化处理函数：

17、,

18、为池化层处理后的特征图；

19、获取空间注意力权重，调整特征图，具体为：

20、,

21、,

22、其中，为空间注意力权重，为调整后的特征图，为输入特征；

23、加入时间注意力机制，具体为：

24、查询向量，键向量，

25、时间注意力权重的计算公式为：，其中，为时间步t的时间注意力权重；

26、使用时间注意力权重加权每一帧的特征，具体为：

27、，为考虑时间注意力后的特征；

28、通过对所有时间步的加权特征进行汇总，得到图像的综合特征表示为：

29、

30、其中，为融合了空间和时间注意力机制的图像特征。

31、进一步地，所述卷积处理的损失函数为：

32、

33、其中，表示观察样本o的真实标签在类别c上的指示，如果o属于类别c，则值为1，否则，值为0；是模型基于图像特征的预测输出；公式中，第一项是针对所有类别的交叉熵损失，第二项是所有模型权重的l2正则化项，λ是正则化系数。

34、进一步地，步骤3，包括：

35、对于音频特征和图像特征，根据掩蔽比例对时间步进行掩蔽，具体为：

36、

37、其中，和分别是随机选定的需要被掩码的音频和图像索引合集；

38、最小化预测值和真实值的差异，具体为：

39、,

40、其中，和分别表示除了被掩码的部分外的音频和图像特征序列，和分别是音频和图像的损失函数，用于评估模型在预测掩码部分的性能。

41、进一步地，步骤4，包括：

42、对音频特征和图像特征进行编码，具体为：

43、,

44、其中，ea为音频特征编码，ev为图像特征编码；

45、将音频特征编码和图像特征编码进行拼接，具体为：；

46、将两特征编码输入多头自注意力机制，具体为：，

47、其中，每个头对应的注意力为：

48、

49、其中，q，k，v分别是查询query、键key和值value矩阵，是键向量的维度；

50、每个头的输出被重新组合并通过一个线性层进行处理，得到最终的mhsa输出；

51、通过一个前馈网络进一步处理mhsa的输出，得到最终的融合特征：。

52、第二方面，本专利技术提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，当所述处理器运行所述存储器存储的计算机程序时执行如上文所述的一种基于自监督学习的视听语音识别方法的步骤。

53、第三方面，本专利技术提供一种计算机可读存储介质，所述计算机可读存储介质中存储有多条计算机指令，所述多条计算机指令用于使计算机执行如上文所述的一种基于自监督学习的视听语音识别方法。

54、第四方面，本专利技术提供一种电子设备，包括：

55、至少一个处理器；以及，

56、与所述至少一个处理器通信连接的存储器；其中，

57、所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上文所述的一种基于自监督学习的视听语音识别方法。

58、本专利技术的有益效果：

59、本专利技术公布了一种基于自监督学习的视听语音识别方法，将视觉信息与音频信息结合起来进行语音识别，降低识别的错误率，并加入自监督预训练，通过对基于自监督模型的视听语音识别技术研究，旨在降低识别的错误率、减少视听语音识别系统的复杂性和资源的耗费。

60、首先，在对图像数据特征提取中，在原来的卷积神经网络的基础上，加入了空间注意力机制和时间注意力机制，并且为防止模型在特定区域过度集中注意力，导致过拟合，还在模型参数中加入了正则化技术，进而提高了网络对图像中关键部分的感知能力，并与音频信息进行有效结合，进而提升语音识别精度。

61、其次，利用随机掩蔽的策略，让模型进行自监督训练，进而提高模型的泛化能力；增强模型在复杂环境下的鲁棒性；在一定程度本文档来自技高网...

【技术保护点】

1.一种基于自监督学习的视听语音识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于自监督学习的视听语音识别方法，其特征在于，步骤1中，所述对所述视频文件进行预处理，获取图像数据，具体包括：对所述视频文件提取视频帧，检测视频帧图像的嘴部，并将其转化为灰度图，得到图像数据。

3.根据权利要求2所述的一种基于自监督学习的视听语音识别方法，其特征在于，步骤2，具体包括：

4.根据权利要求3所述的一种基于自监督学习的视听语音识别方法，其特征在于，所述采用基于二维卷积核构成的卷积神经网络进行卷积处理，得到图像特征，具体包括：

5.根据权利要求4所述的一种基于自监督学习的视听语音识别方法，其特征在于，所述卷积处理的损失函数为：

6.根据权利要求1所述的一种基于自监督学习的视听语音识别方法，其特征在于，步骤3，包括：

7.根据权利要求1所述的一种基于自监督学习的视听语音识别方法，其特征在于，步骤4，包括：

8.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，其特征在于，当所述

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有多条计算机指令，所述多条计算机指令用于使计算机执行权利要求1至7中任一项所述的方法。

10.一种电子设备，其特征在于，包括：

...

【技术特征摘要】

1.一种基于自监督学习的视听语音识别方法，其特征在于，所述方法包括：

3.根据权利要求2所述的一种基于自监督学习的视听语音识别方法，其特征在于，步骤2，具体包括：

5.根据权利要求4所述的一种基于自监督学习的视听语音识别方法...

【专利技术属性】
技术研发人员：车娜，朱奕明，宗世英，赵剑，史丽娟，孙磊，岳莉，刘艳，姜燕，曾现伟，
申请(专利权)人：长春大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人