语音识别方法、装置、设备及存储介质制造方法及图纸

技术编号：40549991 阅读：10 留言：0更新日期：2024-03-05 19:08

本申请提供了一种语音识别方法、装置、设备及存储介质，具体实现方案为：基于第i帧音频的标签状态确定跳帧数；其中，i为正整数；利用所述跳帧数对所述第i帧音频进行跳帧解码处理，得到目标音频帧对应的非空白标签特征；其中，所述目标音频帧表示第i+1帧音频之前的标签状态为非空白标签的音频帧；基于所述第i+1帧音频和所述目标音频帧对应的非空白标签特征，预测所述第i+1帧音频的标签状态；根据所述第i+1帧音频的标签状态确定所述第i+1帧音频的语音识别结果。根据本申请的技术方案，能够显著提升推理速度，从而提高语音识别的效率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及语音识别，尤其涉及一种语音识别方法、装置、设备及存储介质。

技术介绍

1、语音识别指的是通过机器学习的方法让机器能够自动的将语音转换成对应的文字，从而赋予机器类似人听觉的功能。随着人工智能技术的不断突破，语音输入在越来越多的场景和业务领域发挥了巨大的作用。

2、在目前端到端的语音识别系统方案中，需要持续地处理输入的样本和数据流，并进行符号化的输出。端到端的语音识别模型虽然具有良好的识别性能，但受模型结构和内存占用的影响，推理速度慢，使得语音识别的效率较低。

技术实现思路

1、为了解决上述问题，本申请提出一种语音识别方法、装置、电子设备及存储介质，能够显著提升推理速度，从而提高语音识别的效率。

2、根据本申请实施例的第一方面，提供了一种语音识别方法，包括：

3、基于第i帧音频的标签状态确定跳帧数；其中，i为正整数；

4、利用所述跳帧数对所述第i帧音频进行跳帧解码处理，得到目标音频帧对应的非空白标签特征；其中，所述目标音频帧表示第i+1帧音频之前的标签状态为非空白标签的音频帧；

5、基于所述第i+1帧音频和所述目标音频帧对应的非空白标签特征，预测所述第i+1帧音频的标签状态；

6、根据所述第i+1帧音频的标签状态确定所述第i+1帧音频的语音识别结果。

7、可选地，所述基于第i帧音频的标签状态确定跳帧数，包括：

8、在第i帧音频的标签状态是空白标签的情况下，基于所述第i帧音频的空白标

9、在第i帧音频的标签状态是非空白标签的情况下，确定所述跳帧数为0。

10、可选地，所述在第i帧音频的标签状态是空白标签的情况下，基于所述第i帧音频的空白标签确定k个空白帧数，包括：

11、在空白标签为单个空白标签的情况下，确定所述空白帧数为1；

12、在空白标签为多个空白标签的情况下，根据所述多个空白标签的类型确定k个空白帧数。

13、可选地，在第i帧音频的标签状态是空白标签的情况下，所述利用所述跳帧数对所述第i帧音频进行跳帧解码处理，得到目标音频帧对应的非空白标签特征，包括：

14、基于所述第i帧音频和所述k个空白帧数，确定所述目标音频帧为第i-k帧音频，并提取第i-k帧音频对应的非空白标签特征。

15、可选地，在第i帧音频的标签状态是非空白标签的情况下，所述利用所述跳帧数对所述第i帧音频进行跳帧解码处理，得到目标音频帧对应的非空白标签特征，包括：

16、将所述第i帧音频确定为所述目标音频帧；

17、对所述第i帧音频的非空白标签进行解码，得到第i帧音频对应的非空白标签特征。

18、可选地，所述基于第i+1帧音频和所述目标音频帧对应的非空白标签特征，预测所述第i+1帧音频的标签状态，包括：

19、对所述第i+1帧音频和所述目标音频帧对应的非空白标签特征进行融合处理，得到联合音频特征；

20、根据所述联合音频特征进行回归预测，得到所述第i+1帧音频的标签状态。

21、可选地，所述根据所述联合音频特征进行回归预测，得到所述第i+1帧音频的标签状态，包括：

22、将所述联合音频特征输入至预设的回归预测模型得到所述第i+1帧音频的标签状态；其中，所述预设的回归预测模型是基于权重参数的梯度对标签状态为多个空白标签的权重参数进行优化得到的模型，所述权重参数的梯度是根据模型输出的标签状态以及所述模型输出的标签状态的损失确定的。

23、可选地，所述预设的回归预测模型的优化过程还包括：

24、根据所述预设的回归预测模型输出的标签状态确定对应的发射时间约束函数；

25、利用所述发射时间约束函数对所述权重参数的梯度进行约束。

26、根据本申请实施例的第二方面，提供了一种语音识别装置，包括：

27、确定模块，用于基于第i帧音频的标签状态确定跳帧数；其中，i为正整数；

28、处理模块，用于利用所述跳帧数对所述第i帧音频进行跳帧解码处理，得到目标音频帧对应的非空白标签特征；其中，所述目标音频帧表示第i+1帧音频之前的标签状态为非空白标签的音频帧；

29、预测模块，用于基于第i+1帧音频和所述目标音频帧对应的非空白标签特征，预测所述第i+1帧音频的标签状态；

30、识别模块，用于根据所述第i+1帧音频的标签状态确定所述第i+1帧音频的语音识别结果。

31、本申请第三方面提供了一种电子设备，包括：

32、存储器和处理器；

33、所述存储器与所述处理器连接，用于存储程序；

34、所述处理器，通过运行所述存储器中的程序，实现上述的语音识别方法。

35、本申请第四方面提供了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时，实现上述的语音识别方法。

36、上述申请中的一个实施例具有如下优点或有益效果：

37、基于第i帧音频的标签状态确定跳帧数；利用跳帧数对第i帧音频进行跳帧解码处理，得到目标音频帧对应的非空白标签特征；其中，非空白标签特征是在目标音频帧的标签状态为非空白标签的情况下对非空白标签进行特征提取得到的；基于第i+1帧音频和目标音频帧对应的非空白标签特征，预测第i+1帧音频的标签状态；根据第i+1帧音频的标签状态确定第i+1帧音频的语音识别结果。由此可见，根据第i帧音频的标签状态确定跳帧数以跳帧解码确定与第i帧音频最接近的标签状态为非空白标签的音频帧，从而确定该音频帧的非空白标签特征，这样，在下一帧音频的标签状态的预测过程中，无需持续对非空白标签进行解码，加快了下一帧音频的标签状态的预测速度，从而提升了语音识别的效率。

本文档来自技高网...

【技术保护点】

1.一种语音识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于第i帧音频的标签状态确定跳帧数，包括：

3.根据权利要求2所述的方法，其特征在于，所述在第i帧音频的标签状态是空白标签的情况下，基于所述第i帧音频的空白标签确定k个空白帧数，包括：

4.根据权利要求2所述的方法，其特征在于，在所述第i帧音频的标签状态是空白标签的情况下，所述利用所述跳帧数对所述第i帧音频进行跳帧解码处理，得到目标音频帧对应的非空白标签特征，包括：

5.根据权利要求2所述的方法，其特征在于，在所述第i帧音频的标签状态是非空白标签的情况下，所述利用所述跳帧数对所述第i帧音频进行跳帧解码处理，得到目标音频帧对应的非空白标签特征，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于所述第i+1帧音频和所述目标音频帧对应的非空白标签特征，预测所述第i+1帧音频的标签状态，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述联合音频特征进行回归预测，得到所述第i+1帧音频的标签状态，包括：

<...

【技术特征摘要】

1.一种语音识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于第i帧音频的标签状态确定跳帧数，包括：

3.根据权利要求2所述的方法，其特征在于，所述在第i帧音频的标签状态是空白标签的情况下，基于所述第i帧音频的空白标签确定k个空白帧数，包括：

5.根据权利要求2所述的方法，其特征在于，在所述第i帧音频的标签状态是非空白标签的情况下，所述利用所述跳帧数对所述第i帧音频进行跳帧解码处理，得到目标音频帧对应的非...

【专利技术属性】
技术研发人员：郭顺杰，宋亚楠，万根顺，熊世富，高建清，潘嘉，刘聪，
申请(专利权)人：科大讯飞股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人