语音识别模型的训练方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：44468131 阅读：0 留言：0更新日期：2025-03-04 17:40

本发明专利技术属于金融、医疗和人工智能技术领域，公开了一种语音识别模型的训练方法、装置、计算机设备及存储介质，所述方法包括：获取特定任务语音训练数据，根据语音识别的特定场景定义特定任务输入指令，并调整预训练语音识别模型的先验文本序列的输入格式；将调整输入格式后的先验文本序列和音频编码向量输入至预训练语音识别模型的解码器中进行解码，并根据解码结果预测预训练语音识别模型输出的字符序列；根据预测的字符序列定义单调性限制损失函数，并基于定义的单调性限制损失函数构建目标损失函数；基于目标损失函数对训练时的语音识别模型进行更新，得到训练好的语音识别模型。本发明专利技术提升了语音识别模型在特定场景中进行语音识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音识别，尤其涉及一种语音识别模型的训练方法、装置、计算机设备及存储介质。

技术介绍

1、语音识别技术是一种能够将人类语音信号转换为相应文本或指令的技术，其在人工智能、自然语言处理、机器翻译等领域都有着广泛的应用。传统的语音识别往往主要依赖人工录入的方式进行识别，该方式不仅效率低下，还会产生较高的人工成本。而语音识别模型借助对海量互联网语音数据的训练，已经具备了对多种语言进行自然流畅识别的能力，这使得语音识别工作的效率获得了极大程度的提升，同时也大幅度的降低了人工成本。

2、预训练的语音识别模型通常是在大规模通用语音数据上训练得到的，能处理较为宽泛的语音识别场景，然而，在面对诸如金融、医疗等特定的语音识别场景，该模型的语音识别效果不佳，而在语音识别模型训练时进行微调，可以使其更好地适配这些特定场景的需求，进而提升语音识别模型在特定场景下的识别准确率。传统的语音识别模型的微调方法，大多是以transformer结构作为基础架构，先是去收集并标注那些针对特定场景的语音数据，然后利用这些数据来对预训练的语音模型进行训练。但transformer结构缺乏关注语音识别任务中特有的输入语音信号与输出文本的单调对齐特性，同时缺少特定任务的指令输入，导致训练好的语音识别模型在特定场景下进行语音识别的准确率不高。

技术实现思路

1、本专利技术提供一种语音识别模型的训练方法、装置、计算机设备及存储介质，以解决现有的语音识别模型在特定场景下的语音识别效果不佳的技术问题。

2、第一方面，提供了一种语音识别模型的训练方法，包括：

3、获取预训练语音识别模型，以及所述预训练语音识别模型对应的多任务语音训练数据，并对获取的多任务语音训练数据进行数据预处理；

4、对数据预处理后的多任务语音训练数据进行音频特征提取，得到多任务语音训练数据的音频特征序列；

5、将提取的多任务语音训练数据的音频特征序列输入至预训练语音识别模型的编码器中进行编码，得到多任务语音训练数据的音频编码向量；

6、获取特定任务语音训练数据，根据语音识别的特定场景定义特定任务输入指令，并根据定义的特定任务输入指令调整预训练语音识别模型的先验文本序列的输入格式；

7、将调整输入格式后的先验文本序列和多任务语音训练数据的音频编码向量输入至预训练语音识别模型的解码器中进行解码，并根据解码结果预测所述预训练语音识别模型输出的字符序列；

8、根据预测的预训练语音识别模型输出的字符序列构建训练时的语音识别模型的单调性限制损失函数，并基于构建的单调性限制损失函数构建训练时的语音识别模型的目标损失函数；

9、基于构建的目标损失函数对训练时的语音识别模型进行更新，得到训练好的语音识别模型。

10、第二方面，提供了一种语音识别模型的训练装置，所述装置用于实现如上述第一方面所述的语音识别模型的训练方法，包括：

11、获取模块，用于获取预训练语音识别模型以及所述预训练语音识别模型对应的多任务语音训练数据，并对获取的多任务语音训练数据进行数据预处理；

12、特征提取模块，用于对数据预处理后的多任务语音训练数据进行音频特征提取，得到多任务语音训练数据的音频特征序列；

13、编码模块，用于将提取的多任务语音训练数据的音频特征序列输入至预训练语音识别模型的编码器中进行编码，得到多任务语音训练数据的音频编码向量；

14、调整模块，用于获取特定任务语音训练数据，根据语音识别的特定场景定义特定任务输入指令，并根据定义的特定任务输入指令调整预训练语音识别模型的先验文本序列的输入格式；

15、解码模块，用于将调整输入格式后的先验文本序列和多任务语音训练数据的音频编码向量输入至预训练语音识别模型的解码器中进行解码，并根据解码结果预测预训练语音识别模型输出的字符序列；

16、构建模块，用于根据预测的预训练语音识别模型输出的字符序列构建训练时的语音识别模型的单调性限制损失函数，并基于构建的单调性限制损失函数构建训练时的语音识别模型的目标损失函数；

17、更新模块，用于基于构建的目标损失函数对训练时的语音识别模型进行更新，得到训练好的语音识别模型。

18、第三方面，提供了一种计算机设备，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述语音识别模型的训练方法的步骤。

19、第四方面，提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述语音识别模型的训练方法的步骤。

20、上述基于语音识别模型的训练方法、装置、计算机设备及存储介质所实现的方案中，可以通过客户端获取预训练语音识别模型，以及所述预训练语音识别模型对应的多任务语音训练数据，并对获取的多任务语音训练数据进行数据预处理；对数据预处理后的多任务语音训练数据进行音频特征提取，得到多任务语音训练数据的音频特征序列；将提取的多任务语音训练数据的音频特征序列输入至预训练语音识别模型的编码器中进行编码，得到多任务语音训练数据的音频编码向量；获取特定任务语音训练数据，根据语音识别的特定场景定义特定任务输入指令，并根据定义的特定任务输入指令调整预训练语音识别模型的先验文本序列的输入格式；将调整输入格式后的先验文本序列和多任务语音训练数据的音频编码向量输入至预训练语音识别模型的解码器中进行解码，并根据解码结果预测所述预训练语音识别模型输出的字符序列；根据预测的预训练语音识别模型输出的字符序列构建训练时的语音识别模型的单调性限制损失函数，并基于构建的单调性限制损失函数构建训练时的语音识别模型的目标损失函数；基于构建的目标损失函数对训练时的语音识别模型进行更新，得到训练好的语音识别模型，在本专利技术中，通过对语音识别的特定场景定义特定任务输入指令，以引导语音识别模型在训练时可以更加关注于特定场景的语义，并构建训练时的语音识别模型的单调性限制损失函数，使得语音识别模型可以关注到特定场景的输入语音信号与输出文本序列的单调对齐特性，提升了语音识别模型在特定场景中进行语音识别的准确率。

本文档来自技高网...

【技术保护点】

1.一种语音识别模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的语音识别模型的训练方法，其特征在于，所述对获取的多任务语音训练数据进行数据预处理，包括：

3.根据权利要求1所述的语音识别模型的训练方法，其特征在于，所述对数据预处理后的多任务语音训练数据进行音频特征提取，得到多任务语音训练数据的音频特征序列，包括：

4.根据权利要求1所述的语音识别模型的训练方法，其特征在于，所述将提取的多任务语音训练数据的音频特征序列输入至预训练语音识别模型的编码器中进行编码处理，得到多任务语音训练数据的音频编码向量，包括：

5.根据权利要求1所述的语音识别模型的训练方法，其特征在于，所述将调整输入格式后的先验文本序列和多任务语音训练数据的音频编码向量输入至预训练语音识别模型的解码器中进行解码，并根据解码结果预测预训练语音识别模型输出的字符序列，包括：

6.根据权利要求1所述的语音识别模型的训练方法，其特征在于，所述根据预测的预训练语音识别模型输出的字符序列构建训练时的语音识别模型的单调性限制损失函数，包括：

8.一种语音识别模型的训练装置，所述装置用于实现如权利要求1-7任一项所述的语音识别模型的训练方法，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的语音识别模型的训练方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的语音识别模型的训练方法的步骤。

...

【技术特征摘要】

1.一种语音识别模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的语音识别模型的训练方法，其特征在于，所述对获取的多任务语音训练数据进行数据预处理，包括：

6.根据...

【专利技术属性】
技术研发人员：庄子扬，魏韬，王少军，肖京，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人