语音识别模型训练方法、装置、设备及存储介质制造方法及图纸

技术编号：29875780 阅读：21 留言：0更新日期：2021-08-31 23:51

本申请提供一种语音识别模型训练方法、装置、设备及存储介质，方法包括：采用Wavenet前向网络和第一循环神经网络处理第一声学特征矩阵得到第三声学特征矩阵；采用第二循环神经网络处理第一文本特征矩阵得到第二文本特征矩阵；组合第三声学特征矩阵和第二文本特征矩阵，得到组合矩阵；以及，采用联合网络处理组合矩阵得到输出矩阵；根据样本语音对应的文本和输出矩阵，对Wavenet前向网络、第一循环神经网络、第二循环神经网络和联合网络进行训练。本方案通过使用Wavenet前向网络模块提高了序列建模的感受视野，优化了模型的训练速度和精度。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别模型训练方法、装置、设备及存储介质
本申请涉及自然语言处理
，具体涉及一种语音识别模型训练方法、装置、设备及存储介质。
技术介绍
随着神经网络在机器翻译、语音生成等方面的进展，基于的语音识别也达到了和传统方法可比的性能。不同于传统方法将语音识别任务分解为多个子任务（词汇模型，声学模型和语言模型），的语音识别模型基于梅尔语谱作为输入，能够直接产生对应的自然语言文本，大大简化了模型的训练过程，从而越来越受到学术界和产业界的关注。目前，典型的基于的语音识别模型包括循环神经网络-变换器（RecurrentNeuralNetworkTransducer，RNN-T）模型，其将语言模型和声学模型整合在一起进行联合优化；经过实践检验，RNN-T模型虽然具有联合优化、具有语言模型建模能力和具有单调性的优点，但是这一模型比较难训练。
技术实现思路
为了解决上述技术问题或者至少部分地解决上述技术问题，本申请提供一种语音识别模型训练方法和装置。一方面，本申请提供一种语音识别模型训练方法，包括：获取样本语音中各个分帧的频域特征向量，根据所述频域特征向量得到第一声学特征矩阵；采用Wavenet前向网络处理所述第一声学特征矩阵，得到第二声学特征矩阵；以及，采用第一循环神经网络处理所述第二声学特征矩阵，得到第三声学特征矩阵；获取所述样本语音对应文本中各个单词的词向量，根据所述词向量得到第一文本特征矩阵；以及，采用第二循环神经网络处理所述第一文本特征矩阵，得到第二文本特征矩阵...

【技术保护点】
1.一种语音识别模型训练方法，其特征在于，包括：/n获取样本语音中各个分帧的频域特征向量，根据所述频域特征向量得到第一声学特征矩阵；/n采用Wavenet前向网络处理所述第一声学特征矩阵，得到第二声学特征矩阵；以及，采用第一循环神经网络处理所述第二声学特征矩阵，得到第三声学特征矩阵；/n获取所述样本语音对应文本中各个单词的词向量，根据所述词向量得到第一文本特征矩阵；以及，采用第二循环神经网络处理所述第一文本特征矩阵，得到第二文本特征矩阵；/n组合所述第三声学特征矩阵和所述第二文本特征矩阵，得到组合矩阵；以及，采用联合网络处理所述组合矩阵得到输出矩阵；/n根据所述样本语音对应的文本和所述输出矩阵，对所述语音识别模型进行训练。/n

【技术特征摘要】
1.一种语音识别模型训练方法，其特征在于，包括：
获取样本语音中各个分帧的频域特征向量，根据所述频域特征向量得到第一声学特征矩阵；
采用Wavenet前向网络处理所述第一声学特征矩阵，得到第二声学特征矩阵；以及，采用第一循环神经网络处理所述第二声学特征矩阵，得到第三声学特征矩阵；
获取所述样本语音对应文本中各个单词的词向量，根据所述词向量得到第一文本特征矩阵；以及，采用第二循环神经网络处理所述第一文本特征矩阵，得到第二文本特征矩阵；
组合所述第三声学特征矩阵和所述第二文本特征矩阵，得到组合矩阵；以及，采用联合网络处理所述组合矩阵得到输出矩阵；
根据所述样本语音对应的文本和所述输出矩阵，对所述语音识别模型进行训练。

2.根据权利要求1所述的方法，其特征在于，
所述语音识别模型包括所述Wavenet前向网络、所述第一循环神经网络、所述第二循环神经网络和所述联合网络；
所述对所述语音识别模型进行训练，包括：对所述Wavenet前向网络、所述第一循环神经网络、所述第二循环神经网络和所述联合网络进行联合训练。

3.根据权利要求1所述的方法，其特征在于，
在采用Wavenet前向网络处理所述第一声学特征矩阵前，还包括：采用卷积运算模块处理所述第一声学特征矩阵，得到第四声学特征矩阵；
所述采用Wavenet前向网络处理所述第一声学特征矩阵，得到第二声学特征矩阵，包括：采用所述Wavenet前向网络处理所述第四声学特征矩阵，得到所述第二声学特征矩阵。

4.根据权利要求3所述的方法，其特征在于，所述采用卷积运算模块处理所述第一声学特征矩阵，得到第四声学特征矩阵，包括：
采用深度可分离卷积模块处理所述第一声学特征矩阵，得到所述第四声学特征矩阵。

5.根据权利要求1或2所述的方法，其特征在于，
所述第一循环神经网络和/或所述第二循环神经网络为具有动态残差连接的循环神经网络。

6.根据权利要求5所述的方法，其特征在于，
所述第一循环神经网络和/或所述第二循环神经网络为具有投影层的长短期记忆网络。

7.一种语音识别模型训练装置，其特征在于，包括：
语音特征获取单元，用于获取样本语音中各个分帧的频域特征向量，...

【专利技术属性】
技术研发人员：李作强，杨嵩，林连志，
申请(专利权)人：北京世纪好未来教育科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人