【技术实现步骤摘要】
语音识别模型训练方法、装置、设备及存储介质
本申请涉及自然语言处理
,具体涉及一种语音识别模型训练方法、装置、设备及存储介质。
技术介绍
随着神经网络在机器翻译、语音生成等方面的进展,基于的语音识别也达到了和传统方法可比的性能。不同于传统方法将语音识别任务分解为多个子任务(词汇模型,声学模型和语言模型),的语音识别模型基于梅尔语谱作为输入,能够直接产生对应的自然语言文本,大大简化了模型的训练过程,从而越来越受到学术界和产业界的关注。目前,典型的基于的语音识别模型包括循环神经网络-变换器(RecurrentNeuralNetworkTransducer,RNN-T)模型,其将语言模型和声学模型整合在一起进行联合优化;经过实践检验,RNN-T模型虽然具有联合优化、具有语言模型建模能力和具有单调性的优点,但是这一模型比较难训练。
技术实现思路
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供一种语音识别模型训练方法和装置。一方面,本申请提供一种语音识别模型训练方法,包括:获取样本语音中各个分帧的频域特征向量,根据所述频域特征向量得到第一声学特征矩阵;采用Wavenet前向网络处理所述第一声学特征矩阵,得到第二声学特征矩阵;以及,采用第一循环神经网络处理所述第二声学特征矩阵,得到第三声学特征矩阵;获取所述样本语音对应文本中各个单词的词向量,根据所述词向量得到第一文本特征矩阵;以及,采用第二循环神经网络处理所述第一文本特征矩阵,得到第二文本特征矩阵 ...
【技术保护点】
1.一种语音识别模型训练方法,其特征在于,包括:/n获取样本语音中各个分帧的频域特征向量,根据所述频域特征向量得到第一声学特征矩阵;/n采用Wavenet前向网络处理所述第一声学特征矩阵,得到第二声学特征矩阵;以及,采用第一循环神经网络处理所述第二声学特征矩阵,得到第三声学特征矩阵;/n获取所述样本语音对应文本中各个单词的词向量,根据所述词向量得到第一文本特征矩阵;以及,采用第二循环神经网络处理所述第一文本特征矩阵,得到第二文本特征矩阵;/n组合所述第三声学特征矩阵和所述第二文本特征矩阵,得到组合矩阵;以及,采用联合网络处理所述组合矩阵得到输出矩阵;/n根据所述样本语音对应的文本和所述输出矩阵,对所述语音识别模型进行训练。/n
【技术特征摘要】
1.一种语音识别模型训练方法,其特征在于,包括:
获取样本语音中各个分帧的频域特征向量,根据所述频域特征向量得到第一声学特征矩阵;
采用Wavenet前向网络处理所述第一声学特征矩阵,得到第二声学特征矩阵;以及,采用第一循环神经网络处理所述第二声学特征矩阵,得到第三声学特征矩阵;
获取所述样本语音对应文本中各个单词的词向量,根据所述词向量得到第一文本特征矩阵;以及,采用第二循环神经网络处理所述第一文本特征矩阵,得到第二文本特征矩阵;
组合所述第三声学特征矩阵和所述第二文本特征矩阵,得到组合矩阵;以及,采用联合网络处理所述组合矩阵得到输出矩阵;
根据所述样本语音对应的文本和所述输出矩阵,对所述语音识别模型进行训练。
2.根据权利要求1所述的方法,其特征在于,
所述语音识别模型包括所述Wavenet前向网络、所述第一循环神经网络、所述第二循环神经网络和所述联合网络;
所述对所述语音识别模型进行训练,包括:对所述Wavenet前向网络、所述第一循环神经网络、所述第二循环神经网络和所述联合网络进行联合训练。
3.根据权利要求1所述的方法,其特征在于,
在采用Wavenet前向网络处理所述第一声学特征矩阵前,还包括:采用卷积运算模块处理所述第一声学特征矩阵,得到第四声学特征矩阵;
所述采用Wavenet前向网络处理所述第一声学特征矩阵,得到第二声学特征矩阵,包括:采用所述Wavenet前向网络处理所述第四声学特征矩阵,得到所述第二声学特征矩阵。
4.根据权利要求3所述的方法,其特征在于,所述采用卷积运算模块处理所述第一声学特征矩阵,得到第四声学特征矩阵,包括:
采用深度可分离卷积模块处理所述第一声学特征矩阵,得到所述第四声学特征矩阵。
5.根据权利要求1或2所述的方法,其特征在于,
所述第一循环神经网络和/或所述第二循环神经网络为具有动态残差连接的循环神经网络。
6.根据权利要求5所述的方法,其特征在于,
所述第一循环神经网络和/或所述第二循环神经网络为具有投影层的长短期记忆网络。
7.一种语音识别模型训练装置,其特征在于,包括:
语音特征获取单元,用于获取样本语音中各个分帧的频域特征向量,...
【专利技术属性】
技术研发人员:李作强,杨嵩,林连志,
申请(专利权)人:北京世纪好未来教育科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。