语音识别模型训练方法、装置、设备及存储介质制造方法及图纸

技术编号:29875780 阅读:14 留言:0更新日期:2021-08-31 23:51
本申请提供一种语音识别模型训练方法、装置、设备及存储介质,方法包括:采用Wavenet前向网络和第一循环神经网络处理第一声学特征矩阵得到第三声学特征矩阵;采用第二循环神经网络处理第一文本特征矩阵得到第二文本特征矩阵;组合第三声学特征矩阵和第二文本特征矩阵,得到组合矩阵;以及,采用联合网络处理组合矩阵得到输出矩阵;根据样本语音对应的文本和输出矩阵,对Wavenet前向网络、第一循环神经网络、第二循环神经网络和联合网络进行训练。本方案通过使用Wavenet前向网络模块提高了序列建模的感受视野,优化了模型的训练速度和精度。

【技术实现步骤摘要】
语音识别模型训练方法、装置、设备及存储介质
本申请涉及自然语言处理
,具体涉及一种语音识别模型训练方法、装置、设备及存储介质。
技术介绍
随着神经网络在机器翻译、语音生成等方面的进展,基于的语音识别也达到了和传统方法可比的性能。不同于传统方法将语音识别任务分解为多个子任务(词汇模型,声学模型和语言模型),的语音识别模型基于梅尔语谱作为输入,能够直接产生对应的自然语言文本,大大简化了模型的训练过程,从而越来越受到学术界和产业界的关注。目前,典型的基于的语音识别模型包括循环神经网络-变换器(RecurrentNeuralNetworkTransducer,RNN-T)模型,其将语言模型和声学模型整合在一起进行联合优化;经过实践检验,RNN-T模型虽然具有联合优化、具有语言模型建模能力和具有单调性的优点,但是这一模型比较难训练。
技术实现思路
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供一种语音识别模型训练方法和装置。一方面,本申请提供一种语音识别模型训练方法,包括:获取样本语音中各个分帧的频域特征向量,根据所述频域特征向量得到第一声学特征矩阵;采用Wavenet前向网络处理所述第一声学特征矩阵,得到第二声学特征矩阵;以及,采用第一循环神经网络处理所述第二声学特征矩阵,得到第三声学特征矩阵;获取所述样本语音对应文本中各个单词的词向量,根据所述词向量得到第一文本特征矩阵;以及,采用第二循环神经网络处理所述第一文本特征矩阵,得到第二文本特征矩阵;组合所述第三声学特征矩阵和所述第二文本特征矩阵,得到组合矩阵;以及,采用联合网络处理所述组合矩阵得到输出矩阵;根据所述样本语音对应的文本和所述输出矩阵,对所述语音识别模型进行训练。可选地,所述语音识别模型包括所述Wavenet前向网络、所述第一循环神经网络、所述第二循环神经网络和所述联合网络;所述对所述语音识别模型进行训练,包括:对所述Wavenet前向网络、所述第一循环神经网络、所述第二循环神经网络和所述联合网络进行联合训练。可选地,在采用Wavenet前向网络处理所述第一声学特征矩阵前,还包括:采用卷积运算模块处理所述第一声学特征矩阵,得到第四声学特征矩阵;所述采用Wavenet前向网络处理所述第一声学特征矩阵,得到第二声学特征矩阵,包括:采用所述Wavenet前向网络处理所述第四声学特征矩阵,得到所述第二声学特征矩阵。可选地,所述采用卷积运算模块处理所述第一声学特征矩阵,得到第四声学特征矩阵,包括:采用深度可分离卷积模块处理所述第一声学特征矩阵,得到所述第四声学特征矩阵。可选地,所述第一循环神经网络和/或所述第二循环神经网络为具有动态残差连接的循环神经网络。可选地,所述第一循环神经网络和/或所述第二循环神经网络为具有投影层的长短期记忆网络。另一方面,本申请提供一种语音识别模型训练装置,包括:语音特征获取单元,用于获取样本语音中各个分帧的频域特征向量,根据所述频域特征向量得到第一声学特征矩阵;语音特征处理单元,用于采用Wavenet前向网络处理所述第一声学特征矩阵,得到第二声学特征矩阵,以及,采用第一循环神经网络处理所述第二声学特征矩阵,得到第三声学特征矩阵;文本特征获取单元,用于获取所述样本语音对应文本中各个单词的词向量,根据所述词向量得到第一文本特征矩阵;文本特征处理单元,用于采用第二循环神经网络处理所述第一文本特征矩阵,得到第二文本特征矩阵;联合处理单元,用于组合所述第三声学特征矩阵和所述第二文本特征矩阵,得到组合矩阵;以及,采用联合网络处理所述组合矩阵得到输出矩阵;训练单元,用于根据所述样本语音对应的文本和所述输出矩阵,对所述语音识别模型进行训练。可选地,所述语音识别模型包括所述Wavenet前向网络、所述第一循环神经网络、所述第二循环神经网络和所述联合网络;所述训练单元对所述语音识别模型进行训练,包括:所述Wavenet前向网络、所述第一循环神经网络、所述第二循环神经网络和所述联合网络进行联合训练。可选地,还包括卷积运算单元,用于采用卷积运算处理所述第一声学特征矩阵,得到第四声学特征矩阵;所述语音特征处理单元采用Wavenet前向网络处理所述第一声学特征矩阵,得到第二声学特征矩阵,包括:采用所述Wavenet前向网络处理所述第四声学特征矩阵,得到所述第二声学特征矩阵。可选地,所述卷积运算单元采用深度可分离卷积运算处理所述第一声学矩阵,得到所述第四声学矩阵。可选地,所述第一循环神经网络和/或所述第二循环神经网络为具有动态残差连接的循环神经网络。再一方面,本公开提供一种电子设备,包括处理器和存储器;所述处理器通过调用所述存储器存储的程序或指令,用于执行如前任一项所述方法的步骤。再一方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质存储程序或指令;所述程序或指令使计算机执行如前所述方法的步骤。本申请提供的语音识别模型训练方法和装置,采用Wavenet前向网络处理第一声学特征矩阵而得到第二声学特征矩阵,使得第二声学特征矩阵对应各个帧的数据仅就有较好的感受视野;因为第二声学特征矩阵具有较好的感受视野,使得后续处理得到的输出矩阵对语音也具有较好的感受视野。在模型训练时,利用较好感受视野的输出矩阵对模型进行训练,也就提高了序列建模的学习能力,进而提升了训练后得到的语音识别模型的精度和/或速度。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图;图1是本申请实施例待训练的语音识别模型结构示意图;图2是本申请实施例提供的语音识别模型训练方法流程图;图3是本申请实施例采用的Wavenet前向网络的结构示意图;图4是本申请实施例提供的语音识别模型训练装置的结构示意图;图5是本申请实施例提供的电子设备的结构示意图。具体实施方式为了能够更清楚地理解本申请的上述目的、特征和优点,下面将对本申请的方案进行进一步描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。本申请实施例提供一种语音识别模型的训练方法,通过对现有的RNN-T模型进行改进,而克服RNN-T模型比较难训练的问题。在对本申请实施例提供的语音识别模型训练方法进行说明前,首先对本申请实施例采用的语音识别模型做介绍。图1是本申请实施例待训练的语音识别模型结构示意图;如图1所示,语音识别模型包括语音预处理模块01、Wavenet前向网络02、第一循本文档来自技高网...

【技术保护点】
1.一种语音识别模型训练方法,其特征在于,包括:/n获取样本语音中各个分帧的频域特征向量,根据所述频域特征向量得到第一声学特征矩阵;/n采用Wavenet前向网络处理所述第一声学特征矩阵,得到第二声学特征矩阵;以及,采用第一循环神经网络处理所述第二声学特征矩阵,得到第三声学特征矩阵;/n获取所述样本语音对应文本中各个单词的词向量,根据所述词向量得到第一文本特征矩阵;以及,采用第二循环神经网络处理所述第一文本特征矩阵,得到第二文本特征矩阵;/n组合所述第三声学特征矩阵和所述第二文本特征矩阵,得到组合矩阵;以及,采用联合网络处理所述组合矩阵得到输出矩阵;/n根据所述样本语音对应的文本和所述输出矩阵,对所述语音识别模型进行训练。/n

【技术特征摘要】
1.一种语音识别模型训练方法,其特征在于,包括:
获取样本语音中各个分帧的频域特征向量,根据所述频域特征向量得到第一声学特征矩阵;
采用Wavenet前向网络处理所述第一声学特征矩阵,得到第二声学特征矩阵;以及,采用第一循环神经网络处理所述第二声学特征矩阵,得到第三声学特征矩阵;
获取所述样本语音对应文本中各个单词的词向量,根据所述词向量得到第一文本特征矩阵;以及,采用第二循环神经网络处理所述第一文本特征矩阵,得到第二文本特征矩阵;
组合所述第三声学特征矩阵和所述第二文本特征矩阵,得到组合矩阵;以及,采用联合网络处理所述组合矩阵得到输出矩阵;
根据所述样本语音对应的文本和所述输出矩阵,对所述语音识别模型进行训练。


2.根据权利要求1所述的方法,其特征在于,
所述语音识别模型包括所述Wavenet前向网络、所述第一循环神经网络、所述第二循环神经网络和所述联合网络;
所述对所述语音识别模型进行训练,包括:对所述Wavenet前向网络、所述第一循环神经网络、所述第二循环神经网络和所述联合网络进行联合训练。


3.根据权利要求1所述的方法,其特征在于,
在采用Wavenet前向网络处理所述第一声学特征矩阵前,还包括:采用卷积运算模块处理所述第一声学特征矩阵,得到第四声学特征矩阵;
所述采用Wavenet前向网络处理所述第一声学特征矩阵,得到第二声学特征矩阵,包括:采用所述Wavenet前向网络处理所述第四声学特征矩阵,得到所述第二声学特征矩阵。


4.根据权利要求3所述的方法,其特征在于,所述采用卷积运算模块处理所述第一声学特征矩阵,得到第四声学特征矩阵,包括:
采用深度可分离卷积模块处理所述第一声学特征矩阵,得到所述第四声学特征矩阵。


5.根据权利要求1或2所述的方法,其特征在于,
所述第一循环神经网络和/或所述第二循环神经网络为具有动态残差连接的循环神经网络。


6.根据权利要求5所述的方法,其特征在于,
所述第一循环神经网络和/或所述第二循环神经网络为具有投影层的长短期记忆网络。


7.一种语音识别模型训练装置,其特征在于,包括:
语音特征获取单元,用于获取样本语音中各个分帧的频域特征向量,...

【专利技术属性】
技术研发人员:李作强杨嵩林连志
申请(专利权)人:北京世纪好未来教育科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1