语音处理方法、语音编码器、语音解码器及语音识别系统技术方案

技术编号:30187718 阅读:17 留言:0更新日期:2021-09-29 08:24
本发明专利技术实施例提供了一种语音处理方法、语音编码器、语音解码器及语音识别系统。方法包括:获取待处理的语音信号;分别利用第一神经网络、第二神经网络对所述语音信号进行处理,获得与语音信号相对应的第一特征信息、第二特征信息,其中,第一神经网络的计算效率高于第二神经网络的计算效率,第二神经网络输出的第二特征信息的准确性高于第一神经网络输出的第一特征信息的准确性;根据第一特征信息和第二特征信息,确定用于表征语音信号中语义的目标特征信息。本实施例提供的技术方案,通过两个不同的神经网络获得两个特征信息,由于两个特征信息在语音处理的效率和质量上具有互补性,从而提高了对目标特征信息进行获取的准确可靠性。可靠性。可靠性。

【技术实现步骤摘要】
语音处理方法、语音编码器、语音解码器及语音识别系统


[0001]本专利技术涉及数据处理
,尤其涉及一种语音处理方法、语音编码器、语音解码器及语音识别系统。

技术介绍

[0002]语音识别技术可以实现将人所说的语音波形转成机器可以识别的文本,对于语音识别技术而言,语音识别率是评估语音识别性能的一个重要指标。在2017年,谷歌提出了一种可以进行语音识别的Transformer模型,具体的,Transformer模型可以采用与文本相关的自注意力机制对语音的长时相关性进行语音建模,获得语音识别模型,而后通过建立的语音识别模型实现语音识别操作。
[0003]然而,在Transformer模型采用与文本相关的自注意力机制对语音的长时相关性进行语音建模时,由于与文本相关的参数较多,构建语音识别模型的复杂度较高,并且也增加了对语音识别模型进行优化的困难程度,从而极大地影响了对语音信号进行识别的质量和效率。

技术实现思路

[0004]本专利技术实施例提供了一种语音处理方法、语音编码器、语音解码器及语音识别系统,不仅能够降低对语音信号进行处理的复杂程度,并且也提高了对语音信号进行识别的质量和效率。
[0005]第一方面,本专利技术实施例提供了一种语音处理方法,包括:
[0006]获取待处理的语音信号;
[0007]利用第一神经网络对所述语音信号进行处理,获得与所述语音信号相对应的第一特征信息,所述第一特征信息用于标识所述语音信号中的语义;
[0008]利用第二神经网络对所述语音信号进行处理,获得与所述语音信号相对应的第二特征信息,所述第二特征信息用于标识所述语音信号中的语义,其中,所述第二特征信息与所述第一特征信息不同;
[0009]根据所述第一特征信息和所述第二特征信息,确定用于表征所述语音信号中语义的目标特征信息。
[0010]第二方面,本专利技术实施例提供了一种语音编码器,包括:
[0011]第一获取单元,用于获取待处理的语音信号;
[0012]第一处理单元,用于利用第一神经网络对所述语音信号进行处理,获得与所述语音信号相对应的第一特征信息,所述第一特征信息用于标识所述语音信号中的语义;
[0013]所述第一处理单元,还用于利用第二神经网络对所述语音信号进行处理,获得与所述语音信号相对应的第二特征信息,所述第二特征信息用于标识所述语音信号中的语义,其中,所述第二特征信息与所述第一特征信息不同;
[0014]第一确定单元,用于根据所述第一特征信息和所述第二特征信息,确定用于表征
所述语音信号中语义的目标特征信息。
[0015]第三方面,本专利技术实施例提供了一种电子设备,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述第一方面中的语音处理方法。
[0016]第四方面,本专利技术实施例提供了一种计算机存储介质,用于储存计算机程序,所述计算机程序使计算机执行时实现上述第一方面中的语音处理方法。
[0017]第五方面,本专利技术实施例提供了一种语音处理方法,包括:
[0018]接收编码器发送的目标特征信息,所述目标特征信息与一语音信号相对应;
[0019]获取历史预测信息;
[0020]利用多头注意力机制和所述历史预测信息对所述目标特征信息进行处理,获得与所述语音信号相对应的文本信息。
[0021]第六方面,本专利技术实施例提供了一种语音解码器,包括:
[0022]第二接收模块,用于接收编码器发送的目标特征信息,所述目标特征信息与一语音信号相对应;
[0023]第二获取模块,用于获取历史预测信息;
[0024]第二处理模块,用于利用多头注意力机制和所述历史预测信息对所述目标特征信息进行处理,获得与所述语音信号相对应的文本信息。
[0025]第七方面,本专利技术实施例提供了一种电子设备,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述第五方面中的语音处理方法。
[0026]第八方面,本专利技术实施例提供了一种计算机存储介质,用于储存计算机程序,所述计算机程序使计算机执行时实现上述第五方面中的语音处理方法。
[0027]第九方面,本专利技术实施例提供了一种语音识别系统,包括:
[0028]上述第二方面所述的语音编码器,用于对所获取到的语音信号进行数据降维处理,获得与所述语音信号相对应的语音特征信息。
[0029]第十方面,本专利技术实施例提供了一种数据处理方法,包括:
[0030]获取待处理的语音信号;
[0031]分别利用第一神经网络、第二神经网络对所述语音信号进行处理,获得与所述语音信号相对应的第一特征信息、第二特征信息,其中,所述第一神经网络的计算效率高于所述第二神经网络的计算效率,所述第二神经网络输出的第二特征信息的准确性高于所述第一神经网络输出的第一特征信息的准确性;
[0032]根据所述第一特征信息和所述第二特征信息,确定用于表征所述语音信号中语义的目标特征信息。
[0033]第十一方面,本专利技术实施例提供了一种语音编码器,包括:
[0034]第三获取模块,用于获取待处理的语音信号;
[0035]第三处理模块,用于分别利用第一神经网络、第二神经网络对所述语音信号进行处理,获得与所述语音信号相对应的第一特征信息、第二特征信息,其中,所述第一神经网络的计算效率高于所述第二神经网络的计算效率,所述第二神经网络输出的第二特征信息的准确性高于所述第一神经网络输出的第一特征信息的准确性;
[0036]第三确定模块,用于根据所述第一特征信息和所述第二特征信息,确定用于表征所述语音信号中语义的目标特征信息。
[0037]第十二方面,本专利技术实施例提供了一种电子设备,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述第十方面中的语音处理方法。
[0038]第十二方面,本专利技术实施例提供了一种计算机存储介质,用于储存计算机程序,所述计算机程序使计算机执行时实现上述第十方面中的语音处理方法。
[0039]第十三方面,本专利技术实施例提供了一种语音识别系统,包括:
[0040]上述第十一方面所述的语音编码器,用于对所获取到的语音信号进行数据降维处理,获得与所述语音信号相对应的语音特征信息。
[0041]本实施例提供的语音处理方法、语音编码器、语音解码器及语音识别系统,利用第一神经网络对所获取的语音信号进行处理,获得第一特征信息,并利用第二神经网络对所获取的语音信号进行处理,获得第二特征信息,由于第一神经网络和第二神经网络不同,因此,所获得的第一特征信息和第二特征信息在语音处理的效率和质量上具有互补性,而后根据第一特征信息和第二特征信息来确定用于表征所述语音信号中语义的目标特征信息,有效地保证了本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取待处理的语音信号;分别利用第一神经网络、第二神经网络对所述语音信号进行处理,获得与所述语音信号相对应的第一特征信息、第二特征信息,其中,所述第一神经网络的计算效率高于所述第二神经网络的计算效率,所述第二神经网络输出的第二特征信息的准确性高于所述第一神经网络输出的第一特征信息的准确性;根据所述第一特征信息和所述第二特征信息,确定用于表征所述语音信号中语义的目标特征信息。2.根据权利要求1所述的方法,其特征在于,所述第一神经网络包括自注意力机制;所述第二神经网络包括静态记忆神经网络。3.根据权利要求2所述的方法,其特征在于,分别利用第一神经网络对所述语音信号进行处理,获得与所述语音信号相对应的第一特征信息,包括:确定与所述语音信号相对应的语音特征信息,所述语音特征信息包括以下至少之一:检索词特征、关键字特征、值特征;基于所述自注意力机制对所述语音特征信息进行处理,获得所述第一特征信息。4.根据权利要求3所述的方法,其特征在于,在所述语音特征信息包括:检索词特征、关键字特征和值特征时;基于所述自注意力机制对所述语音特征信息进行处理,获得所述第一特征信息,包括:获取与所述检索词特征、所述关键字特征和值特征相对应的融合转换信息,所述融合转换信息中包括与所述检索词特征相对应的转换信息、与所述关键字特征相对应的转换信息以及与所述值特征相对应的转换信息;利用所述自注意力机制对所述检索词特征、关键字特征和值特征进行处理,确定与所述语音信号相对应的注意力机制的数量;根据所述注意力机制的数量和融合转换信息,获得与所述语音信号相对应的第一特征信息。5.根据权利要求4所述的方法,其特征在于,根据所述注意力机制的数量和融合转换信息,获得与所述语音信号相对应的第一特征信息,包括:利用连接函数将所有数量的注意力机制进行组合,获得与所述注意力机制相对应的组合信息,其中,所述连接函数用于连接字符串;将所述组合信息与所述融合转换信息的乘积,确定为与所述语音信号相对应的第一特征信息。6.根据权利要求4所述的方法,其特征在于,获取与所述检索词特征、所述关键字特征和值特征相对应的融合转换信息,包括:分别获取与所述检索词特征、所述关键字特征和值特征相对应的第一转换信息、第二转换信息和第三转换信息;对所述第一转换信息、第二转换信息和第三转换信息进行拼接处理,获得所述融合转换信息。7.根据权利要求2所述的方法,其特征在于,利用第二神经网络对所述语音信号进行处理,获得与所述语音信号相对应的第二特征信息,包括:
确定与所述语音信号相对应的值特征;利用静态记忆神经网络对所述值特征进行处理,获得所述第二特征信息。8.根据权利要求7所述的方法,其特征在于,利用静态记忆神经网络对所述值特征进行处理,获得所述第二特征信息,包括:获取与所述静态记忆神经网络相对应的滤波参数;确定与所述值特征相对应的表征信息;利用所述静态记忆神经网络和滤波参数对所述表征信息进行分析处理,获得与所述语音信号相对应的第二特征信息。9.根据权利要求1-8中任意一项所述的方法,其特征在于,根据所述第一特征信息和所述第二特征信息,确定用于表征所述语音信号中语义的目标特征信息,包括:将所述第一特征信息与所述第二特征信息的和值确定为所述目标特征信息。10.根据权利要求1-8中任意一项所述的方法,其特征在于,在确定用于表征所述语音信号中语义的目标特征信息之后,所述方法还包括:将所述目标特征信息发送至解码器,以使所述解码器对所述目标特征信息进行分析处理,获得与所述语音信号相对应的文本信息。11.一种语音处理方法,其特征在于,包括:获取待处理的语音信号;利用第一神经网络对所述语音信号进行处理,获得与所述语音信号相对应的第一特征信息,所述第一特征信息用于标识所述语音信号中的语义;利用第二神经网络对所述语音信号进行处理,获得与所述语音信号相对应的第二特征信息,所述第二特征信息用于标识所述语音信号中的语义,其中,所述第二特征信息与所述第一特征信息不同;根据所述第一特征信息和所述第二特征信息,确定用于表征所述语音信号中语义的目标特征信息。12.根据权利要求11所述的方法,其特征在于,所述第一神经网络包括自注意力机制;所述第二神经网络包括静态记忆神经网络。13.根据权利要求12所述的方法,其特征在于,利用第一神经网络对所述语音信号进行处理,获得与所述语音信号相对应的第一特征信息,包括:确定与所述语音信号相对应的语音特征信息,所述语音特征信息包括以下至少之一:检索词特征、关键字特征、值特征;基于所述自注意力机制对所述语音特征信息进行处理,获得所述第一特征信息。14.根据权利要求13所述的方法,其特征在于,在所述语音特征信息包括:检索词特征、关键字特征和值特征时;基于所述自注意力机制对所述语音特征信息进行处理,获得所述第一特征信息,包括:获取与所述检索词特征、所述关键字特征和值特征相对应的融合转换信息,所述融合转换信息中包括与所述检索词特征相对应的转换信息、与所述关键字特征相对应的转换信息以及与所述值特征相对应的转换信息;利用所述自注意力机制对所述检索词特征、关键字特征和值特征进行处理,确定与所述语音信号相对应的注意力机制的数量;
根据所述注意力机制的数量和融合转换信息,获得与所述语音信号相对应的第...

【专利技术属性】
技术研发人员:张仕良高志付雷鸣
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1