语音处理方法、语音编码器、语音解码器及语音识别系统技术方案

技术编号：30187718 阅读：26 留言：0更新日期：2021-09-29 08:24

本发明专利技术实施例提供了一种语音处理方法、语音编码器、语音解码器及语音识别系统。方法包括：获取待处理的语音信号；分别利用第一神经网络、第二神经网络对所述语音信号进行处理，获得与语音信号相对应的第一特征信息、第二特征信息，其中，第一神经网络的计算效率高于第二神经网络的计算效率，第二神经网络输出的第二特征信息的准确性高于第一神经网络输出的第一特征信息的准确性；根据第一特征信息和第二特征信息，确定用于表征语音信号中语义的目标特征信息。本实施例提供的技术方案，通过两个不同的神经网络获得两个特征信息，由于两个特征信息在语音处理的效率和质量上具有互补性,从而提高了对目标特征信息进行获取的准确可靠性。可靠性。可靠性。

全部详细技术资料下载

【技术实现步骤摘要】
语音处理方法、语音编码器、语音解码器及语音识别系统

[0001]本专利技术涉及数据处理
，尤其涉及一种语音处理方法、语音编码器、语音解码器及语音识别系统。

技术介绍

[0002]语音识别技术可以实现将人所说的语音波形转成机器可以识别的文本，对于语音识别技术而言，语音识别率是评估语音识别性能的一个重要指标。在2017年，谷歌提出了一种可以进行语音识别的Transformer模型，具体的，Transformer模型可以采用与文本相关的自注意力机制对语音的长时相关性进行语音建模，获得语音识别模型，而后通过建立的语音识别模型实现语音识别操作。
[0003]然而，在Transformer模型采用与文本相关的自注意力机制对语音的长时相关性进行语音建模时，由于与文本相关的参数较多，构建语音识别模型的复杂度较高，并且也增加了对语音识别模型进行优化的困难程度，从而极大地影响了对语音信号进行识别的质量和效率。

技术实现思路

[0004]本专利技术实施例提供了一种语音处理方法、语音编码器、语音解码器及语音识别系统，不仅能够降低对语音信号进行处理的复杂程度，并且也提高了对语音信号进行识别的质量和效率。
[0005]第一方面，本专利技术实施例提供了一种语音处理方法，包括：
[0006]获取待处理的语音信号；
[0007]利用第一神经网络对所述语音信号进行处理，获得与所述语音信号相对应的第一特征信息，所述第一特征信息用于标识所述语音信号中的语义；
[0008]利用第二神经网络对所述语...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法，其特征在于，包括：获取待处理的语音信号；分别利用第一神经网络、第二神经网络对所述语音信号进行处理，获得与所述语音信号相对应的第一特征信息、第二特征信息，其中，所述第一神经网络的计算效率高于所述第二神经网络的计算效率，所述第二神经网络输出的第二特征信息的准确性高于所述第一神经网络输出的第一特征信息的准确性；根据所述第一特征信息和所述第二特征信息，确定用于表征所述语音信号中语义的目标特征信息。2.根据权利要求1所述的方法，其特征在于，所述第一神经网络包括自注意力机制；所述第二神经网络包括静态记忆神经网络。3.根据权利要求2所述的方法，其特征在于，分别利用第一神经网络对所述语音信号进行处理，获得与所述语音信号相对应的第一特征信息，包括：确定与所述语音信号相对应的语音特征信息，所述语音特征信息包括以下至少之一：检索词特征、关键字特征、值特征；基于所述自注意力机制对所述语音特征信息进行处理，获得所述第一特征信息。4.根据权利要求3所述的方法，其特征在于，在所述语音特征信息包括：检索词特征、关键字特征和值特征时；基于所述自注意力机制对所述语音特征信息进行处理，获得所述第一特征信息，包括：获取与所述检索词特征、所述关键字特征和值特征相对应的融合转换信息，所述融合转换信息中包括与所述检索词特征相对应的转换信息、与所述关键字特征相对应的转换信息以及与所述值特征相对应的转换信息；利用所述自注意力机制对所述检索词特征、关键字特征和值特征进行处理，确定与所述语音信号相对应的注意力机制的数量；根据所述注意力机制的数量和融合转换信息，获得与所述语音信号相对应的第一特征信息。5.根据权利要求4所述的方法，其特征在于，根据所述注意力机制的数量和融合转换信息，获得与所述语音信号相对应的第一特征信息，包括：利用连接函数将所有数量的注意力机制进行组合，获得与所述注意力机制相对应的组合信息，其中，所述连接函数用于连接字符串；将所述组合信息与所述融合转换信息的乘积，确定为与所述语音信号相对应的第一特征信息。6.根据权利要求4所述的方法，其特征在于，获取与所述检索词特征、所述关键字特征和值特征相对应的融合转换信息，包括：分别获取与所述检索词特征、所述关键字特征和值特征相对应的第一转换信息、第二转换信息和第三转换信息；对所述第一转换信息、第二转换信息和第三转换信息进行拼接处理，获得所述融合转换信息。7.根据权利要求2所述的方法，其特征在于，利用第二神经网络对所述语音信号进行处理，获得与所述语音信号相对应的第二特征信息，包括：
确定与所述语音信号相对应的值特征；利用静态记忆神经网络对所述值特征进行处理，获得所述第二特征信息。8.根据权利要求7所述的方法，其特征在于，利用静态记忆神经网络对所述值特征进行处理，获得所述第二特征信息，包括：获取与所述静态记忆神经网络相对应的滤波参数；确定与所述值特征相对应的表征信息；利用所述静态记忆神经网络和滤波参数对所述表征信息进行分析处理，获得与所述语音信号相对应的第二特征信息。9.根据权利要求1-8中任意一项所述的方法，其特征在于，根据所述第一特征信息和所述第二特征信息，确定用于表征所述语音信号中语义的目标特征信息，包括：将所述第一特征信息与所述第二特征信息的和值确定为所述目标特征信息。10.根据权利要求1-8中任意一项所述的方法，其特征在于，在确定用于表征所述语音信号中语义的目标特征信息之后，所述方法还包括：将所述目标特征信息发送至解码器，以使所述解码器对所述目标特征信息进行分析处理，获得与所述语音信号相对应的文本信息。11.一种语音处理方法，其特征在于，包括：获取待处理的语音信号；利用第一神经网络对所述语音信号进行处理，获得与所述语音信号相对应的第一特征信息，所述第一特征信息用于标识所述语音信号中的语义；利用第二神经网络对所述语音信号进行处理，获得与所述语音信号相对应的第二特征信息，所述第二特征信息用于标识所述语音信号中的语义，其中，所述第二特征信息与所述第一特征信息不同；根据所述第一特征信息和所述第二特征信息，确定用于表征所述语音信号中语义的目标特征信息。12.根据权利要求11所述的方法，其特征在于，所述第一神经网络包括自注意力机制；所述第二神经网络包括静态记忆神经网络。13.根据权利要求12所述的方法，其特征在于，利用第一神经网络对所述语音信号进行处理，获得与所述语音信号相对应的第一特征信息，包括：确定与所述语音信号相对应的语音特征信息，所述语音特征信息包括以下至少之一：检索词特征、关键字特征、值特征；基于所述自注意力机制对所述语音特征信息进行处理，获得所述第一特征信息。14.根据权利要求13所述的方法，其特征在于，在所述语音特征信息包括：检索词特征、关键字特征和值特征时；基于所述自注意力机制对所述语音特征信息进行处理，获得所述第一特征信息，包括：获取与所述检索词特征、所述关键字特征和值特征相对应的融合转换信息，所述融合转换信息中包括与所述检索词特征相对应的转换信息、与所述关键字特征相对应的转换信息以及与所述值特征相对应的转换信息；利用所述自注意力机制对所述检索词特征、关键字特征和值特征进行处理，确定与所述语音信号相对应的注意力机制的数量；
根据所述注意力机制的数量和融合转换信息，获得与所述语音信号相对应的第...

【专利技术属性】
技术研发人员：张仕良，高志付，雷鸣，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人