一种语音处理方法及相关装置制造方法及图纸

技术编号：44623930 阅读：3 留言：0更新日期：2025-03-17 18:21

一种语音处理方法，应用于对语音进行识别。在该方法中，在执行语音处理的过程中，采用训练后的语音增强网络先对语音执行增强处理，再对增强后的语音执行语音识别。并且，所采用的训练后的语音增强网络是基于多个并列的语音识别网络训练得到的，且多个语音识别网络的输出用于联合构成对语音增强网络进行训练的损失函数，能够有效地提高训练后的语音增强网络的泛化性和通用性。这样，基于训练后的语音增强网络来执行语音处理能够有效地提高语音识别的效果，且训练后的语音增强网络能够推广应用到未经过联合训练的语音识别网络上，从而满足各种场景下的需求。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能(artificial intelligence，ai)，尤其涉及一种语音处理方法及相关装置。

技术介绍

1、自动语音识别(automatic speech recognition，asr)技术，是一种将说话人语音自动转化为文本信息的技术。如图1所示，通常由拾音设备先接收来自说话人的语音信号，再由部署于拾音设备外部的自动语音识别系统对语音信号进行识别，最后输出识别文本。

2、随着自动语音识别技术的成熟，以语音为交互入口的各类产品也纷纷涌向市场，出现在日常生活中。然而，真实场景下自然的语音交互会受到许多因素的干扰，比如环境噪声、房间混响等，这些因素的存在会降低系统对目标语音的识别率，使得用户体验变差。如何提高真实场景中语音识别系统的准确率，是目前业界长久面临的一个的问题。

3、为提高语音识别的准确率，通常是在语音识别网络前增加一个语音增强网络，由语音增强网络先对语音数据进行降噪处理后再输入到语音识别网络中执行语音识别。然而，相关技术中所增加的语音增强网络通常是与特定的语音识别网络搭配使用的，导致语音增强网络的适用性较差。

技术实现思路

1、本申请提供了一种模型训练及语音处理方法，能够有效地提高训练得到的语音增强网络的泛化性和通用性，使得语音增强网络能够推广应用到未经过联合训练的语音识别网络上。

2、第一方面，提供一种模型训练方法，应用于对语音增强网络进行训练。该方法包括：首先，获取训练样本，训练样本包括语音样本以及语音样本对应的真

3、然后，将语音样本输入语音增强网络，由语音增强网络对语音样本执行语音增强处理，得到增强后的语音样本。语音增强网络为一个神经网络，例如为卷积神经网络、循环神经网络或长短期记忆人工神经网络(long short-term memory，lstm)等神经网络。

4、其次，将增强后的语音样本分别输入不同的多个语音识别网络，得到每个语音识别网络所输出的语音识别结果。其中，每个语音识别网络所输出的语音识别结果均为针对于增强后的语音样本的识别文本。并且，多个语音识别网络分别具有不同的网络结构。

5、最后，基于总损失函数值对语音增强网络进行训练，得到参数更新后的语音增强网络。其中，总损失函数值是基于多个语音识别网络中每个语音识别网络对应的损失函数值得到的，每个语音识别网络对应的损失函数值是基于每个语音识别网络输出的语音识别结果以及真实文本得到的。

6、也就是说，在通过每个语音识别网络对增强后的语音样本进行处理后，能够得到每个语音识别网络输出的语音识别结果。这样，基于语音样本对应的真实文本以及每个语音识别网络输出的语音识别结果，可以构建每个语音识别网络对应的损失函数，并计算得到每个语音识别网络针对于该语音样本的损失函数值。最后，通过综合多个语音识别网络对应的多个损失函数值，即可得到用于训练语音增强网络的总损失函数值，从而实现基于总损失函数值来更新语音增强网络的参数。

7、本方案中，在语音增强网络的训练过程中，在语音增强网络之后分别连接多个并列的语音识别网络，由多个不同的语音识别网络分别针对语音增强网络输出的语音数据进行识别处理，进而基于每个语音识别网络输出的语音识别结果来构建每个语音识别网络对应的损失函数。最后，通过联合多个语音识别网络的损失函数来对语音增强网络进行训练，能够有效地提高语音增强网络的泛化性和通用性，使得语音增强网络能够推广应用到未经过联合训练的语音识别网络上。

8、在一种可能的实现方式中，在语音增强网络的训练期间，多个语音识别网络的参数不发生改变。即，多个语音识别网络是不和语音增强网络一并参与训练的。这样一来，通过冻结多个语音识别网络的参数，可以避免语音识别网络的参数变化而连带影响语音增强网络的参数，能够很好地模拟语音识别网络为黑盒系统(即语音识别网络的参数未知且无法调整参数)的应用场景，提高语音增强网络的泛化性，使得最终训练得到的语音增强网络能够推广应用到未经过联合训练的其他语音识别网络上。

9、在另一种可能的实现方式中，多个语音识别网络均为预训练网络。即，多个语音识别网络均是预先训练好的。比如，多个语音识别网络均可以是预先基于训练样本执行过训练的，且多个语音识别网络在训练后均具有较好的语音识别效果。

10、本方案中，通过采用预训练过的语音识别网络来联合语音增强网络，并在训练过程中仅训练语音增强网络，能够使得语音识别网络在训练阶段输出精度较高的语音识别结果，避免精度较低的语音识别结果影响语音增强网络的训练效果。此外，在语音增强网络训练完毕后，通常也是搭配训练过的语音识别网络来使用的，因此在训练过程中则结合预训练过的语音识别网络来实现语音增强网络的训练，能够很好地模拟语音增强网络后续的应用场景，提高语音增强网络在实际应用过程中的语音增强效果。

11、在另一种可能的实现方式中，在多个语音识别网络中，不同的语音识别网络对应于不同类型的网络结构。比如，多个语音识别网络中不同语音识别网络所对应的类型分别为：听取-分析-拼写(listen attend spell，las)网络、时序类分类(connectionisttemporal classification，ctc)网络、基于注意力机制的编码器-解码器(attention-based encoder-decoder，aed)网络、基于循环神经网络的变换器(recurrent neuralnetwork transducer，rnn-t)网络、transformer transducer网络。

12、本方案中，通过将参与语音增强网络训练的多个语音识别网络分别设置为对应于不同类型的网络结构，能够使得多个语音识别网络之间的结构差异尽可能大，从而提高训练得到的语音增强网络的通用性，避免语音增强网络被训练到倾向于只提高某一部分结构相近的语音识别网络的语音识别效果。

13、在另一种可能的实现方式中，在多个语音识别网络中，不同的语音识别网络之间的结构相似度小于第一阈值。也就是说，针对于语音增强网络所连接的多个语音识别网络，任意两个语音识别网络之间的结构相似度均小于第一阈值。

14、本方案中，通过比较语音识别网络之间的结构相似度，并选择结构相似度较低的多个语音识别网络来辅助训练语音增强网路，能够使得多个语音识别网络之间的结构差异尽可能大，从而提高训练得到的语音增强网络的通用性，避免语音增强网络被训练到倾向于只提高某一部分结构相近的语音识别网络的语音识别效果。

15、在另一种可能的实现方式中，总损失函数值是对每个语音识别网络对应的损失函数值执行加权求和得到的。也就是说，针对每个语音识别网络都可以赋予一个权重，然后将每个语音识别网络对应的权重和损失函数值相乘，得到每个语音识别网络对应的加权后的损失本文档来自技高网...

【技术保护点】

1.一种语音处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在所述多个语音识别网络中，不同的语音识别网络对应于不同类型的网络结构。

3.根据权利要求1或2所述的方法，其特征在于，在所述多个语音识别网络中，不同的语音识别网络之间的结构相似度小于第一阈值。

4.根据权利要求1-3任意一项所述的方法，其特征在于，所述训练后的语音增强网络是基于总损失函数值对所述语音增强网络训练得到的，所述总损失函数值是对所述多个语音识别网络中对应的多个损失函数值加权求和得到的，所述多个损失函数值是基于所述多个语音识别网络的输出得到的。

5.根据权利要求4所述的方法，其特征在于，所述多个语音识别网络中的每个语音识别网络对应的权重值与所述每个语音识别网络对应的损失函数值具有正相关的关系。

6.根据权利要求4或5所述的方法，其特征在于，所述每个语音识别网络对应的权重值还与所述每个语音识别网络在历史迭代训练过程中的权重值相关。

7.根据权利要求4-6任意一项所述的方法，其特征在于，在所述多个语音识别网络中，损失函数值

8.根据权利要求7所述的方法，其特征在于，所述第二阈值为目标损失函数值的N倍，所述目标损失函数值为所述多个语音识别网络对应的多个损失函数值中最小的损失函数值，所述N大于1。

9.根据权利要求1-8任意一项所述的方法，其特征在于，在所述语音增强网络的训练期间，所述多个语音识别网络的参数不发生改变。

10.根据权利要求1-9任意一项所述的方法，其特征在于，所述多个语音识别网络均为预训练网络。

11.一种语音处理装置，其特征在于，包括：

12.一种电子设备，其特征在于，包括存储器和处理器；所述存储器存储有代码，所述处理器被配置为执行所述代码，当所述代码被执行时，所述电子设备执行如权利要求1至10任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，包括计算机可读指令，当所述计算机可读指令在计算机上运行时，使得所述计算机执行如权利要求1至10中任一项所述的方法。

...

【技术特征摘要】

1.一种语音处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在所述多个语音识别网络中，不同的语音识别网络对应于不同类型的网络结构。

3.根据权利要求1或2所述的方法，其特征在于，在所述多个语音识别网络中，不同的语音识别网络之间的结构相似度小于第一阈值。

6.根据权利要求4或5所述的方法，其特征在于，所述每个语音识别网络对应的权重值还与所述每个语音识别网络在历史迭代训练过程中的权重值相关。

7.根据权利要求4-6任意一项所述的方法...

【专利技术属性】
技术研发人员：万旭成，周欢，刘凯，杜梓晴，闫晓鹏，谢磊，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人