自适应蒸馏制造技术

技术编号：40072202 阅读：5 留言：0更新日期：2024-01-17 00:21

一种用于将一个或多个训练好的教师自动语音识别(ASR)模型(210)蒸馏为多语言学生模型(200)的方法(400)，所述方法(400)包括接收多个教师训练示例(152)和多个学生训练示例(154)。所述方法也包括使用所述多个教师训练示例来训练一个或多个教师ASR模型。每一个教师ASR模型被配置为输出相应的音频输入的相应的文本表示。所述方法还包括使用所述多个学生训练示例训练多语言学生ASR模型来生成多语言学生ASR模型(222)，并且使用可调蒸馏损失权重将训练好的所述一个或多个教师ASR模型蒸馏到所述多语言学生ASR模型。所述学生ASR模型被配置为接收音频输入(14)并且输出接收的所述音频输入的对应文本表示(142)。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

本公开涉及自适应蒸馏。

技术介绍

1、随着自动语音识别(asr)近年来的普及，asr正被更广泛地应用到世界各地的语言中。不幸的是，这些语言中的一些具有影响asr模型的质量或健壮性的限制。例如，语言资源可以从高到低不等，其中这些资源指asr模型利用来训练和提高精确度和健壮性的资源。由于资源差异，asr模型可能遇到不同程度的性能下降，这对于使用asr模型的应用或程序不可避免地影响用户的体验。

技术实现思路

1、本公开的方面提供了一种用于将一个或多个训练好的教师自动语音识别(asr)模型蒸馏为多语言学生模型的计算机实现的方法。当在数据处理硬件上执行时，计算机实现的方法使得数据处理硬件执行接收多个教师训练示例和多个学生训练示例的操作。操作还包括使用多个教师训练示例来训练一个或多个教师asr模型。每个教师asr模型被配置为输出相应音频输入的相应的文本表示。该操作还包括通过使用多个学生训练示例训练多语言学生asr模型以及使用可调蒸馏损失权重将训练的一个或多个教师asr模型蒸馏为多语言学生asr模型来生成多语言学生asr模型。每个学生asr模型被配置为接收音频输入并输出所接收的音频输入的相应的文本表示。

2、本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中，一个或多个教师asr模型被配置为共同地识别比多语言学生asr模型少的语言。可调蒸馏损失权重可以包括恒定值。在一些另外的实施方式中，训练多语言学生模型存在跨越n个训练步骤，并且可调蒸馏损失权重包括基于n个训练步骤而递减的递减函数。

3、在一些示例中，一个或多个教师asr模型和多语言学生asr模型中的每一个包括递归神经网络传感器(rnn-t)架构。在这些执行例中，可调蒸馏损失权重可以包括基于rnn-t损失的递减函数，rnn-t损失与一个或多个教师asr模型对应。或者，这些示例中的可调蒸馏损失权重可包括基于与一个或多个教师asr模型对应的第一rnn-t损失和与多语言学生asr模型对应的第二rnn-t损失的递减函数。这里，在一段时间内减少与一个或多个教师asr模型对应的第一rnn-t损失，以及在一段时间内增加与多语言学生asr模型对应的第二rnn-t损失。

4、一个或多个教师asr模型中的每一个教师asr模型可以对应于单语asr模型。或者，一个或多个教师asr模型可对应于单个多语言asr模型。

5、本公开的另一方面提供了一种用于将一个或多个训练好的教师自动语音识别(asr)模型蒸馏为多语言学生模型的系统。该系统包括数据处理硬件和与数据处理硬件通信的存储器硬件。存储器硬件存储指令，指令在数据处理硬件上执行时使数据处理硬件执行包括接收多个教师训练示例和多个学生训练示例的操作。操作还包括使用多个教师训练示例来训练一个或多个教师asr模型。每个教师asr模型被配置为输出相应音频输入的相应的文本表示。该操作还包括通过使用多个学生训练示例训练多语言学生asr模型以及使用可调蒸馏损失权重将训练的一个或多个教师asr模型蒸馏为多语言学生asr模型来生成多语言学生asr模型。每个学生asr模型被配置为接收音频输入并输出所接收的音频输入的相应的文本表示。

6、该方面可以包括一个或多个以下可选特征。在一些实施方式中，一个或多个教师asr模型被配置为共同地识别比多语言学生asr模型少的语言。可调蒸馏损失权重可以包括恒定值。在一些另外的实施方式中，训练多语言学生模型存在跨越n个训练步骤，并且可调蒸馏损失权重包括基于n个训练步骤而递减的递减函数。

7、在一些示例中，一个或多个教师asr模型和多语言学生asr模型中的每一个包括递归神经网络传感器(rnn-t)架构。在这些执行例中，可调蒸馏损失权重可以包括基于rnn-t损失的递减函数，rnn-t损失与一个或多个教师asr模型对应。或者，这些示例中的可调蒸馏损失权重可包括基于与一个或多个教师asr模型对应的第一rnn-t损失和与多语言学生asr模型对应的第二rnn-t损失的递减函数。这里，在一段时间内减少与一个或多个教师asr模型对应的第一rnn-t损失，以及在一段时间内增加与多语言学生asr模型对应的第二rnn-t损失。

8、一个或多个教师asr模型中的每一个教师asr模型可以与单语asr模型对应。或者，一个或多个教师asr模型可以与单个多语言asr模型对应。

9、本公开的一个或多个实现的细节在附图和以下描述中阐述。从说明书和附图以及从权利要求书中，其它方面，特征和优点将是显而易见的。

本文档来自技高网...

【技术保护点】

1.一种计算机实现的方法(400)，其特征在于，当由数据处理硬件(134)执行时使得所述数据处理硬件(134)进行操作，所述操作包括：

2.根据权利要求1所述的方法(400)，其特征在于，所述一个或多个教师ASR模型(210)被配置为共同地识别比所述多语言学生ASR模型(200)少的语言。

3.根据权利要求1或2所述的方法(400)，其特征在于，所述可调蒸馏损失权重(222)包括恒定值。

4.根据权利要求1-3中任一项所述的方法(400)，其特征在于：

5.根据权利要求1-4中任一项所述的方法(400)，其特征在于，所述一个或多个教师ASR模型(210)和所述多语言学生ASR模型(200)中的每一个包括递归神经网络传感器(RNN-T)架构。

6.根据权利要求5所述的方法(400)，其特征在于，所述可调蒸馏损失权重(222)包括基于RNN-T损失的递减函数(210)，所述RNN-T损失与所述一个或多个教师ASR模型对应。

7.根据权利要求5或6所述的方法(400)，其特征在于，所述可调蒸馏损失权重(222)包括

8.根据权利要求7所述的方法(400)，其特征在于，所述递减函数：

9.根据权利要求1-8中任一项所述的方法(400)，其特征在于，所述一个或多个教师ASR模型(210)中的每一个教师ASR模型(210)与单语教师ASR模型(210)对应。

10.根据权利要求1-9中任一项所述的方法(400)，其特征在于，所述一个或多个教师ASR模型(210)与单个多语言ASR模型对应。

11.一种系统(100)，其特征在于，包括：

12.根据权利要求11所述的系统(100)，其特征在于，所述一个或多个教师ASR模型(210)被配置为共同地识别比所述多语言学生ASR模型(200)少的语言。

13.根据权利要求11或12所述的系统(100)，其特征在于，所述可调蒸馏损失权重(222)包括恒定值。

14.根据权利要求11-13中任一项所述的系统(100)，其特征在于，：

15.根据权利要求11-14中任一项所述的系统(100)，其特征在于，所述一个或多个教师ASR模型(210)和所述多语言学生ASR模型(200)中的每一个包括递归神经网络传感器(RNN-T)架构。

16.根据权利要求15所述的系统(100)，其特征在于，所述可调蒸馏损失权重(222)包括基于RNN-T损失的递减函数(210)，所述RNN-T损失与所述一个或多个教师ASR模型对应。

17.根据权利要求15或16所述的系统(100)，其特征在于，所述可调蒸馏损失权重(222)包括基于与所述一个或多个教师ASR模型(210)对应的第一RNN-T损失和与所述多语言学生ASR模型(200)对应的第二RNN-T损失的递减函数。

18.根据权利要求17所述的系统(100)，其特征在于，所述递减函数：

19.根据权利要求11-18中任一项所述的系统(100)，其特征在于，所述一个或多个教师ASR模型(210)中的每一个教师ASR模型(210)与单语教师ASR模型(210)对应。

20.根据权利要求11-19中任一项所述的系统(100)，其特征在于，所述一个或多个教师ASR模型(210)与单个多语言ASR模型对应。

...

【技术特征摘要】
【国外来华专利技术】

1.一种计算机实现的方法(400)，其特征在于，当由数据处理硬件(134)执行时使得所述数据处理硬件(134)进行操作，所述操作包括：

2.根据权利要求1所述的方法(400)，其特征在于，所述一个或多个教师asr模型(210)被配置为共同地识别比所述多语言学生asr模型(200)少的语言。

3.根据权利要求1或2所述的方法(400)，其特征在于，所述可调蒸馏损失权重(222)包括恒定值。

4.根据权利要求1-3中任一项所述的方法(400)，其特征在于：

5.根据权利要求1-4中任一项所述的方法(400)，其特征在于，所述一个或多个教师asr模型(210)和所述多语言学生asr模型(200)中的每一个包括递归神经网络传感器(rnn-t)架构。

6.根据权利要求5所述的方法(400)，其特征在于，所述可调蒸馏损失权重(222)包括基于rnn-t损失的递减函数(210)，所述rnn-t损失与所述一个或多个教师asr模型对应。

7.根据权利要求5或6所述的方法(400)，其特征在于，所述可调蒸馏损失权重(222)包括基于与所述一个或多个教师asr模型(210)对应的第一rnn-t损失和与所述多语言学生asr模型(200)对应的第二rnn-t损失的递减函数。

8.根据权利要求7所述的方法(400)，其特征在于，所述递减函数：

9.根据权利要求1-8中任一项所述的方法(400)，其特征在于，所述一个或多个教师asr模型(210)中的每一个教师asr模型(210)与单语教师asr模型(210)对应。

10.根据权利要求1-9中任一项所述的方法(400)，其特征在于，所述一个或多个教师asr模型(210)与单个多语言a...

【专利技术属性】
技术研发人员：伊莎贝尔·李尔，尼拉杰·高尔，帕里莎·哈哈尼，布莱恩·法里斯，布瓦那·拉马巴德兰，马纳萨·普拉萨德，佩德罗·J·莫雷诺门希瓦尔，朱云，
申请(专利权)人：谷歌有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人