使用LM感知MWER训练的罕见词语辨识制造技术

技术编号：43552374 阅读：52 留言：0更新日期：2024-12-03 12:35

方法(400)包括：使用音频编码器(210)生成声学帧(110)序列中的每个声学帧的更高阶特征表示(212)；使用解码器(215)基于更高阶特征表示生成多个语音辨识假设，每个假设对应于候选转录并且具有相关联的第一似然分数；使用外部语言模型(230)针对每个假设生成第二似然分数；使用可学习融合模块(240)针对每个假设，基于更高阶特征表示和假设来确定融合权重集合；以及使用可学习融合模块，针对每个假设基于第一似然分数、第二似然分数和融合权重集合生成第三似然分数，在存在外部语言模型的情况下，使用最小加性错误率训练对音频编码器和解码器进行训练。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

本公开涉及用于改进罕见词语辨识的语音辨识模型。

技术介绍

1、自动语音辨识(asr)是越来越多地在移动装置和其他装置中使用的重要技术。一般来说，asr系统可以低时延(例如，在人员说话与转录出现之间仅有短暂的延迟)提供人员所说内容的准确转录。

技术实现思路

1、本公开的一个方面提供了一种用于训练语音辨识模型以使用语言模型感知的最小词语错误率训练改进罕见词语辨识的计算机实现的方法。该计算机实现的方法当在数据处理硬件上执行时使该数据处理硬件执行操作，这些操作包括：接收与话语相对应的声学帧序列作为输入；以及使用音频编码器在多个输出步骤中的每一者处生成该声学帧序列中的对应声学帧的更高阶特征表示。这些操作还包括：使用解码器基于该多个输出步骤中的每一者处的更高阶特征表示生成多个语音辨识假设，每个语音辨识假设与该话语的候选转录对应并且具有相关联的第一似然分数；以及使用外部语言模型针对该多个语音辨识假设中的每个语音辨识假设生成与该语音辨识假设相关联的第二似然分数。这些操作还包括：使用可学习融合模块，针对该多个语音辨识假设中的每个语音辨识假设，基于该更高阶特征表示和该语音辨识假设来确定融合权重集合；以及使用该可学习融合模块，针对该多个语音辨识假设中的每个语音辨识假设，基于该第一似然分数、该第二似然分数和该融合权重集合生成第三似然分数。这里，在存在外部语言模型的情况下，通过根据从解码器输出的前k个语音辨识假设中的最小加性错误率调整似然分数，使用最小加性错误率训练来训练音频编码器。

2、本公开

3、在一些示例中，特定语音辨识假设的第一似然分数包括第一多个语言模型分数，该第一多个语言模型分数中的每个语言模型分数与该特定语音辨识假设的特定词元对应；该特定语音辨识假设的第二似然分数包括第二多个语言模型分数，该第二多个语言模型分数中的每个语言模型分数与该特定语音辨识假设的特定词元对应；该特定语音辨识假设的融合权重集合包括第一多个融合权重和第二多个融合权重，该第一多个融合权重中的每个融合权重与该特定语音辨识假设的特定词元对应，并且该第二多个融合权重中的每个融合权重与该特定语音辨识假设的特定词元对应。这里，使用该可学习融合模块生成该特定语音辨识假设的第三似然分数可以包括：基于该第一多个语言模型分数和该第一多个融合权重来确定内部语言模型分数；基于该第二多个语言模型分数和该第二多个融合权重来确定外部语言模型分数；以及组合该内部语言模型分数和该外部语言模型分数。

4、在一些实现方式中，该音频编码器、该解码器和该可学习融合模块进行联合训练。在一些示例中，该外部语言模型针对纯文本数据进行训练。在一些示例中，该外部语言模型包括神经网络语言模型，该神经网络语言模型包括conformer层或transformer层堆叠。在其他示例中，该外部语言模型包括神经网络语言模型，该神经网络语言模型包括长短期记忆(lstm)层堆叠。

5、在一些示例中，该音频编码器包括：因果编码器，该因果编码器包括初始多头注意力层堆叠；以及非因果编码器，该非因果编码器包括覆盖在该初始多头注意力层堆叠上的最终多头注意力层堆叠。在一些实现方式中，该可学习融合模块被配置为计算该解码器的内部语言模型分数和该外部语言模型的外部语言模型分数的每词元融合权重。在一些实现方式中，最小加性错误率包括最小词语错误率。在一些示例中，该外部语言模型针对纯文本数据进行训练；并且该音频编码器和该解码器使用混合自回归转导器(hat)分解进行训练以促进针对该纯文本数据训练的外部语言模型的集成。

6、本公开的另一个方面提供了一种自动语音辨识(asr)系统，该asr系统包括音频编码器、解码器、外部语言模型以及可学习融合模块。该音频编码器被配置为接收与话语相对应的声学帧序列作为输入；以及在多个输出步骤中的每一者处生成该声学帧序列中的对应声学帧的更高阶特征表示。该解码器被配置为接收由该音频编码器在该多个输出步骤中的每一者处生成的更高阶特征表示作为输入，并且基于在该多个输出步骤中的每一者处接收的更高阶特征表示生成多个语音辨识假设，每个语音辨识假设与该话语的候选转录对应并且具有相关联的第一似然分数。该外部语言模型被配置为接收由该解码器生成的多个语音辨识假设作为输入，并且针对该多个语音辨识假设中的每个语音辨识假设生成与该语音辨识假设相关联的第二似然分数。该可学习融合模块被配置为，针对该多个语音辨识假设中的每个语音辨识假设：接收由该音频编码器在该多个输出步骤中的每一者处生成的更高阶特征表示作为输入；基于该更高阶特征表示和该语音辨识假设来确定融合权重集合；并且基于该第一似然分数、该第二似然分数和该融合权重集合生成第三似然分数。这里，在存在外部语言模型的情况下，通过根据从解码器输出的前k个语音辨识假设中的最小加性错误率调整似然分数，使用最小加性错误率训练来训练音频编码器。

7、本公开的实现方式可以包括以下可选特征中的一者或多者。在一些实现方式中，这些操作还包括基于该多个语音辨识假设的第三似然分数，选择该多个语音辨识假设中的语音辨识假设作为该声学帧序列的语音辨识结果。在一些示例中，该第一似然分数包括条件似然分数和内部语言模型似然分数。

8、在一些示例中，特定语音辨识假设的第一似然分数包括第一多个语言模型分数，该第一多个语言模型分数中的每个语言模型分数与该特定语音辨识假设的特定词元对应；该特定语音辨识假设的第二似然分数包括第二多个语言模型分数，该第二多个语言模型分数中的每个语言模型分数与该特定语音辨识假设的特定词元对应；该特定语音辨识假设的融合权重集合包括第一多个融合权重和第二多个融合权重，该第一多个融合权重中的每个融合权重与该特定语音辨识假设的特定词元对应，并且该第二多个融合权重中的每个融合权重与该特定语音辨识假设的特定词元对应。这里，使用该可学习融合模块生成该特定语音辨识假设的第三似然分数可以包括：基于该第一多个语言模型分数和该第一多个融合权重来确定内部语言模型分数；基于该第二多个语言模型分数和该第二多个融合权重来确定外部语言模型分数；以及组合该内部语言模型分数和该外部语言模型分数。

9、在一些实现方式中，该音频编码器、该解码器和该可学习融合模块进行联合训练。在一些示例中，该外部语言模型针对纯文本数据进行训练。在一些示例中，该外部语言模型包括神经网络语言模型，该神经网络语言模型包括conformer层或transformer层堆叠。在其他示例中，该外部语言模型包括神经网络语言模型，该神经网络语言模型包括长短期记忆(lstm)层堆叠。

10、在一些示例中，该音频编码器包括：因果编码器，该因果编码器包括初始多头注意力层堆叠；以及非因果编码器，该非因果编码器包括覆盖在该初始多头注意力层堆叠上本文档来自技高网...

【技术保护点】

1.一种由数据处理硬件(510)执行的计算机实现的方法(400)，所述计算机实现的方法使所述数据处理硬件(510)执行操作，其特征在于，所述操作包括：

2.如权利要求1所述的计算机实现的方法(400)，其特征在于，所述操作还包括基于所述多个语音辨识假设的所述第三似然分数，选择所述多个语音辨识假设中的语音辨识假设作为所述声学帧(110)序列的语音辨识结果(120)。

3.如权利要求1或权利要求2所述的计算机实现的方法(400)，其特征在于，所述第一似然分数包括条件似然分数和内部语言模型似然分数。

4.如权利要求1–3中任一项所述的计算机实现的方法(400)，其特征在于：

5.如权利要求1–4中任一项所述的计算机实现的方法(400)，其特征在于，所述音频编码器(210)、所述解码器(215)和所述可学习融合模块(240)进行联合训练。

6.如权利要求1–5中任一项所述的计算机实现的方法(400)，其特征在于，所述外部语言模型(230)针对纯文本数据进行训练。

7.如权利要求1–6中任一项所述的计算机实现的方法(4

8.如权利要求1–6中任一项所述的计算机实现的方法(400)，其特征在于，所述外部语言模型(230)包括神经网络语言模型，所述神经网络语言模型包括长短期记忆(LSTM)层堆叠。

9.如权利要求1–8中任一项所述的计算机实现的方法(400)，其特征在于，所述音频编码器(210)包括：

10.如权利要求1–9中任一项所述的计算机实现的方法(400)，其特征在于，所述可学习融合模块(240)被配置为计算所述解码器(215)的内部语言模型分数和所述外部语言模型(230)的外部语言模型分数的每个词元融合权重。

11.如权利要求1–10中任一项所述的计算机实现的方法(400)，其特征在于，最小加性错误率包括最小词语错误率。

12.如权利要求1–5和7–11中任一项所述的计算机实现的方法(400)，其特征在于：

13.一种自动语音辨识(ASR)系统(118)，其特征在于，包括：

14.如权利要求13所述的ASR系统(118)，其特征在于，所述操作还包括基于所述多个语音辨识假设的所述第三似然分数，选择所述多个语音辨识假设中的语音辨识假设作为所述声学帧(110)序列的语音辨识结果。

15.如权利要求13或权利要求14所述的ASR系统(118)，其特征在于，所述第一似然分数包括条件似然分数和内部语言模型似然分数。

16.如权利要求13–15中任一项所述的ASR系统(118)，其特征在于：

17.如权利要求13–16中任一项所述的ASR系统(118)，其特征在于，所述音频编码器(210)、所述解码器(215)和所述可学习融合模块(240)进行联合训练。

18.如权利要求13–17中任一项所述的ASR系统(118)，其特征在于，所述外部语言模型(230)针对纯文本数据进行训练。

19.如权利要求13–18中任一项所述的ASR系统(118)，其特征在于，所述外部语言模型(230)包括神经网络语言模型，所述神经网络语言模型包括conformer层或transformer层堆叠。

20.如权利要求13–18中任一项所述的ASR系统(118)，其特征在于，所述外部语言模型(230)包括神经网络语言模型，所述神经网络语言模型包括长短期记忆(LSTM)层堆叠。

21.如权利要求13–20中任一项所述的ASR系统(118)，其特征在于，所述音频编码器(210)包括：

22.如权利要求13–21中任一项所述的ASR系统(118)，其特征在于，所述可学习融合模块(240)被配置为计算所述解码器(215)的内部语言模型分数和所述外部语言模型(230)的外部语言模型分数的每个词元融合权重。

23.如权利要求13–22中任一项所述的ASR系统(118)，其特征在于，最小加性错误率包括最小词语错误率。

24.如权利要求13–17和19–23中任一项所述的ASR系统(118)，其特征在于：

...

【技术特征摘要】
【国外来华专利技术】

1.一种由数据处理硬件(510)执行的计算机实现的方法(400)，所述计算机实现的方法使所述数据处理硬件(510)执行操作，其特征在于，所述操作包括：

3.如权利要求1或权利要求2所述的计算机实现的方法(400)，其特征在于，所述第一似然分数包括条件似然分数和内部语言模型似然分数。

4.如权利要求1–3中任一项所述的计算机实现的方法(400)，其特征在于：

5.如权利要求1–4中任一项所述的计算机实现的方法(400)，其特征在于，所述音频编码器(210)、所述解码器(215)和所述可学习融合模块(240)进行联合训练。

6.如权利要求1–5中任一项所述的计算机实现的方法(400)，其特征在于，所述外部语言模型(230)针对纯文本数据进行训练。

7.如权利要求1–6中任一项所述的计算机实现的方法(400)，其特征在于，所述外部语言模型(230)包括神经网络语言模型，所述神经网络语言模型包括conformer层或transformer层堆叠。

8.如权利要求1–6中任一项所述的计算机实现的方法(400)，其特征在于，所述外部语言模型(230)包括神经网络语言模型，所述神经网络语言模型包括长短期记忆(lstm)层堆叠。

9.如权利要求1–8中任一项所述的计算机实现的方法(400)，其特征在于，所述音频编码器(210)包括：

11.如权利要求1–10中任一项所述的计算机实现的方法(400)，其特征在于，最小加性错误率包括最小词语错误率。

12.如权利要求1–5和7–11中任一项所...

【专利技术属性】
技术研发人员：汪蔚然，陈同舟，塔拉·N·萨纳特，伊赫桑·瓦兰尼，罗希特·普拉巴瓦尔卡尔，罗尼·黄，布瓦那·拉马巴德兰，高尔·尼拉杰，塞邦德·马万达迪，查尔斯·凯莱布·佩瑟，特雷弗·施特勒曼，何仰璋，大卫·里巴赫，
申请(专利权)人：谷歌有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人