训练和/或使用语言选择模型以自动确定用于口头话语的话音辨识的语言制造技术

技术编号:28117694 阅读:28 留言:0更新日期:2021-04-19 11:17
用于训练和/或使用语音选择模型以在确定音频数据中捕获的口头话语的特定语言时使用。可以使用经训练的语言选择模型处理音频数据的特征以生成N种不同语言中的每一种语言的预测概率,并且基于所生成的概率选择特定语言。可以响应于选择了口头话语的特定语言而采用针对该特定语言的话音辨识结果。许多实施方式涉及利用元组损失代替传统的交叉熵损失来训练语言选择模型。利用元组损失训练语言选择模型可以导致更加有效的训练和/或可以导致更加准确和/或鲁棒的模型——由此缓解了针对口头话语的错误语言选择。话语的错误语言选择。话语的错误语言选择。

【技术实现步骤摘要】
【国外来华专利技术】训练和/或使用语言选择模型以自动确定用于口头话语的话音辨识的语言

技术介绍

[0001]人类可以参与与交互式软件应用的人机对话,该交互式软件应用在本文被称作“自动化助理”(也被称作“数字代理”、“聊天机器人”、“交互式个人助理”、“智能个人助理”、“助理应用”、“对话代理”等)。例如,人类(当他们与自动化助理交互式可以被称作“用户”)可以使用口头自然语言输入(即,话语)和/或通过提供文本(例如,键入的)自然语言输入向自动化助理提供命令和/或请求,该口头自然语言输入在一些情况下可以被转换为文本并且然后被处理。自动化助理通过提供响应性用户接口输出而对请求作出响应,该响应性用户接口输出可以包括可听和/或视觉用户接口输出。
[0002]如上文所提到的,自动化助理可以将对应于用户的口头话语的音频数据转换为相对应的文本(或其它语义表示)。例如,音频数据可以基于经由客户端设备的一个或多个麦克风对用户的口头话语的检测而生成,该客户端设备包括用于使得用户能够与自动化助理交互的助理接口。自动化助理可以包括话音辨识引擎,该话音辨识引擎利用话音辨识模型来辨识在音频数据中所捕获的口头话语的各种特性,诸如该口头话语所产生的声音(例如,音素)、所产生的声音的顺序、话音的节奏、声调等。另外,话音辨识引擎可以识别这样的特性所表示的文本单词或短语。该文本然后可以由自动化助理在确定口头话语的响应内容时进一步处理(例如,使用自然语言理解(NLU)引擎和/或对话状态引擎)。话音辨识引擎可以由客户端设备和/或远离客户端设备但是与客户端设备网络通信的一个或多个自动化助理组件来实施
[0003]然而,许多话音辨识引擎被配置为仅辨识单一语言的话音。对于多语言用户和/或家庭来说,这样的单一语言话音辨识引擎可能无法令人满意,并且在以并非话音辨识引擎所支持的单一语言的附加语言接收到口头话语时可能导致自动化助理故障和/或提供错误的输出。这可以致使自动化助理不可用和/或引起计算和/或网络资源的过度使用。计算和/或网络资源的过度使用可能是由于用户在自动化助理故障或提供错误输出时需要提供以所支持的单一语言的另外的口头话语。这样的另外的口头话语必须由相对应的客户端设备和/或远程自动化助理组件附加处理,由此导致各种资源的附加使用。
[0004]其它的话音辨识引擎可以被配置为辨识多种语言的话音,但是要求用户明确指定在给定时间应当在话音辨识中利用多种语言中的哪一种。例如,其它话音辨识引擎中的一些话音辨识引擎可能要求用户手动地指定在特定客户端设备处接收到的所有口头话语的话音辨识中要利用的默认语言。为了将该默认语言改变为另一种语言,可以要求用户与图形和/或可听接口进行交互以明确地更改默认语言。这样的交互可能引起接口的渲染、对用户经由接口所提供的输入的处理等中的计算和/或网络资源的过度使用。另外,可能经常出现用户在提供当前不是默认语言的口头话语之前忘记改变默认语言的情形。如上文所描述的,这可能致使自动化助理不可用和/或引起计算和/或网络资源的过度使用。

技术实现思路

[0005]本文所描述的实施方式涉及用于训练和/或使用语言选择模型(其是神经网络模型或其它机器学习模型)以自动确定在音频数据中捕获的口头话语的特定语言。可以使用经训练的语言选择模型处理该音频数据的特征以生成N种不同语言中的每一种语言的预测概率,并且基于所生成的概率选择的特定语言。可以响应于选择了特定语言而利用针对该特定语言的话音辨识结果。许多实施方式涉及利用元组损失代替传统的交叉熵损失来训练语言选择模型。利用元组损失训练语言选择模型可以导致更加有效的训练,由此导致在训练期间利用更少的资源(例如,在训练期间处理训练示例时所利用的处理器和/或存储器资源)。附加地或可替选地,利用元组损失训练语言选择模型可以导致更加准确和/或鲁棒的模型——由此缓解了针对口头话语的错误语言选择。
[0006]如本文所使用的,多个话音辨识模型可以被访问而用于话音辨识,并且话音辨识模型中的每种话音辨识模型可以被配置用于N种所支持话音辨识语言中的相对应语言。例如,第一话音辨识模型可以被配置用于在基于处理包括英语口头话语的音频数据来生成英语文本时使用,第二话音辨识模型可以被配置用于在基于处理包括法语口头话语的音频数据来生成法语文本时使用,第三可话音辨识模型以被配置用于在基于处理包括西班牙语口头话语的音频数据来生成西班牙语文本时使用。如上文所描述的,口头话语的特定语言可以至少部分地基于使用经训练的语言选择模型对捕获该口头话语的至少一部分的音频数据的处理而被选择。另外,针对特定语言的话音辨识结果可以响应于选择该特定语言而被利用。例如,可以仅利用符合特定语言的话音辨识模型来执行话音辨识,或者可以利用多个话音辨识模型,以及使用模型中的基于其符合特定语言而被利用的特定一种模型所生成的话音辨识结果来执行话音辨识。
[0007]本文所公开的各种实施方式采用了大多数多语言用户仅说来自所支持的话音辨识语言的集合N的有限数量的语言这一观察。那些实施方式可以针对捕获口头话语的音频数据识别两种或更多种的候选语言M,并且基于仅比较所生成的该M种候选语言的概率来选择该口头话语的特定语言。换句话说,虽然利用经训练的语言选择模型来处理音频数据的至少一部分并且生成N种单独语言的概率,但是特定语言的选择可以基于作为N种所支持的话音辨识语言的子集的M种语言的概率。如本文更详细描述的,在考虑到以上观察的情况下,还利用在训练语言选择模型时所利用的元组损失。进一步地,利用元组损失代替仅交叉熵损失训练的语言选择模型可以导致N种所支持的话音辨识语言的概率的生成,而所述概率的生成在仅考虑那些语言中的M种时更可能引起正确的语言的选择。
[0008]在其中针对给定音频数据仅考虑M种语言的实施方式中,该M种语言可以基于例如该M种语言在随音频数据的传输中被提供的指示(例如,该M种语言由客户端随该音频数据一起传输的指示),基于该M种语言关联于与该音频数据相关联的用户简档或其它标识符而被存储,和/或基于该M种语言关联于生成该音频数据的客户端设备而被存储。用于用户简档和/或设备的语言例如可以由用户手动地指定和/或基于用户对语言的过往使用(例如,跨一个或多个平台)、语言在客户端设备上过往使用等被自动指定。
[0009]在一些实施方式中,语言选择模型可以是判别式N类分类器、长短期记忆(LSTM)网络,或者其它神经网络模型。可以使用诸如支撑向量机(SVM)模型的其它类型的模型。在其中采用SVM模型的一些实施方式中,元组损失可以与线性内核一起被应用,因为线性内核是
用原始形式的梯度下降算法被求解的。进一步地,使用监督或无监督学习以及利用本文所描述的元组损失对语言选择模型进行训练。出于简明的原因,关于监督学习描述了训练本文所描述的语言选择模型的许多实施方式。
[0010]作为基于元组损失训练语言选择模型的一个特定示例,可以针对所支持的话音辨识语言N的集合中的每一种语言生成训练示例。每一个训练示例可以包括:对应于给定训练口头话语的音频数据的一个或多个特征的训练示例输入;和针对全体可能语言的集合N中的每一种语本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种由一个或多个处理器实现的方法,所述方法包括:生成多个训练示例,其中,生成所述训练示例中的每一个训练示例基于捕获相对应人类话语的相对应音频数据以及指示所述相对应人类话语的相对应口头语言的相对应标记,所述相对应口头语言是要辨识的N种不同语言中的一种语言,其中,N是大于10的整数,并且其中,训练示例中的每一个训练示例包括:相对应的训练示例输入,所述相对应的训练示例输入包括:所述相对应音频数据的相对应特征;和相对应的训练示例输出,所述相对应的训练示例输出包括:针对要辨识的所述N种不同语言的中的每一种语言的相对应标记概率量度,其中,所述相对应标记概率量度基于相对应标记包括对应于所述相对应口头语言的相对应正概率量度标记,以及针对所述相对应标记概率量度的所有其它相对应标记概率量度的相对应负概率量度标记;以及基于所述训练示例训练语言选择模型,训练所述语言选择模型包括:使用所述语言选择模型处理所述训练示例的所述相对应的训练示例输入的所述相对应特征,以生成所述N种不同语言中的每一种语言的相对应预测概率,基于所生成的相对应预测概率和相对应标记概率量度来生成相对应元组损失,以及使用所生成的相对应元组损失更新所述语言选择模型的权重。2.根据权利要求1所述的方法,其中,基于所生成的预测概率和所述相对应标记概率量度来生成所述相对应元组损失包括:生成针对所述训练示例中的给定训练示例的所述元组损失中的给定元组损失,其中,生成所述给定元组损失包括:基于所述给定训练示例的相对应标记概率量度与所述给定训练示例的相对应预测概率的比较,来确定各自针对小于N的相对应元组大小的一个或多个个体元组损失,其中,所述一个或多个个体元组损失至少包括针对相对应元组大小为2的成对损失;并且基于所述一个或多个个体元组损失生成所述给定元组损失。3.根据权利要求2所述的方法,其中,生成所述给定元组包括仅使用所述成对损失作为所述给定元组损失。4.根据权利要求2所述的方法,其中,所述一个或多个个体元组损失进一步至少包括针对相对应元组大小为3的三个一组的损失,以及针对相对应元组大小为4的四个一组的损失。5.根据权利要求4所述的方法,其中,生成所述给定元组损失基于至少所述成对损失、所述三个一组的损失以及所述四个一组的损失的加权组合。6.根据权利要求5所述的方法,其中,所述成对损失在所述加权组合中的权重基于所测量的概率,所测量的概率指示仅指明用于话音处理的两种候选语言的用户的百分比。7.根据权利要求1所述的方法,其中,使用所生成的相对应元组损失更新所述语言选择模型的所述权重包括:跨所述语言选择模型反向传播所述元组损失。8.根据权利要求1所述的方法,进一步包括继训练所述语言选择模型之后:经由计算设备的至少一个麦克风接收捕获来自用户的当前口头话语的当前音频数据;提取所述当前音频数据的一个或多个特征;
使用所述语言选择模型处理所述当前音频数据的所述一个或多个特征,以生成所述N种不同语言中的每一种语言的当前预测概率;基于所述当前预测概率选择所述N种不用语言中的当前口头语言;以及基于所选择的当前口头语言执行所述音频数据的话音至文本处理。9.根据权利要求8所述的方法,其中,基于所选择的当前口头语言执行所述当前音频数据的话音至文本处理包括:从多个候选话音辨识模型中选择与所选择的当前口头语言相对应的特定话音辨识模型;以及使用所选择的话音辨识模型处理所述当前音频数据的所述特征以确定与所述当前口头话语相对应的一个或多个单词。10.根据权利要求9所述的方法,进一步包括:生成响应于所述一个或多个单词的内容;以及提供所述内容以由所述计算设备渲染。11.根据权利要求1所述的方法,进一步包括继训练所述语言选择模型之后:经由计算设备的至少一个麦克风接收捕获来自用户的当前口头话语的当...

【专利技术属性】
技术研发人员:万里于洋普拉尚特
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1