【技术实现步骤摘要】
【国外来华专利技术】训练和/或使用语言选择模型以自动确定用于口头话语的话音辨识的语言
技术介绍
[0001]人类可以参与与交互式软件应用的人机对话,该交互式软件应用在本文被称作“自动化助理”(也被称作“数字代理”、“聊天机器人”、“交互式个人助理”、“智能个人助理”、“助理应用”、“对话代理”等)。例如,人类(当他们与自动化助理交互式可以被称作“用户”)可以使用口头自然语言输入(即,话语)和/或通过提供文本(例如,键入的)自然语言输入向自动化助理提供命令和/或请求,该口头自然语言输入在一些情况下可以被转换为文本并且然后被处理。自动化助理通过提供响应性用户接口输出而对请求作出响应,该响应性用户接口输出可以包括可听和/或视觉用户接口输出。
[0002]如上文所提到的,自动化助理可以将对应于用户的口头话语的音频数据转换为相对应的文本(或其它语义表示)。例如,音频数据可以基于经由客户端设备的一个或多个麦克风对用户的口头话语的检测而生成,该客户端设备包括用于使得用户能够与自动化助理交互的助理接口。自动化助理可以包括话音辨识引擎,该话音辨识引擎利用话音辨识模型来辨识在音频数据中所捕获的口头话语的各种特性,诸如该口头话语所产生的声音(例如,音素)、所产生的声音的顺序、话音的节奏、声调等。另外,话音辨识引擎可以识别这样的特性所表示的文本单词或短语。该文本然后可以由自动化助理在确定口头话语的响应内容时进一步处理(例如,使用自然语言理解(NLU)引擎和/或对话状态引擎)。话音辨识引擎可以由客户端设备和/或远离客户端设备但是与客户端设备网络通信的一个或多个自动化助理组件来实施 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种由一个或多个处理器实现的方法,所述方法包括:生成多个训练示例,其中,生成所述训练示例中的每一个训练示例基于捕获相对应人类话语的相对应音频数据以及指示所述相对应人类话语的相对应口头语言的相对应标记,所述相对应口头语言是要辨识的N种不同语言中的一种语言,其中,N是大于10的整数,并且其中,训练示例中的每一个训练示例包括:相对应的训练示例输入,所述相对应的训练示例输入包括:所述相对应音频数据的相对应特征;和相对应的训练示例输出,所述相对应的训练示例输出包括:针对要辨识的所述N种不同语言的中的每一种语言的相对应标记概率量度,其中,所述相对应标记概率量度基于相对应标记包括对应于所述相对应口头语言的相对应正概率量度标记,以及针对所述相对应标记概率量度的所有其它相对应标记概率量度的相对应负概率量度标记;以及基于所述训练示例训练语言选择模型,训练所述语言选择模型包括:使用所述语言选择模型处理所述训练示例的所述相对应的训练示例输入的所述相对应特征,以生成所述N种不同语言中的每一种语言的相对应预测概率,基于所生成的相对应预测概率和相对应标记概率量度来生成相对应元组损失,以及使用所生成的相对应元组损失更新所述语言选择模型的权重。2.根据权利要求1所述的方法,其中,基于所生成的预测概率和所述相对应标记概率量度来生成所述相对应元组损失包括:生成针对所述训练示例中的给定训练示例的所述元组损失中的给定元组损失,其中,生成所述给定元组损失包括:基于所述给定训练示例的相对应标记概率量度与所述给定训练示例的相对应预测概率的比较,来确定各自针对小于N的相对应元组大小的一个或多个个体元组损失,其中,所述一个或多个个体元组损失至少包括针对相对应元组大小为2的成对损失;并且基于所述一个或多个个体元组损失生成所述给定元组损失。3.根据权利要求2所述的方法,其中,生成所述给定元组包括仅使用所述成对损失作为所述给定元组损失。4.根据权利要求2所述的方法,其中,所述一个或多个个体元组损失进一步至少包括针对相对应元组大小为3的三个一组的损失,以及针对相对应元组大小为4的四个一组的损失。5.根据权利要求4所述的方法,其中,生成所述给定元组损失基于至少所述成对损失、所述三个一组的损失以及所述四个一组的损失的加权组合。6.根据权利要求5所述的方法,其中,所述成对损失在所述加权组合中的权重基于所测量的概率,所测量的概率指示仅指明用于话音处理的两种候选语言的用户的百分比。7.根据权利要求1所述的方法,其中,使用所生成的相对应元组损失更新所述语言选择模型的所述权重包括:跨所述语言选择模型反向传播所述元组损失。8.根据权利要求1所述的方法,进一步包括继训练所述语言选择模型之后:经由计算设备的至少一个麦克风接收捕获来自用户的当前口头话语的当前音频数据;提取所述当前音频数据的一个或多个特征;
使用所述语言选择模型处理所述当前音频数据的所述一个或多个特征,以生成所述N种不同语言中的每一种语言的当前预测概率;基于所述当前预测概率选择所述N种不用语言中的当前口头语言;以及基于所选择的当前口头语言执行所述音频数据的话音至文本处理。9.根据权利要求8所述的方法,其中,基于所选择的当前口头语言执行所述当前音频数据的话音至文本处理包括:从多个候选话音辨识模型中选择与所选择的当前口头语言相对应的特定话音辨识模型;以及使用所选择的话音辨识模型处理所述当前音频数据的所述特征以确定与所述当前口头话语相对应的一个或多个单词。10.根据权利要求9所述的方法,进一步包括:生成响应于所述一个或多个单词的内容;以及提供所述内容以由所述计算设备渲染。11.根据权利要求1所述的方法,进一步包括继训练所述语言选择模型之后:经由计算设备的至少一个麦克风接收捕获来自用户的当前口头话语的当...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。