当前位置: 首页 > 专利查询>谷歌公司专利>正文

语音动作偏置系统技术方案

技术编号:21737240 阅读:172 留言:0更新日期:2019-07-31 19:41
提供一种由计算机实现的执行语音动作的方法。所述方法包括:接收用于新语音动作的用户发声,用户发声在与用户设备分离并通信地耦合到用户设备的语音动作系统中接收,该用户设备安装有与用于执行语音动作的触发词语相关联的应用;使用该语音动作系统确定该用户发声的多个候选转录;使用该语音动作系统确定多个候选转录中的任一个是否包含一个或多个触发词语;以及基于该确定来偏置语音动作系统,使得语音动作系统偏好与新语音动作相关联的多个候选转录中的一个,其中当语音动作系统从用户设备接收用户发声时,语音动作系统向用户设备发送动作触发,动作触发使应用执行该新语音动作。

Voice Action Bias System

【技术实现步骤摘要】
语音动作偏置系统本申请为申请日为2017年5月31日、申请号为201710398592.0的专利技术名称为“语音动作偏置系统”的申请案的分案申请。
本说明书涉及语音动作,并且一种特定实现方式涉及语音动作检测技术。
技术介绍
软件应用中的一个任务是用户在执行特定作业时与之交互的一个或多个活动的收集,其中每个活动是在软件应用中定义的。每个活动是活动类的一个实例,并且总体上集合中的一个或多个活动控制任务的执行的生命周期,使得在任务内执行的多个活动可允许用户执行该作业。在一些实现方式中,命令可与活动或者与活动有关的动作相关联,使得用户对该命令的提交可触发该活动或动作。特定的意图可被发射(fire)以触发活动的开始或动作的执行。从而,为了触发活动的开始或动作的执行,用户必须拥有关于跟用于发射与活动或动作相对应的意图的活动或动作相关联的命令的知识。
技术实现思路
本说明书描述了一种由计算机实现的方法。所述方法包括:接收用于新语音动作的用户发声,用户发声在与用户设备分离并通信地耦合到用户设备的语音动作系统中接收,该用户设备安装有与用于执行语音动作的触发词语相关联的应用;使用该语音动作系统确定该用户发声的多个候选转录;使用该语音动作系统确定多个候选转录中的任一个是否包含一个或多个触发词语;以及基于该确定来偏置语音动作系统,使得语音动作系统偏好与新语音动作相关联的多个候选转录中的一个,其中当语音动作系统从用户设备接收用户发声时,语音动作系统向用户设备发送动作触发,动作触发使应用执行该新语音动作。本说明书还描述了一种系统。该系统包括:一个或多个计算机和存储指令的一个或多个存储设备,所述指令当被所述一个或多个计算机执行时可操作来使得所述一个或多个计算机执行操作,该系统与用户设备分离并通信地耦合到用户设备,该用户设备安装有与用于执行语音动作的触发词语相关联的应用。所述操作包括:接收用于新语音动作的用户发声;确定该用户发声的多个候选转录;确定多个候选转录中的任一个是否包含一个或多个触发词语;以及基于该确定来偏置该系统,使得该系统偏好与新语音动作相关联的多个候选转录中的一个,其中,当该系统从用户设备接收用户发声时,该系统向用户设备发送动作触发,动作触发使应用执行该新语音动作。本说明书还描述了一种存储软件的非暂态计算机可读存储设备,所述软件包括可被一个或多个计算机执行的指令,这些指令当被这样执行时使得所述一个或多个计算机执行操作。所述操作包括:接收用于新语音动作的用户发声,用户发声在与用户设备分离并通信地耦合到用户设备的语音动作系统中接收,该用户设备安装有与用于执行语音动作的触发词语相关联的应用;使用该语音动作系统确定该用户发声的多个候选转录;使用该语音动作系统确定多个候选转录中的任一个是否包含一个或多个触发词语;以及基于该确定来偏置语音动作系统,使得语音动作系统偏好与新语音动作相关联的多个候选转录中的一个,其中,当语音动作系统从用户设备接收用户发声时,语音动作系统向用户设备发送动作触发,动作触发使应用执行该新语音动作。本说明书还描述了一种平台,用于将话音识别系统偏置为相对于其他词语更偏好用于新语音动作的触发词语。在本说明书中,新语音动作是由先前安装的软件应用的应用开发者指明的语音动作。应用开发者可使用该平台来提交定义新语音动作的信息,其中该信息指明先前已被发布并安装在一个或多个用户设备上的软件应用、当该新语音动作被用户发出并被话音识别系统识别时该应用执行的动作、用于触发该动作的触发词语以及该触发词语在其中可用来触发该应用中的该动作的情境。应用开发者提交的情境可指明当该语音动作应当有效来触发该应用中的该动作时的用户设备状态。设备状态可包括例如哪个(或哪些)应用在前台操作(即,当前在设备的用户界面中活跃)或者在后台操作(即,当前在设备的用户界面中隐藏不可见),或者可包括关于应用的具体信息,例如哪个活动当前在运行、哪些活动被包括在活动栈上、当前运行的活动的状态或者栈上的一个或多个活动的状态,等等。当应用开发者提交定义新语音动作的信息时,被设计为服务或工具的平台可验证定义新语音动作的信息以确定新语音动作是否与应用兼容,或者以其他方式确定新语音动作是否可被实现。如果新语音动作有效,则通过归纳(induct)定义新语音动作的信息,可以为该语音动作创建一被称为意图(intent)并且具有特定格式的被动数据结构的新实例。意图可指明定义新语音动作的信息中的一些或全部,例如应用、触发词语、响应于检测到该触发词语要触发的活动或动作以及该触发词语触发该活动或动作所必要的情境。随后可为该应用部署该语音动作,使得该语音动作对于该应用成为使能的语音动作,而无需对应用代码做出额外的更改来支持该语音动作。一旦已部署了语音动作,操作用户设备的用户就可提供话音输入。用户设备可以提交关于用户设备的情境信息,并且情境信息和话音输入的转录(transcription)可用于识别意图并且触发所识别的意图。当意图被触发时,用于执行活动或动作的数据被确定,并且被发送到用户设备以响应于该语音输入而执行该活动或动作。每个新语音动作与一个或多个触发词语相关联,这些触发词语的发音可与用于其他语音动作的触发词语相似,或者其发音可与不是语音动作的其他单词相似。从而,在一些实现方式中,系统可偏置自动话音识别器以使得自动话音识别器更有可能确定接收到的语音输入包括用于新语音动作的触发词语。为了偏置自动话音识别器,平台可确定用户设备的情境并且可偏置用于转录用户话音的自动话音识别器以识别对于该情境使能的触发词语。例如,在用户向用户设备提供口头输入之时,用户设备的情境或者安装在用户设备上的一个或多个应用的情境可被确定。随后可基于情境识别可用来被触发的语音动作,并且可调整自动话音识别器以对口头输入中的触发词语的识别进行偏置。在一些实现方式中,偏置话音识别引擎包括调整自动话音识别器使用的一个或多个语言模型以生成用户话音的转录。例如,与用于新语音动作的触发词语相关联的一个或多个识别概率被调整来提高在话音数据中识别出触发词语的可能性,或者提高自动话音识别器相对于其他语音动作的触发词语识别新语音动作的触发词语的偏好。自动话音识别器偏好的触发词语可包括与对于用户设备或在用户设备上操作的应用的给定状态使能的语音动作相关联的那些触发词语。额外地或替换地,与语义上相似的词语或者用于不可用(即,未使能)的语音动作的触发词语相关联的一个或多个识别概率可被调整来降低在话音数据中识别出语义上相似的词语的可能性,或者降低自动话音识别器对于语义上相似的词语的偏好。在其他实现方式中,话音识别引擎使用的一般语言模型可用于生成用户话音的候选转录,并且候选转录的后期处理可被执行来偏置话音识别。例如,在用于用户话音的候选转录被生成之后,向候选转录中的一个或多个分配的概率或置信得分可被调整来偏置话音识别引擎来选择包括用于新语音动作的触发词语的候选转录作为发声的转录,而不选择不包括用于新语音动作的触发词语的其他候选转录。例如,应用开发者可以为先前安装在一个或多个用户设备的媒体播放器应用部署新的“跳过广告”(skipad)语音动作。通过部署新语音动作,用户可能够提供包括触发词语“跳过广告”的口头输入来绕过在媒体播放器应用内呈现的广告。应用开本文档来自技高网...

【技术保护点】
1.一种由计算机实现的方法,包括:接收用于新语音动作的用户发声,用户发声在与用户设备分离并通信地耦合到用户设备的语音动作系统中接收,该用户设备安装有与用于执行语音动作的触发词语相关联的应用;使用该语音动作系统确定该用户发声的多个候选转录;使用该语音动作系统确定多个候选转录中的任一个是否包含一个或多个触发词语;以及基于该确定来偏置语音动作系统,使得语音动作系统偏好与新语音动作相关联的多个候选转录中的一个,其中当语音动作系统从用户设备接收用户发声时,语音动作系统向用户设备发送动作触发,动作触发使应用执行该新语音动作。

【技术特征摘要】
2016.08.19 US 15/241,5381.一种由计算机实现的方法,包括:接收用于新语音动作的用户发声,用户发声在与用户设备分离并通信地耦合到用户设备的语音动作系统中接收,该用户设备安装有与用于执行语音动作的触发词语相关联的应用;使用该语音动作系统确定该用户发声的多个候选转录;使用该语音动作系统确定多个候选转录中的任一个是否包含一个或多个触发词语;以及基于该确定来偏置语音动作系统,使得语音动作系统偏好与新语音动作相关联的多个候选转录中的一个,其中当语音动作系统从用户设备接收用户发声时,语音动作系统向用户设备发送动作触发,动作触发使应用执行该新语音动作。2.如权利要求1所述的由计算机实现的方法,其中,偏置语音动作系统以偏好多个候选转录中的一个包括:调整由语音动作系统使用的语言模型以使得使用经调整的语言模型的语音动作系统具有提高的检测到新语音动作的触发词语的可能性。3.如权利要求1所述的由计算机实现的方法,其中,使应用执行该新语音动作包括触发所述应用执行与所述新语音动作相关联的动作。4.如权利要求1所述的由计算机实现的方法,包括:由语音动作系统确定安装在用户设备上的应用与一个或多个其他语音动作兼容;由所述语音动作系统识别用于触发所述应用执行一个或多个其他语音动作的一个或多个触发词语;以及由所述语音动作系统对所述新语音动作和所述一个或多个其他语音动作进行排名,其中所述语音动作系统是至少基于所述排名被偏置的。5.如权利要求4所述的由计算机实现的方法,包括:接收指示所述用户设备的状态或安装在所述用户设备上的所述应用的状态的信息;并且至少基于接收到的指示所述用户设备的状态或安装在所述用户设备上的所述应用的状态的信息对所述新语音动作和所述一个或多个其他语音动作进行排名。6.如权利要求1所述的由计算机实现的方法,其中语音动作系统基于所接收的用户发声生成包括节点和在节点之间的边缘的图形,并且其中使用所生成的图形确定多个候选转录,以及语音动作系统被偏置。7.如权利要求1所述的由计算机实现的方法,其中节点对应于词语之间的连接,其中边缘对应于与来自用户发声的音频数据的一部分对应的候选词语,并且其中节点或边缘或两者与概率相关联,该概率指示所确定的用户发声包括与该节点或边缘相对应的特定词语或词语之间的连接的置信。8.如权利要求7所述的由计算机实现的方法,还包括对确定的多个候选转录进行排名,其中偏置语音动作系统包括改变该排名以偏好与新语音动作关联的候选转录。9.如权利要求7所述的由计算机实现的方法,其中偏置语音动作系统包括基于与合格语音动作相对应的触发词语的存在或缺乏而调整各个候选转录的概率。10.如权利要求9所述的由计算机实现的方法,其中调整概率是针对各个节点或边缘完成的。11.一种系统,包括:一个或多个计算机和存储指令的一个或多个存储设备,所述指令当被所述一个或多个计算...

【专利技术属性】
技术研发人员:王波S维穆里BJ詹姆斯PK古普塔SB霍夫曼
申请(专利权)人:谷歌公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1