计算代理的合成语音选择制造技术

技术编号:21208064 阅读:37 留言:0更新日期:2019-05-25 03:47
一种示例方法包括由在一个或多个处理器处执行的计算助理接收在计算设备处说出的话语的表示;基于该话语从多个代理中选择代理,其中,所述多个代理包括一个或多个第一方代理和多个第三方代理;响应于确定所选择的代理包括第一方代理,从多个语音中选择预留语音;并使用所选择的语音输出合成音频数据以满足该话语。

Composite Speech Selection of Computing Agents

An example method includes receiving a representation of a speech uttered at a computing device by a computing assistant executed at one or more processors; selecting an agent from a plurality of agents based on the speech, wherein the plurality of agents includes one or more first-party agents and multiple third-party agents; and selecting from multiple voices in response to determining that the selected agent includes a first-party agent. Reserve voice; and synthesize audio data using the selected voice output to satisfy the discourse.

【技术实现步骤摘要】
【国外来华专利技术】计算代理的合成语音选择相关申请本申请要求2016年10月3日提交的美国临时专利申请No.62/403,665的权益,其全部内容通过引用结合于此。
技术介绍
一些计算平台可以提供用户界面,用户可以从该用户界面与虚拟计算助理(例如,也称为“智能个人助理”或简称为“助理”)聊天、说话或者以其它方式与其通信,以使助理输出有用信息,响应用户需求或者以其它方式执行某些操作以帮助用户完成各种现实世界或虚拟的任务。例如,计算设备可以利用麦克风接收对应于用户话语的语音输入(例如,音频数据)。至少部分地在计算设备处执行的助理可以分析语音输入并尝试通过下述方式来满足话语:基于话语输出有用信息、响应由话语指示的用户需求或者以其它方式执行某些操作来帮助用户根据话语完成各种现实世界或虚拟任务。
技术实现思路
一般而言,本专利技术的技术可使用户能够与多个虚拟计算代理/助理通信。例如,可能存在经由计算设备可供用户使用的若干代理,其可能至少在某种程度上能够响应话语(例如,请求、问题、查询、订购等)。代理可以通过至少使计算设备输出合成音频数据来响应话语或否则与用户交谈。例如,代理可以提供文本,计算设备在其上执行文本到语音(TTS)以生成合成音频数据。然而,与使用相同语音为所有代理生成的合成音频数据相反,可能希望不同代理使用不同的语音。以这种方式,提供自适应接口,其中基于数据本身来调整数据的输出。根据本公开的一种或多种技术,代理可以使计算设备使用不同的语音输出合成的音频数据。例如,第一代理可以使计算设备使用第一语音输出合成音频数据,第二代理可以使计算设备使用与第一语音不同的第二语音输出合成音频数据。通过使得不同的代理在经由特定计算设备与用户通信时使用不同的语音,用户可以更好地跟踪用户正在与哪个代理进行通信。这样,用户可以避免重复发声,其处理消耗功率和其他系统资源。以这种方式,本公开的技术可以降低代理交互的功耗和/或系统资源需求。在一个示例中,一种方法包括:由在一个或多个处理器处执行的计算助理接收在计算设备处说出的话语的表示;基于所述话语从多个代理中选择代理,其中,所述多个代理包括一个或多个第一方代理和多个第三方代理;响应于确定所选择的代理包括第一方代理,从多个语音中选择预留语音;以及,使用所选择的语音输出用于由所述计算设备的一个或多个扬声器回放的合成的音频数据以满足所述话语。在另一示例中,一种设备包括至少一个处理器;至少一个存储器,所述至少一个存储器包括指令,所述指令在被执行时使所述至少一个处理器执行助理,所述助理被配置为:从可操作地连接到所述计算设备的一个或多个麦克风接收在所述计算设备处说出的话语的表示;基于话语从多个代理中选择代理,其中,所述多个代理包括一个或多个第一方代理和多个第三方代理,所述存储器还包括指令,所述指令在被执行时使得所述至少一个处理器:响应于确定所选择的代理包括第一方代理,从多个语音中选择预留语音;并且,使用所选择的语音输出用于通过可操作地连接到计算设备的一个或多个扬声器进行回放的合成音频数据以满足话语。在另一示例中,一种系统包括一个或多个通信单元;至少一个处理器;至少一个存储器,至少一个存储器包括指令,所述指令在被执行时使所述至少一个处理器执行助理,所述助理被配置为:从可操作地连接到所述计算设备的一个或多个麦克风接收在所述计算设备处说出的话语的表示;基于话语从多个代理中选择代理,其中,所述多个代理包括一个或多个第一方代理和多个第三方代理,所述存储器还包括指令,所述指令在被执行时使得所述至少一个处理器:响应于确定所选择的代理包括第一方代理,从多个语音中选择预留语音;并且,使用所选择的语音输出用于由可操作地连接到计算设备的一个或多个扬声器回放的合成音频数据以满足话语。在另一示例中,一种系统包括:用于由在一个或多个处理器处执行的计算助理接收在计算设备处说出的话语的表示的装置;用于基于话语从多个代理中选择代理的装置,其中,所述多个代理包括一个或多个第一方代理和多个第三方代理;用于响应于确定所选择的代理包括第一方代理,从多个语音中选择预留语音的装置;以及,用于使用所选择的语音输出用于通过可操作地连接到计算设备的一个或多个扬声器进行回放的合成音频数据以满足话语的装置。在另一示例中,一种计算机可读存储介质,存储指令,所述指令在被执行时使得一个或多个处理器执行助理,所述助理被配置为:接收在计算设备处说出的话语的表示;基于话语从多个代理中选择代理,其中,所述多个代理包括一个或多个第一方代理和多个第三方代理,所述存储介质还包括指令,所述指令在被执行时使得一个或多个处理器:响应于确定所选择的代理包括第一方代理,从多个语音中选择预留语音;并且,使用所选择的语音输出用于回放的合成音频数据以满足话语。在附图和以下描述中阐述了一个或多个示例的细节。根据说明书和附图以及权利要求,本公开的其他特征、目的和优点将是显而易见的。附图说明图1是示出根据本公开的一个或多个方面的执行示例虚拟助理的示例系统的概念图。图2是示出根据本公开的一个或多个方面的被配置为执行示例虚拟助理的示例计算设备的框图。图3是示出根据本公开的一个或多个方面的被配置为执行示例虚拟助理的示例计算系统的框图。图4是示出根据本公开的一个或多个方面的被配置为执行示例第三方代理的示例计算系统的框图。图5是示出根据本公开的一个或多个方面的由执行示例虚拟助理的一个或多个处理器执行的示例操作的流程图。图6A-6B是示出了根据本公开的一个或多个方面的由一个或多个处理器执行以选择虚拟代理以执行任务的示例操作的流程图。图7是示出根据本专利技术的一个或多个方面的由一个或多个处理器执行以促进多个虚拟代理的任务执行的示例操作的流程图。图8是示出根据本专利技术的一个或多个方面的由一个或多个处理器执行以选择在输出由虚拟代理生成的文本的合成音频数据时使用的语音的示例操作的流程图。具体实施方式一般而言,本专利技术的技术可使虚拟计算助理(例如,也称为“智能个人助理”或简称为“助理”)能够管理多个代理以响应用户输入(例如,用于满足用户话语或文本输入)。例如,计算设备可以利用麦克风接收对应于用户话语的语音输入(例如,音频数据)。代理选择模块可以分析语音输入,并从多个代理中选择代理以满足话语。所述多个代理可以包括一个或多个第一方(1P)代理和一个或多个第三方(3P)代理。1P代理可以包括在助理内和/或与助理、代理选择模块和/或接收语音输入的计算设备的操作系统共享公共发布者。为了执行选择,代理选择模块可以使用1P代理、3P代理或1P代理和3P代理的某种组合来确定是否满足话语。在代理选择模块至少部分地使用3P代理确定满足话语的情况下,代理选择模块可以基于话语对一个或多个3P代理进行排名。所选择的语言代理(1P语言代理、3P语言代理或1P语言代理和3P语言代理的某种组合)可以尝试满足话语。例如,所选代理可以执行一个或多个动作(例如,基于话语输出信息、响应由话语指示的用户需求或者以其它方式基于话语执行某些操作以帮助用户完成各种现实世界或虚拟任务)来满足话语。在一些示例中,可以存在执行动作的代理的类型的指示。例如,在一个或多个动作包括与用户“说话”的情况下,1P代理和3P代理可以使用不同的语音。作为一个示例,1P代理可以全部利用多个语音中的预留语音本文档来自技高网...

【技术保护点】
1.一种方法,包括:由在一个或多个处理器处执行的计算助理接收在计算设备处说出的话语的表示;基于所述话语从多个代理中选择代理,其中,所述多个代理包括一个或多个第一方代理和多个第三方代理;响应于确定所选择的代理包括第一方代理,从多个语音中选择预留语音;以及使用所选择的语音输出用于由所述计算设备的一个或多个扬声器回放的合成的音频数据以满足所述话语。

【技术特征摘要】
【国外来华专利技术】2016.10.03 US 62/403,6651.一种方法,包括:由在一个或多个处理器处执行的计算助理接收在计算设备处说出的话语的表示;基于所述话语从多个代理中选择代理,其中,所述多个代理包括一个或多个第一方代理和多个第三方代理;响应于确定所选择的代理包括第一方代理,从多个语音中选择预留语音;以及使用所选择的语音输出用于由所述计算设备的一个或多个扬声器回放的合成的音频数据以满足所述话语。2.根据权利要求1所述的方法,其中,所述话语包括第一话语,所述方法还包括:接收在所述计算设备处说出的第二话语的表示;基于所述第二话语从所述多个代理中选择第二代理;响应于确定所选择的第二代理包括第三方代理,从所述多个语音中选择不同于所述预留语音的语音;以及使用所选择的语音输出合成音频数据以满足所述第二话语。3.根据权利要求1或2所述的方法,还包括:基于所述话语获得多个搜索结果;以及使用所述多个语音...

【专利技术属性】
技术研发人员:瓦莱里·尼高波格丹·卡普里塔罗伯特·斯特茨塞苏雷什·克里希纳库马兰贾森·布兰特·道格拉斯
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利