在请求时间将补充音频内容动态插入到音频记录中制造技术

技术编号:29503452 阅读:22 留言:0更新日期:2021-07-30 19:18
本公开总体上涉及经由数字助理应用将补充音频内容插入到主要音频内容中。数据处理系统可以维护内容发布方的音频记录和内容点标记以指定定义插入补充音频内容的时间的内容点。数据处理系统可以从客户端设备接收输入音频信号。数据处理系统可以解析输入音频信号以确定输入音频信号对应于请求,并且可以标识内容发布方的音频记录。数据处理系统可以响应于该确定来标识内容选择参数。数据处理系统可以使用内容选择参数来选择音频内容项。数据处理系统可以生成并发送包括插入有音频内容项的音频记录的动作数据结构。

【技术实现步骤摘要】
【国外来华专利技术】在请求时间将补充音频内容动态插入到音频记录中
技术介绍
人们可以使用本文中称为“自动助理”(也称为“聊天机器人”、“交互式个人助理”、“智能个人助理”、“个人语音助理”、“会话代理”等)的交互式软件应用参与人机对话。例如,用户可以使用自由形式的自然语言输入来提供命令、查询和/或请求(本文中统称为“查询”),该自由形式的自然语言输入可以包括被转换成文本然后被处理的声音话语和/或键入的自由形式的自然语言输入。
技术实现思路
根据本公开的一方面,一种经由数字助理应用将补充音频内容插入到主要音频内容中的系统可以包括在具有一个或多个处理器的数据处理系统上执行的记录索引器组件。记录索引器可以在数据库上维护内容发布方的音频记录和由内容发布方设置以指定内容点的内容点标记,该内容点定义了在音频记录的呈现期间插入补充音频内容的时间。该系统可以包括在数据处理系统上执行的自然语言处理器组件。自然语言处理器组件可以接收音频数据分组,该音频数据分组包括由客户端设备的传感器检测到的输入音频信号。自然语言处理器组件可以解析来自音频数据分组的输入音频信号,以确定输入音频信号对应于对来自内容发布方的音频记录的请求。自然语言处理器组件可以基于从输入音频信号确定的请求,从数据库中标识内容发布方的音频记录。该系统可以包括在数据处理系统上执行的内容放置组件。内容放置组件可以响应于确定输入音频信号对应于对音频记录的请求来标识与客户端设备相关联的标识符作为内容选择参数。内容放置组件可以针对音频记录的内容点使用内容选择参数从多个音频内容项中选择内容提供者的音频内容项。该系统可以包括在数据处理系统上执行的动作处置器组件。动作处置器组件可以将音频内容项插入到由内容点标记指定的音频记录的内容点中。动作处置器组件可以生成动作数据结构,该动作数据结构包括在由内容点标记定义的时间插入有音频内容项的音频记录。动作处置器组件可以将动作数据结构传输到客户端设备,以呈现在内容点处插入有音频内容项的音频记录。根据本公开的一个方面,一种经由数字助理应用将补充音频内容插入到主要音频内容中的方法可以包括:由具有一个或多个处理器的数据处理系统在数据库上维护内容发布方的音频记录和由内容发布方设置以指定内容点的内容点标记,该内容点定义了在音频录制的呈现期间插入补充音频内容的时间。该方法可以包括由数据处理系统接收音频数据分组,该音频数据分组包括由客户端设备的传感器检测到的输入音频信号。该方法可以包括由数据处理系统解析来自音频数据分组的输入音频信号,以确定该输入音频信号对应于对来自内容发布方的音频记录的请求。该方法可以包括由数据处理系统基于从输入音频信号确定的请求从数据库中标识内容发布方的音频记录。该方法可以包括:响应于确定输入音频信号对应于对音频记录的请求,由数据处理系统标识与客户端设备相关联的标识符作为内容选择参数。该方法可以包括由数据处理系统针对音频记录的内容点使用内容选择参数从多个音频内容项中选择内容提供者的音频内容项。该方法可以包括由数据处理系统将音频内容项插入到定义由内容点标记指定的时间的音频记录的内容点中。该方法可以包括由数据处理系统生成动作数据结构,该动作数据结构包括在由内容点标记定义的时间插入有音频内容项的音频记录。该方法可以包括由数据处理系统将动作数据结构传输到客户端设备,以呈现在内容点处插入有音频内容项的音频记录。这些和其他方面以及实施方式将在下面详细讨论。前述信息和以下详细描述包括各个方面和实施方式的说明性示例,并且提供了用于理解所要求保护的方面和实施方式的性质和特征的概述或框架。附图提供了对各个方面和实施方式的说明和进一步的理解,并且被并入本说明书中并构成本说明书的一部分。附图说明附图无意按比例绘制。在各个附图中,相似的附图标记和名称指示相似的元素。为了清楚起见,并非在每个附图中都标记了每个组件。在附图中:图1图示根据本公开的示例的经由数字助理应用将补充音频内容插入到主要音频内容中的示例系统的框图。图2图示根据本公开的示例的在图1所示系统中经由数字助理应用将补充音频内容插入到主要音频内容中的示例数据流的序列图。图3图示根据本公开的示例的呈现插入有补充音频内容的主要音频内容的示例客户端计算设备。图4图示根据本公开的示例的使用图1中示出的示例系统经由数字助理应用将补充音频内容插入到主要音频内容中的方法的流程图。图5是示例计算机系统的框图。具体实施方式以下是与经由数字助理应用将补充音频内容插入到主要音频内容中的方法、装置和系统有关的各种概念以及所述方法、装置和系统的实施方式的更详细描述。可以以许多方式中的任何一种来实现上面介绍和下面将更详细讨论的各种概念。音频文件可以包括要经由客户端设备上的扬声器呈现的音频内容。为了生成用于音频文件的音频内容,内容发布方可以使用一个或多个麦克风记录各种来源的声音源-自然的(例如,人的声音、动物或天气)或人工的(例如,乐器、音响合成器或其他机器)。例如,为了创建播客记录,可以经由麦克风记录连续阅读文字记录的人类播音员的语音。在记录期间,可以对经由麦克风获取的声音进行采样、量化和编码,以形成用于音频文件的音频内容的声音的数字表示(例如,二进制码)。一旦在信息资源(例如,网页)上可用,客户端设备就可以从信息资源下载音频文件,并在以后时间使用媒体播放器播放音频文件。然而,在生成音频文件之后,可能难以在不干扰或分割已经包括在文件中的音频内容的情况下添加由诸如内容提供方的另一实体提供的补充音频内容。这可能特别有问题,因为与近乎实时地提供并且因此可以容易被中断以插入此类内容的流媒体内容不同,音频文件可以在下载后的某个时间离线播放。插入补充音频内容的一种方法可以包括手动记录补充音频内容以及内容发布方的主要音频内容。从先前的播客示例继续,要被记录的由人类播音员大声阅读的文字记录本身可以包括用于主要音频内容的部分之间的用于补充音频内容的部分。但是这种方法通常会导致音频文件的收听者不得不经常听到与他们无关的相同的补充音频内容。此外,这种类型的方法可能无法将内容调整到动态变化或上下文驱动的技术环境,诸如用于回放内容的音频设备的保真度、收听者的当前音频环境以及当前的网络状况等。缺少补充音频内容对当前环境的适应可能是由在标识要插入的补充音频内容时没有考虑请求客户端设备和主要音频内容的内容选择过程引起的。从内容提供方的角度来看,没有这样的过程,内容提供方可能难以评估或标识哪个音频文件或内容发布方要提供补充音频内容。结果,在没有相关的补充音频内容的情况下,客户端设备可能从对潜在相关内容的附加请求的生成和传输以及最初提供技术上次优的输出中消耗更多的计算资源和网络带宽。这也可能导致用户与播放音频文件的客户端设备之间的人机交互(HCI)的降级。在数字助理应用的场境下,这些技术挑战可能会加剧。数字助理应用可以解析经由客户端设备上的麦克风获取的输入语音命令,以标识对来自特定内容提供方的音频内容的请求。例如,由数字助理应用解析的输入语音命令可以是“从‘新闻源A’下载播客”。提供给数字助理应用的本文档来自技高网...

【技术保护点】
1.一种经由数字助理应用将补充音频内容插入到主要音频内容中的系统,包括:/n在具有一个或多个处理器的数据处理系统上执行的记录索引器组件,所述记录索引器组件在数据库上维护内容发布方的音频记录以及由所述内容发布方设置以指定内容点的内容点标记,该内容点定义在所述音频记录的呈现期间插入补充音频内容的时间;/n在所述数据处理系统上执行的自然语言处理器组件,用于:/n接收音频数据分组,所述音频数据分组包括由客户端设备的传感器检测到的输入音频信号;/n解析来自所述音频数据分组的输入音频信号,以确定所述输入音频信号对应于对来自所述内容发布方的所述音频记录的请求;以及/n基于从所述输入音频信号确定的请求,从所述数据库中标识所述内容发布方的所述音频记录;/n在所述数据处理系统上执行的内容放置组件,用于:/n响应于确定所述输入音频信号对应于对所述音频记录的请求,将与所述客户端设备相关联的标识符标识为内容选择参数;以及/n针对所述音频记录的所述内容点,使用所述内容选择参数从多个音频内容项中选择内容提供方的音频内容项;和/n在所述数据处理系统上执行的动作处置器组件,用于:/n将所述音频内容项插入到由所述内容点标记指定的所述音频记录的内容点中;/n生成动作数据结构,所述动作数据结构包括在由所述内容点标记定义的时间插入有音频内容项的音频记录;以及/n将所述动作数据结构传输到所述客户端设备以呈现在所述内容点插入有所述音频内容项的音频记录。/n...

【技术特征摘要】
【国外来华专利技术】1.一种经由数字助理应用将补充音频内容插入到主要音频内容中的系统,包括:
在具有一个或多个处理器的数据处理系统上执行的记录索引器组件,所述记录索引器组件在数据库上维护内容发布方的音频记录以及由所述内容发布方设置以指定内容点的内容点标记,该内容点定义在所述音频记录的呈现期间插入补充音频内容的时间;
在所述数据处理系统上执行的自然语言处理器组件,用于:
接收音频数据分组,所述音频数据分组包括由客户端设备的传感器检测到的输入音频信号;
解析来自所述音频数据分组的输入音频信号,以确定所述输入音频信号对应于对来自所述内容发布方的所述音频记录的请求;以及
基于从所述输入音频信号确定的请求,从所述数据库中标识所述内容发布方的所述音频记录;
在所述数据处理系统上执行的内容放置组件,用于:
响应于确定所述输入音频信号对应于对所述音频记录的请求,将与所述客户端设备相关联的标识符标识为内容选择参数;以及
针对所述音频记录的所述内容点,使用所述内容选择参数从多个音频内容项中选择内容提供方的音频内容项;和
在所述数据处理系统上执行的动作处置器组件,用于:
将所述音频内容项插入到由所述内容点标记指定的所述音频记录的内容点中;
生成动作数据结构,所述动作数据结构包括在由所述内容点标记定义的时间插入有音频内容项的音频记录;以及
将所述动作数据结构传输到所述客户端设备以呈现在所述内容点插入有所述音频内容项的音频记录。


2.根据权利要求1所述的系统,包括在所述数据处理系统上执行的转换检测组件,所述转换检测组件用于:
在传输所述动作数据结构之后,监视经由所述客户端设备执行的交互事件,所述交互事件与针对被选择用于插入到所述音频记录中的所述音频内容项的预定义交互匹配;以及
响应于检测到与所述预定义交互匹配的来自所述客户端设备的交互事件,确定插入到所述音频记录中的所述音频内容项经由所述客户端设备来收听。


3.根据权利要求1或权利要求2所述的系统,包括在所述数据处理系统上执行的转换检测组件,所述转换检测组件用于:
在传输所述动作数据结构之后,使用所述标识符经由在所述客户端设备上运行的应用的应用编程接口(API)监视插入有所述音频内容项的音频记录的回放内的位置,所述应用用于处理所述音频记录的回放;以及
响应于所述位置与经由所述API检测到的音频记录的持续时间匹配,确定插入有所述音频内容项的音频记录的回放完成。


4.根据权利要求1至3中的任一项所述的系统,包括在所述数据处理系统上执行的转换检测组件,所述转换检测组件用于:
基于所测量的从其检测到所述预定义交互事件的客户端设备的数量,确定在所述音频记录的回放之后将从其检测到针对多个音频内容项之一的预定义交互事件的客户端设备的预期数量;以及
基于所测量的从其检测到所述音频记录的回放的完成的客户端设备的数量,确定将完成插入有所述多个音频内容项之一的音频记录的回放的客户端设备的预期数量。


5.根据前述权利要求中的任一项所述的系统,包括所述内容放置组件,所述内容放置组件用于:
使用训练数据建立预测模型,以估计在插入有所述多个音频内容项之一的音频记录的回放之后预期将从其检测到针对所述多个内容项之一的预定义交互事件的客户端设备的数量;
将所述预测模型应用于具有由所述内容点标记指定的内容点的音频记录,以确定内容点参数,该内容点参数与在其上检测到与针对在所述内容点插入到所述音频记录中的所述多个音频内容项中的每一个的预定义交互匹配的交互事件的客户端设备的预期数量相对应;以及
基于用于所述内容点的所述内容点参数和用于所述多个音频内容项中的每一个的内容提交参数,从所述多个音频内容项中选择所述内容提供方的所述音频内容项。


6.根据前述权利要求中的任一项所述的系统,包括所述内容放置组件,所述内容放置组件用于:
标识在其上检测到与针对在所述内容点插入到所述音频记录中的所述多个音频内容项中的每一个的预定义交互匹配的交互事件的客户端设备的数量;
基于在其上的所述交互事件与所述预定义交互匹配的客户端设备的数量,确定用于所述音频记录中定义的所述内容点的内容点参数;以及
基于用于所述内容点的所述内容点参数和用于所述多个音频内容项中的每一个的内容提交参数,从所述多个音频内容项中选择所述内容提供方的所述音频内容项。


7.根据前述权利要求中的任一项所述的系统,包括所述内容放置组件,所述内容放置组件用于:
标识完成插入有所述多个音频内容项之一的音频记录的回放的客户端设备的数量;
基于完成所述回放的客户端设备的数量,确定用于所述音频记录中定义的所述内容点的内容点参数;以及
基于用于所述内容点的所述内容点参数和用于所述多个音频内容项中的每一个的内容提交参数,从所述多个音频内容项中选择所述内容提供方的所述音频内容项。


8.根据前述权利要求中的任一项所述的系统,包括所述内容放置组件,所述内容放置组件用于:
响应于确定所述输入音频信号对应于所述请求,标识多个内容选择参数,所述多个内容选择参数包括下述中的至少一个:设备标识符、与所述客户端设备的会话相关联的cookie标识符、用于认证在所述客户端设备上执行的应用以回放到所述音频记录的账户标识符以及与所述账户标识符相关联的特性特征;以及
使用所述多个内容选择参数从所述多个音频内容项中选择所述音频内容项。


9.根据前述权利要求中的任一项所述的系统,包括所述内容放置组件,所述内容放置组件用于响应于确定所述输入音频信号对应于所述请求,经由在所述客户端设备上运行的应用的应用编程接口(API)来标识与所述客户端设备相关联的标识符。


10.根据前述权利要求中的任一项所述的系统,包括:
所述自然语言处理器组件,所述自然语言处理器组件用于接收包括与所述客户端设备相关联的标...

【专利技术属性】
技术研发人员:雷切尔·豪斯曼科林·欧文
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1