对话检测制造技术

技术编号:14191511 阅读:108 留言:0更新日期:2016-12-15 09:57
公开了涉及检测在计算设备上呈现内容期间的对话,并且响应于检测到所述对话采取一个或多个动作的各实施例。在一个示例中,音频数据流被从一个或多个传感器接收,基于该音频数据流检测第一用户和第二用户之间的对话,以及响应于检测到该对话通过该计算设备修改数字内容项的呈现。

Dialogue detection

The invention relates to a dialogue that involves detecting the presentation of content on a computing device, and in response to the implementation of one or more actions of the session. In one example, the audio data stream is received from one or more sensors, the audio data stream between the first user and the second user based on conversations and in response to the detection of the dialogue through the computing device to modify the digital content item presentation.

【技术实现步骤摘要】
【国外来华专利技术】概述公开了涉及检测在计算设备上呈现内容期间的对话,并且响应于检测到所述对话采取一个或多个动作的各实施例。在一个示例中,音频数据流被从一个或多个传感器接收,基于该音频数据流检测第一用户和第二用户之间的对话,以及响应于检测到该对话通过该计算设备修改数字内容项的呈现。提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的一些概念。本
技术实现思路
并不旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限制所要求保护主题的范围。而且,所要求保护的主题不限于解决该公开的任一部分中所注的任何或全部缺点的实现方式。附图简述图1示出了经由头戴式显示器(HMD)设备的数字内容项的呈现的示例。图2示出了与另一人的对话的图1的HMD设备的佩戴者。图3-5示出了响应于检测到佩戴者和另一人的对话可对图1的数字内容呈现做出的示例修改。图6示出了数字内容项的另一示例呈现。图7示出了与另一人进行对话的图6的用户。图8示出了响应于检测到用户和另一人之间的对话可对图6的数字内容呈现做出的示例修改。图9示出了对话检测处理流水线的示例。图10示出了描绘用于检测对话的方法的示例的流程图。图11示出了示例HMD设备。图12示出示例计算系统。详细描述计算设备可被用来呈现各种形式的数字内容。在一些情况下,计算设备可按照令人沉浸并全神贯注的方式提供内容,诸如通过显示三维(3D)图像和/或全息图像。而且,这样的视觉内容可与音频内容的呈现相组合以提供更令人沉浸的体验。随着计算设备变得更加便携,数字内容呈现可在不同于传统娱乐设定的设定中被消费。因此,在这种计算设备的用户可以在内容呈现期间参与与其他人的对话。取决于呈现的特性,呈现对于对话而言可能令人分心。从而,本文公开了涉及自动检测用户之间的对话,并且在对话发生同时改变数字内容的呈现例如以降低对话期间呈现的可注意程度的实施例。通过检测对话,而不是仅检测人类语音的存在,此类计算设备可确定计算设备的用户至少部分从被显示的内容脱离(disengage)以便参与与另一人的对话的可能意图。而且,对内容的呈现的适当修改可被执行以促成用户从该内容的脱离。可以按任何适当方式检测对话。例如,可通过检测第一用户说出人类语言的一片段(例如,至少几个词语),随后第二用户说出人类语言的一片段,随后第一用户说出人类语言的一片段来检测用户之间的对话。换言之,对话可作为在不同源位置间交替的一系列人类语言片段而被检测到。图1-5示出了物理环境100的示例场景,其中佩戴者102正与头戴式显示器(HMD)设备104形式的计算设备交互。HMD设备104可被配置成向佩戴者呈现一个或多个数字内容项,并且响应于检测到佩戴者和另一人之间的对话而修改该呈现。HMD设备104可使用例如从一个或多个传感器接收的音频和/或视频数据来检测对话,如下面更详细地讨论的。在图1中,从佩戴者102的视角,全息对象106形式的多个数字内容项被描绘成被显示在HMD设备104的透视显示器108上。多个全息对象106可表现为围绕佩戴者102的虚拟对象,就像浮动在物理环境100中一样。在另一示例中,全息对象还可表现得就像悬挂在墙壁上或按其它方式与物理环境中的其它表面相关联。在所描绘的实施例中,全息对象被显示为可被用来显示各种内容的“板(slate)”。此类板可包括任何适当的视频、图像或其它视觉内容。在一个示例中,第一板可呈现电子邮件门户,第二板可呈现社交网络门户,而第三板可呈现新闻订阅源。在另一示例中,不同板可呈现不同的电视频道,诸如不同的体育赛事。在又一示例中,一个板可呈现视频游戏而其它板可呈现该视频游戏的陪伴应用,诸如聊天室、社交联网应用、游戏统计和成就跟踪应用、或另一适当应用。在一些情况下,单个数字内容项可经由透视显示器被显示。要理解,图1的板是出于示例目的被描绘的,且全息内容可按任何其它适当方式被显示。HMD设备104还可被配置成单独地或与视频内容相组合地向佩戴者102输出音频内容。例如,HMD设备104可包括用于播放音频内容的内置扬声器或耳机。要理解,HMD设备可被配置成向佩戴者呈现任何适当类型和数量的数字内容项。可被呈现的数字内容的非限制性示例包括电影、电视节目、视频游戏、应用、歌曲、无线电广播、播客、网站、文本文档、图像、照片等。在图2中,在佩戴者102正接洽经由透视显示器108显示的多个全息对象106时,另一人110进入物理环境100。在看到该另一人110之后,佩戴者102发起与该另一人的对话112。对话包括佩戴者和该另一人中的每一者向彼此说出人类语言的片段。从而,HMD设备可被配置成通过检测佩戴者在该另一人说话之前和之后均说话来检测对话。类似地,HMD设备可被配置成通过检测该另一人在该HMD设备的佩戴者说话之前和之后均说话来检测对话。图3-5示出HMD设备可如何响应于检测到佩戴者和该另一人之间的对话来修改被显示的全息对象的呈现的非限制性示例。首先参考图3,响应于检测到对话,HMD设备104可被配置成隐藏该多个对象而不能在透视显示器108上查看。在一些实现中,透视显示器可被完全清空任何虚拟对象或覆盖层。同样,在一些实现中,对象可被隐藏而虚拟边界、覆盖层或仪表盘可保留显示在透视显示器上。在其中对象呈现视频和/或音频内容的情形中,此类内容可响应于板被隐藏而不能查看而被暂停。以此方式,当对话结束时,佩戴者可在内容被暂停的点处恢复对内容的消费。在图4中示出的另一示例中,响应于检测到对话,HMD设备104可被配置成移动该多个对象中的一个或多个对象到透视显示器上的不同位置,该不同位置可在佩戴者的中心视野之外,并且从而较不可能阻挡佩戴者对该另一个人的查看。而且,在一些实现中,HMD设备可被配置成确定该另一人相对于佩戴者的位置,并将该多个对象移动至该透视显示器上不阻挡该另一人的方向的位置。例如,该另一人的方向可使用音频数据(例如,来自话筒阵列的有向音频数据)、视频数据(颜色、红外、深度等)、其组合、或任何其它适当数据来确定。在图5中所示的另一示例中,响应于检测到对话,HMD设备104可被配置成改变被显示的对象的大小,并且将该多个对象移动至透视显示器上的一不同位置。作为一个非限制性示例,该多个对象中的每个对象的大小可被减小且该多个对象可被移动至该透视显示器的角落。该多个对象可被修改以表现为角落中的标签,该标签可担当该佩戴者在参与该对话之前正消费的内容的提醒,或可具有任何其它适当的外观。作为又一进一步示例,修改该多个对象的呈现可包括增加被显示对象的半透明度以允许佩戴者透过该透视显示器看到该另一人。在上述情形中,经由透视显示器呈现的虚拟对象是相对于HMD设备的佩戴者主体锁定(body-locked)的。换言之,虚拟对象的位置相对于HMD设备的佩戴者的位置表现为固定或锁定的。因此,即使佩戴者在物理环境内移动,从佩戴者的视角看,主体锁定的虚拟对象可表现为保留在透视显示器上的相同位置。在一些实现中,经由透视显示器呈现的虚拟对象对佩戴者而言可表现为世界锁定(world-locked)的。换言之,虚拟对象的位置相对于物理环境中的现实位置表现为固定的。例如,全息板可表现得就像挂在物理环境中的墙壁上一样。在一些情况下,世界锁定的虚拟对象的位置可干扰对话。相应地,在一些实现中,响本文档来自技高网...
对话检测

【技术保护点】
一种用于在计算设备上检测用户之间的对话的方法,所述方法包括:接收来自一个或多个传感器的音频数据流;基于所述音频数据流检测第一用户和第二用户之间的对话;以及响应于检测到所述对话,修改数字内容项的呈现。

【技术特征摘要】
【国外来华专利技术】2014.04.17 US 14/255,8041.一种用于在计算设备上检测用户之间的对话的方法,所述方法包括:接收来自一个或多个传感器的音频数据流;基于所述音频数据流检测第一用户和第二用户之间的对话;以及响应于检测到所述对话,修改数字内容项的呈现。2.如权利要求1所述的方法,其特征在于,检测第一用户和第二用户之间的对话包括:检测所述音频数据流中的语音活动,确定所述语音活动包括人类语言的片段,以及确定人类语言的片段在不同源位置之间交替。3.如权利要求2所述的方法,其特征在于,所述一个或多个传感器包括话筒阵列,所述话筒阵列包括多个话筒,并且其中确定人类语言的片段的源位置包括向所述话筒阵列的多个音频样本应用波束成形空间滤波器以估计所述不同源位置。4.如权利要求2所述的方法,其特征在于,检测第一用户和第二用户之间的对话进一步包括确定人类语言的片段在指定韵律范围内出现。5.如权利要求2所述的方法,其特征在于,检测第一用户和第二用户之间的对话进一步包括确定人类语言的片段在阈值时间段内在不同源位置之间交替。6.如权利要求2所述的方法,其特征在于,进一步包括:确定人类语言的一个或多个片段是由电子音频设备提供的,以及在确定人类语言的片段在不同源位置之间交替时,忽略由所述电子音频设备提供的人类语言的一个或多个片段。7.如权利要求1所述的方法,其特征在于,所述数字内容项包括...

【专利技术属性】
技术研发人员:A·C·汤姆林J·保罗维奇E·M·圭布勒J·斯科特C·布朗J·W·普鲁姆
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1