当前位置: 首页 > 专利查询>辉达公司专利>正文

通过动态响应打断内容改进会话AI的双工通信制造技术

技术编号:36610219 阅读:23 留言:0更新日期:2023-02-08 09:57
公开了在人类语音期间呈现打断内容的系统和方法。提出的系统在会话AI平台中提供改进的双工通信。在一些实施例中,系统接收语音数据并使用语言模型评估数据。如果语言模型检测到语言不规则的指示,例如错误发音,智能反馈助手可以确定系统应该近乎实时地打断说话者并提供有关其发音的反馈。此外,还可能检测到会话异常,导致智能反馈助手打断并呈现主持指导。在某些情况下,情绪模型也可用于基于说话者的声音检测情绪状态,以提供近乎即时的反馈。用户还可以定制他们被打断的方式和场合。馈。用户还可以定制他们被打断的方式和场合。馈。用户还可以定制他们被打断的方式和场合。

【技术实现步骤摘要】
通过动态响应打断内容改进会话AI的双工通信


[0001]本公开总体上涉及用于呈现由用户使用人工智能引擎提供的听觉输入的反馈的自动化系统和方法,并且具体地涉及被配置为在基于声音的交互期间实时智能地打断用户以便确保及时反馈和/或主持指导的系统和方法。

技术介绍

[0002]近几十年来,计算机辅助语言学习领域发展迅速,特别是对计算机辅助发音训练的兴趣也随着最近基于网络和移动应用程序和资源的激增而增长。其中一些在技术上变得越来越复杂,在某些情况下合并了诸如自动语音识别(ASR)和人工智能(AI)技术,进一步为语言产出和个性化反馈提供了机会。当前的人工智能服务能够产生对话,但与这种对话相关的人工音调一直存在。例如,学生或其他用户与面对面的老师或其他“真实”评论者与使用此类技术的学生或其他用户与面对面的老师或其他“真实”评论者的体验之间仍然存在鸿沟。例如,AI继续提供相对于正常人类对话的发生方式而言感觉是人造的或不自然的对话体验。为了更接近整合技术与发音教与学的目标,虚拟反馈平台必须提供更真实、更自然的对话体验。此外,在许多其他情况下,人工智能呈现的打断内容可以改善两个或更多人之间的对话。
[0003]本领域中需要解决上述缺点的系统和方法。

技术实现思路

[0004]在一个方面,公开了一种在语音期间呈现打断内容的计算机实现的方法。该方法包括在第一时间并且由经由计算设备访问的应用程序接收第一用户讲话的第一音频数据的第一步骤,以及通过应用程序检测在第一音频数据中的第一类型的语音异常的至少第一指示符的第二步骤。第三步骤包括经由应用程序并基于第一指示符确定触发事件已经发生。该方法还包括第四步骤:经由应用程序使得呈现第一打断内容,其中第一打断内容包括关于检测到的语音异常的反馈,并且无论第一用户是否仍在讲话,都在随后的第二时间呈现。
[0005]在另一方面,公开了一种在会话期间呈现打断内容的计算机实现的方法,所述会话包括至少第一参与者和第二参与者。该方法包括在第一时间并且由经由计算设备访问的应用程序接收至少第一参与者讲话的第一音频数据的第一步骤,以及由应用程序检测在第一音频数据中的第一类型的会话异常的第一指示符的第二步骤。该方法还包括由应用程序基于第一指示符确定触发事件已经发生的第三步骤,以及经由应用程序使得呈现第一打断内容的第四步骤。此外,第一打断内容包括与检测到的会话异常相关联的主持指导,并且在第一参与者和第二参与者中的一个或两个正在讲话时在第二时间呈现。
[0006]在另一方面,公开了一种确定语音异常是否已经发生的计算机实现的方法。该方法包括在第一时间并且由经由计算设备访问的应用程序接收第一用户讲话的第一音频数据的第一步骤,以及经由用于应用程序的基于语音的机器学习模型基于第一音频数据对与
第一用户相关联的一个或更多个语音特性进行分类的第二步骤。此外,第三步骤包括在第二时间并且经由应用程序接收第一用户讲话的第二音频数据,以及经由应用程序确定在第二音频数据中语音异常已经反生的第四步骤,该确定至少部分基于第二音频数据与分类的语音特性的比较。此外,该方法包括响应于确定语音异常已经发生,经由应用程序使得由计算设备呈现第一打断内容的第五步骤。在这种情况下,第一打断内容包括关于检测到的语音异常的反馈,并且无论第一用户是否还在讲话,都在随后的第三时间呈现。
[0007]本公开的其他系统、方法、特征和优点对于本领域的普通技术人员在检查以下附图和详细描述时将是或将变得显而易见。旨在将所有这些附加的系统、方法、特征和优点包括在本描述和本概述中,在本公开的范围内,并受所附权利要求的保护。
附图说明
[0008]参考以下附图和描述可以更好地理解本专利技术。图中的组件不一定按比例绘制,而是强调说明本专利技术的原理。此外,在附图中,相同的附图标记在不同视图中表示对应的部分。
[0009]图1A和图1B提供了示出根据一个实施例的第一用户参与智能反馈助手的服务的示例的序列;
[0010]图2A

2C共同描绘了根据一个实施例的用于向用户提供实时反馈的系统的示意图;
[0011]图3是根据一个实施例的可能导致系统打断用户的触发事件的一些示例的示意图;
[0012]图4A

4E提供了根据一个实施例的示出第二用户参与智能反馈助手的服务的示例序列;
[0013]图5A和图5B呈现了根据一个实施例的智能反馈助手打断讨论以在会话期间提供主持的示例;
[0014]图6是示出根据一个实施例的用于确定用户是否应该被打断的过程的一个示例的流程图;
[0015]图7A和图7B呈现了根据一个实施例的智能反馈助手打断其中两个人正在互相交谈的会话以在会话期间提供主持的示例;
[0016]图8A和图8B呈现了根据一个实施例的智能反馈助手向说话者呈现私人打断消息的示例;
[0017]图9A

9C呈现了根据一个实施例的智能反馈助手打断讨论以澄清话题来源的示例;
[0018]图10A和图10B呈现了根据一个实施例的智能反馈助手基于语音内容打断讨论的示例;
[0019]图10C和图10D呈现了根据一个实施例的智能反馈助手基于语音内容呈现私人打断消息的示例;
[0020]图11A

11C呈现了根据一个实施例的智能反馈助手基于姓名错误发音呈现私人打断消息的示例;以及
[0021]图12是根据一个实施例的用于在基于语音的交互期间提供实时反馈的计算机实
现方法的过程的流程图。
具体实施方式
[0022]实施例提供了用于在与智能反馈助手(“助手”)的基于语音的交互期间生成和呈现适当的响应或信息的系统和方法。响应是由人类用户实时打断对话提供的。换句话说,并非是延迟信息的呈现直到用户完成他们的口头表达,助手可以打断正在进行的用户演讲并“在当下”提供反馈。这种及时响应使助手能够更好地模拟人类听众,并显著提高用户将反馈纳入其对话的能力。在一些情况下,助手可以附加地或替代地被配置为在两个或更多个人之间的会话期间在适当的时间进行调解,以便提供主持指导和/或其他及时的反馈,从而丰富人类参与者之间的对话的质量。
[0023]如以下将更详细讨论的,所提出的实施例描述了一种计算机实现的服务,该服务被配置为主动收听用户的语音内容并基于默认设置和/或用户偏好确定何时需要打断。如本文所用,术语“语音内容”或更简单地“语音”是指由人类用户说出或以其他方式产生的可听声音。此外,包括或大于单个辅音的由人类产生的词或词的一部分将被称为话语或“音素片段”。通常,服务接收用户的语音作为音频数据,进而确定音频数据是否包括触发事件的指示。出于本申请的目的,触发事件是指与预定条件匹配并且将导致系统生成并呈现适当消息的听觉事件或听觉事件序列,而不管用户是否仍在说话。如果有触发事件的指示,则系统启动处理操作以确认触发事件并确定已经发生的触发事件的类型。确认后,服务可以识别对事件类型和事件内容的适当响应,并在用户语音期间近本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种在语音期间呈现打断内容的计算机实现的方法,所述方法包括:在第一时间由经由计算设备访问的应用程序接收第一用户讲话的第一音频数据;经由所述应用程序检测所述第一音频数据中的第一类型的语音异常的至少第一指示符;由所述应用程序基于所述第一指示符确定触发事件已经发生;以及经由所述应用程序使得所述计算设备呈现第一打断内容,其中所述第一打断内容:包括关于检测到的语音异常的反馈,以及无论所述第一用户是否还在讲话,都会在随后的第二时间呈现。2.根据权利要求1所述的方法,其中,所述第一类型的语音异常是错误发音、词汇语法不准确、韵律错误、语义错误、语音不流畅和不正确用语中的一个。3.根据权利要求1所述的方法,还包括:经由所述应用程序接收所述第一用户讲话的第二音频数据;由所述应用程序检测所述第二音频数据中的内容异常的第二指示符;以及经由所述应用程序使得呈现第二打断内容,所述第二打断内容包括识别在所述第二音频数据中识别的错误信息的反馈。4.根据权利要求3所述的方法,其中,所述第二打断内容还包括纠正所述错误信息的反馈。5.根据权利要求1所述的方法,其中,所述反馈包括关于纠正检测到的语音异常的指导。6.根据权利要求1所述的方法,其中,所述第一打断内容被呈现为在所述第一用户讲话时打断所述第一用户的音频输出。7.根据权利要求1所述的方法,其中,所述第一打断内容被呈现为在所述第一用户讲话时打断第二用户的视觉输出。8.根据权利要求1所述的方法,其中,所述第二时间在所述第一时间之后不到十秒。9.一种在会话期间呈现打断内容的计算机实现的方法,所述会话包括至少第一参与者和第二参与者,所述方法包括:在第一时间由经由计算设备访问的应用程序接收至少所述第一参与者讲话的第一音频数据;由所述应用程序检测所述第一音频数据中的第一类型的会话异常的第一指示符;由所述应用程序基于所述第一指示符确定触发事件已经发生;以及经由所述应用程序使得呈现第一打断内容,其中所述第一打断内容:包括与检测到的会话异常相关的主持指导,以及在所述第一参与者和所述第二参与者中的一个或两个正在讲话时,在随后的第二时间呈现。10.根据权利要求9所述的方法,其中,所述第一类型的会话异常是其中所述第一参与者打断所述第二参与者的中间讲话、所述第一参与者和所述第二参与者彼此说话、所述第一参与者正在提高他们的声音、以及所述第一参与者正在重复所述第二参与者在所述会话中早些时候所说的话的实例中的一个。11.根据权利要求9所述的方法,其中,所述主持指导包括允许所述第二参与者继续讲
话的建议。12.根据权利要求9所述的方法,其中,所述主持指导包括对所述第二参与者先前提出的现在...

【专利技术属性】
技术研发人员:S
申请(专利权)人:辉达公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1