经由使用组合神经网络的场景建模进行自适应对话的系统和方法技术方案

技术编号:32963960 阅读:14 留言:0更新日期:2022-04-09 11:02
本教导涉及用于自适应对话的方法、系统、介质和实施方式。接收对话场景的一个或多个图像,这些图像捕获基于对话策略进行的用户与机器之间的对话的周围情况。基于第一人工神经网络从图像中检测场景中存在的一个或多个物体。基于第二人工神经网络从图像中检测该一个或多个物体之间的空间关系。然后基于该一个或多个物体和该空间关系生成场景的场景建模信息,并将其用于自适应对话。并将其用于自适应对话。并将其用于自适应对话。

【技术实现步骤摘要】
【国外来华专利技术】经由使用组合神经网络的场景建模进行自适应对话的系统和方法
[0001]相关申请的交叉引用
[0002]本申请要求于2019年8月12日提交的美国临时专利申请62/885,526的优先权,其内容通过引用整体并入本文。


[0003]本教导一般而言涉及计算机。更具体而言,本教导涉及计算机化的智能代理(intelligent agent)。

技术介绍

[0004]随着人工智能技术的进步以及由于互联网连接性无处不在而导致的基于互联网的通信的爆炸式增长,计算机辅助对话系统变得越来越流行。例如,越来越多的呼叫中心部署自动对话机器人来处理客户呼叫。宾馆安装了可以回答游客或客人的问题的各种信息亭。在线预订(无论是旅游住宿还是剧院门票等)也更频繁地由聊天机器人完成。近年来,其它领域的自动化人机通信也越来越流行。
[0005]此类传统计算机辅助对话系统通常基于特定相关领域中众所周知的交谈模式(conversation pattern)而预先编程有某些问题和答案。遗憾的是,人类交谈者可能无法预测,并且有时不遵循预先计划的对话模式。此外,在某些情况下,人类交谈者可能会在该过程期间跑题,而继续固定的交谈模式可能会引起刺激或失去兴趣。当这种情况发生时,此类传统机器对话系统常常将无法继续吸引人类交谈者,因此,要么必须中止人类机器对话以将任务交给人类操作者,要么人类交谈者干脆离开对话,这是不期望的。
[0006]此外,传统的基于机器的对话系统常常不被设计为解决人类的情感因素,更不用说在与人类交谈时考虑如何解决交谈的情感方面。例如,传统的机器对话系统通常不发起对话,除非有人激活系统或提出一些问题。即使传统的对话系统确实发起了交谈,它也有固定的对话方式,并且不会因人而异,也不会基于观察进行调整。因此,由于它们被编程为忠实地遵循预先设计的对话模式,因此它们通常无法对交谈的计划外动态做出反应并进行调整以便以一种可以继续吸引人的方式保持交谈。例如,当参与对话的人明显感到恼火或沮丧时,传统的机器对话系统完全意识不到,并且会继续以使人恼火的方式进行交谈。这不仅使交谈不愉快(传统的机器对话系统仍然没有意识到这一点),而且使人们在未来远离任何基于机器的对话系统的对话。
[0007]在一些应用中,基于从人类观察到的内容来进行人机对话会话对于确定如何有效地进行是至关重要的。一个示例是与教育相关的对话。当聊天机器人被用于教导孩子阅读时,必须持续地监视和解决孩子是否对他/她的教学方式有感知力,以便使其有效。传统对话系统的另一个限制是它们的上下文无意识性(context unawareness)。例如,传统的对话系统不具备观察交谈的上下文和即兴对话策略以便以与上下文相关的方式吸引用户以改善用户体验的能力。
[0008]因此,需要解决这些限制的方法和系统。

技术实现思路

[0009]本文公开的教导涉及用于数据处理的方法、系统和编程。更具体地,本教导涉及与对场景建模以生成场景建模信息及其利用相关的方法、系统和编程。
[0010]在一个示例中,一种在具有至少一个处理器、存储装置和能够连接到网络以进行自适应对话的通信平台的机器上实现的方法。接收对话场景的一个或多个图像,这些图像捕获用户与机器之间基于对话策略进行的对话的周围情况。基于第一人工神经网络从图像中检测场景中存在的一个或多个物体。基于第二人工神经网络从图像中检测该一个或多个物体之间的空间关系。然后基于该一个或多个物体和该空间关系生成场景的场景建模信息,并将场景建模信息用于自适应对话。
[0011]在不同的示例中,本专利技术公开了一种用于自适应对话的系统,其包括动态对话场景建模单元、物体/特征检测单元、物体空间关系检测器和场景模型生成单元。动态对话场景建模单元被配置为接收捕获对话场景的周围情况的一个或多个图像,在该对话场景中,用户和机器基于对话策略参与对话。物体/特征检测单元被配置为经由第一类型的人工神经网络从该一个或多个图像中检测存在于对话场景中的一个或多个物体。物体空间关系检测器被配置为经由第二类型的人工神经网络基于该一个或多个图像检测一个或多个物体之间的空间关系。场景模型生成单元被配置为基于该一个或多个物体和该空间关系生成表征对话场景的场景建模信息,其中场景建模信息被用于自适应对话。
[0012]其它概念涉及用于实现本教导的软件。根据这个概念的软件产品包括至少一个机器可读非暂态介质和由该介质携带的信息。由介质携带的信息可以是可执行程序代码数据、与可执行程序代码相关联的参数,和/或与用户、请求、内容或其它附加信息相关的信息。
[0013]在一个示例中,其上记录有用于自适应对话的数据的机器可读、非暂态和有形介质,其中该介质在被机器读取时使机器执行一系列步骤。接收对话场景的一个或多个图像,这些图像捕获用户与机器之间基于对话策略进行的对话的周围情况。基于第一人工神经网络从图像中检测场景中存在的一个或多个物体。基于第二人工神经网络从图像中检测该一个或多个物体之间的空间关系。然后基于该一个或多个物体和该空间关系生成场景的场景建模信息,并将场景建模信息用于自适应对话。
[0014]附加的优点和新颖特征将部分地在下面的描述中阐述,并且部分地在本领域技术人员检查以下和附图后将变得清楚,或者可以通过示例的生产或操作来学习。本教导的优点可以通过以下讨论的详细示例中阐述的方法、工具和组合的各个方面的实践或使用来实现和获得。
附图说明
[0015]本文描述的方法、系统和/或程序根据示例性实施例进一步描述。参考附图详细描述这些示例性实施例。这些实施例是非限制性示例性实施例,其中在附图的若干视图中相同的附图标记表示相似的结构,并且其中:
[0016]图1描绘了根据本教导的实施例的用于促进操作用户设备的用户与结合有用户交
互引擎的代理设备之间的对话的网络环境;
[0017]图2A

2B描绘了根据本教导的实施例的在对话期间用户设备、代理设备和用户交互引擎之间的连接;
[0018]图3A图示了根据本教导的实施例的具有代理身体的示例性类型的代理设备的示例性结构;
[0019]图3B图示了根据本教导的实施例的示例性代理设备;
[0020]图4A图示了示例性对话场景;
[0021]图4B图示了根据本教导的实施例的用于实现自适应对话策略的操作的示例性方面;
[0022]图5A描绘了根据本教导的实施例的用于经由组合神经网络来学习对话环境建模的系统的示例性高级系统图;
[0023]图5B是根据本教导的实施例的用于经由组合神经网络来学习对话环境建模的系统的示例性过程的流程图;
[0024]图6A描绘了根据本教导的实施例的动态对话场景建模单元的示例性高级系统图;
[0025]图6B是根据本教导的实施例的动态对话场景建模单元的示例性过程的流程图;
[0026]图7A描绘了根据本教导的实施例的经由对话场景建模而构建的增强现实场景中的对话系统的示例性高级系统图;
[0027]图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种在至少一个机器上实现的方法,所述至少一个机器包括至少一个处理器、存储器和能够连接到网络以进行自适应对话的通信平台,所述方法包括:接收一个或多个图像,所述一个或多个图像捕获对话场景的周围情况,用户和机器在所述对话场景中参与基于对话策略进行的对话;经由第一类型的人工神经网络,从所述一个或多个图像中检测所述对话场景中存在的一个或多个物体;经由第二类型的人工神经网络,基于所述一个或多个图像检测所述一个或多个物体之间的空间关系;以及基于所述一个或多个物体和所述空间关系,生成表征所述对话场景的场景建模信息,其中所述场景建模信息被用于自适应对话。2.如权利要求1所述的方法,其中,所述第一类型的人工神经网络是卷积神经网络CNN,所述卷积神经网络是基于基于CNN的物体/特征检测模型而配置的,所述基于CNN的物体/特征检测模型是基于从训练图像检测到的标记的物体经由有监督的学习而训练的。3.如权利要求1所述的方法,其中,所述第二类型的人工神经网络是图神经网络GNN,所述图神经网络是基于基于GNN的空间关系检测模型而配置的,所述基于GNN的空间关系检测模型是基于从训练图像检测到的物体之间的标记的空间关系经由有监督的学习而训练的。4.如权利要求1所述的方法,还包括通过评估以下各项中的至少一项来确定何时调整所述对话:所述对话是否需要被调整;以及所述对话场景是否要被增强以允许在增强的对话场景中调整所述对话。5.如权利要求4所述的方法,还包括:当要增强所述对话场景时,选择要在所述对话场景中渲染的一个或多个虚拟物体;基于所述场景建模信息,确定用于渲染所述一个或多个虚拟物体的参数;以及根据所述参数,在所述对话场景中投影所述一个或多个虚拟物体,以创建所述增强的对话场景。6.如权利要求4所述的方法,还包括:根据与所述增强的对话场景一致的增强的对话策略,在所述增强的对话场景中调整所述对话。7.如权利要求6所述的方法,其中,在所述增强的对话场景中调整所述对话的步骤包括:基于所述增强的对话场景和所述对话策略,生成所述增强的对话策略;以及基于所述增强的对话策略,在所述增强的对话场景中进行所述对话。8.一种机器可读和非暂态介质,其上记录有用于自适应对话的信息,其中,所述信息在被机器读取时使所述机器执行以下步骤:接收一个或多个图像,所述一个或多个图像捕获对话场景的周围情况,用户和机器在所述对话场景中参与基于对话策略进行的对话;经由第一类型的人工神经网络,从所述一个或多个图像中检测所述对话场景中存在的一个或多个物体;经由第二类型的人工神经网络,基于所述一个或多个图像检测所述一个或多个物体之间的空间关系;以及
基于所述一个或多个物体和所述空间关系,生成表征所述对话场景的场景建模信息,其中所述场景建模信息被用于自适应对话。9.如权利要求8所述的介质,其中,所述第一类型的人工神经网络是卷积神经网络CNN,所述卷积神经网络是基于基于CNN的物体/特征检测模型而配置的,所述基于CNN的物体/特征检测模型是基于从训练图像检测到的标记的物体经由有监督的学习而训练的。10.如权利要求8所述的介质,其中,所述第二类型的人工神经网络是图神经网络GNN,所述图神经网络是基于基于GNN的空间关系检测模型而配置的,所述基于GNN的空间关系检测模型是基于从训练图像检测到的物体之间的标记的空间关系经由有监督的学习而训练的。11.如权利要求8所述的介质,其中...

【专利技术属性】
技术研发人员:S
申请(专利权)人:得麦股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1