人机交互对话方法、装置以及设备制造方法及图纸

技术编号:37132398 阅读:11 留言:0更新日期:2023-04-06 21:30
本公开提供了一种人机交互对话方法、装置以及设备,涉及人工智能技术领域,具体涉及自然语言处理、图像处理和深度学习等技术领域,可应用于智能客服系统。该方法的一具体实施方式包括:获取用户输入的多模态信息和用户的对话上下文信息;利用多模态理解模型对多模态信息进行理解,得到多模态理解结果;基于对话上下文信息和多模态理解结果,生成回复信息;输出回复信息。该实施方式可进行跨模态对话,丰富了智能客服系统或对话系统人机交互的多样性。性。性。

【技术实现步骤摘要】
人机交互对话方法、装置以及设备


[0001]本公开涉及人工智能
,具体涉及自然语言处理、图像处理和深度学习等
,可应用于智能客服系统。

技术介绍

[0002]随着机器学习技术的不断发展,智能客服对话系统已开始应用。在客服咨询对话中,坐席通过智能对话自动获取回复语句,以提高工作效率。
[0003]目前,智能客服对话系统以文本内容理解为主要功能,音频经过ASR(Automatic Speech Recognition,自动语音识别技术)转换为文本后进入到对话引擎中进行交互。任务式对话中通过会话流程画布对流程片段进行编排管理,具备理解文本实体、意图的功能,可产生基于编排规则、表格问答的回复内容。

技术实现思路

[0004]本公开实施例提出了一种人机交互对话方法、装置、设备、存储介质以及程序产品。
[0005]第一方面,本公开实施例提出了一种人机交互对话方法,包括:获取用户输入的多模态信息和用户的对话上下文信息;利用多模态理解模型对多模态信息进行理解,得到多模态理解结果;基于对话上下文信息和多模态理解结果,生成回复信息;输出回复信息。
[0006]第二方面,本公开实施例提出了一种多模态理解模型训练方法,包括:获取第一样本和第二样本,其中,第一样本包括第一多模态信息和第一多模态理解结果,第二样本包括第二多模态信息;将第一多模态信息作为初始模型的输入,将第一多模态理解结果作为初始模型的输出,对初始模型进行训练,得到第一模型;利用第一模型对第二样本进行标签标注,得到第三样本;利用第一样本和第三样本对初始模型进行训练,得到多模态理解模型。
[0007]第三方面,本公开实施例提出了一种人机交互对话装置,包括:信息获取模块,被配置成获取用户输入的多模态信息和用户的对话上下文信息;信息理解模块,被配置成利用多模态理解模型对多模态信息进行理解,得到多模态理解结果;信息生成模块,被配置成基于对话上下文信息和多模态理解结果,生成回复信息;信息输出模块,被配置成输出回复信息。
[0008]第四方面,本公开实施例提出了一种多模态理解模型训练装置,包括:样本获取模块,被配置成获取第一样本和第二样本,其中,第一样本包括第一多模态信息和第一多模态理解结果,第二样本包括第二多模态信息;第一训练模块,被配置成将第一多模态信息作为初始模型的输入,将第一多模态理解结果作为初始模型的输出,对初始模型进行训练,得到第一模型;样本标注模块,被配置成利用第一模型对第二样本进行标签标注,得到第三样本;第二训练模块,被配置成利用第一样本和第三样本对初始模型进行训练,得到多模态理解模型。
[0009]第五方面,本公开实施例提出了一种电子设备,包括:至少一个处理器;以及与至
少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面中任一实现方式描述的方法或如第二方面中任一实现方式描述的方法。
[0010]第六方面,本公开实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如第一方面中任一实现方式描述的方法或如第二方面中任一实现方式描述的方法。
[0011]第七方面,本公开实施例提出了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如第一方面中任一实现方式描述的方法或如第二方面中任一实现方式描述的方法。
[0012]本公开实施例提供的人机交互对话方法,可理解多模态信息,进行跨模态对话,丰富了智能客服系统或对话系统人机交互的多样性,解决文本表征信息差的问题。并且,支持用户直接输入多模态信息,无需用户对其人工理解转化成文本,降低人机交互的人力成本。
[0013]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0014]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显。附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0015]图1是根据本公开的多模态理解模型训练方法的一个实施例的流程图;
[0016]图2是根据本公开的多模态理解模型训练方法的又一个实施例的流程图;
[0017]图3是根据本公开的人机交互对话方法的一个实施例的流程图;
[0018]图4是根据本公开的人机交互对话方法的又一个实施例的流程图;
[0019]图5是根据本公开的人机交互对话方法的另一个实施例的流程图;
[0020]图6是可以实现本公开实施例的人机交互对话方法的场景图;
[0021]图7是根据本公开的多模态理解模型训练装置的一个实施例的结构示意图;
[0022]图8是根据本公开的人机交互对话装置的一个实施例的结构示意图;
[0023]图9是用来实现本公开实施例的人机交互对话方法或多模态理解模型训练方法的电子设备的框图。
具体实施方式
[0024]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0025]需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
[0026]图1示出了根据本公开的多模态理解模型训练方法的一个实施例的流程图。该多模态理解模型训练方法包括以下步骤:
[0027]步骤101,获取第一样本和第二样本。
[0028]在本实施例中,多模态理解模型训练方法的执行主体可以获取第一样本和第二样本。
[0029]其中,多模态理解模型训练方法的执行主体可以是提供各种服务的服务器。例如,人机交互服务器,可以提供人机交互服务。具体地,人机交互服务器可以训练多模态理解模型,并在接收到用户终端发送的多模态信息时,通过多模态理解模型理解多模态信息,以与用户终端交互。又例如,模型训练服务器,可以提供模型训练服务。具体地,模型训练服务器可以训练多模态理解模型,并将训练完成的多模态理解模型发送给人机交互服务器。人机交互服务器可以在接收到用户终端发送的多模态信息时,通过多模态理解模型理解多模态信息,以与用户终端交互。此外,在用户终端的计算能力足够强的情况下,模型训练服务器还可以直接将训练完成的多模态理解模型发送给用户终端。用户终端可以在检测到用户输入的多模态信息时,通过多模态理解模型理解多模态信息,并将生成的回复信息呈现给用户。
[0030]其中,第一样本可以包括第一多模态信息和第一多模态理解结果,第二样本可以包括第二多模态信息。其中,信息的模态可以包括但不限于文本、音频、图片以及视本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种人机交互对话方法,包括:获取用户输入的多模态信息和所述用户的对话上下文信息;利用多模态理解模型对所述多模态信息进行理解,得到多模态理解结果;基于所述对话上下文信息和所述多模态理解结果,生成回复信息;输出所述回复信息。2.根据权利要求1所述的方法,其中,所述获取用户输入的多模态信息,包括:获取所述用户输入的第一模态信息;若基于所述第一模态信息进行理解得到的结果没有包含目标意图信息,获取所述用户输入的第二模态信息。3.根据权利要求2所述的方法,其中,所述获取用户输入的多模态信息,还包括:若基于所述第一模态信息和所述第二模态信息进行理解得到的结果没有包含目标意图信息,继续获取所述用户输入的其他模态信息,直至满足预设的输入结束条件。4.根据权利要求2所述的方法,其中,所述获取所述用户输入的第一模态信息,包括:接收所述用户输入的文本信息;以及所述若基于所述第一模态信息进行理解得到的结果没有包含目标意图信息,获取所述用户输入的第二模态信息,包括:对所述文本信息进行意图理解,得到文本理解结果;若所述文本理解结果没有包含目标意图信息,向所述用户发送引导信息,其中,所述引导信息用于引导用户输入富媒体信息;获取所述用户基于所述引导信息输入的富媒体信息。5.根据权利要求4所述的方法,其中,所述获取所述用户基于所述引导信息输入的富媒体信息,包括:接收所述富媒体信息对应的统一资源定位符;基于所述统一资源定位符从文件服务器下载所述富媒体信息。6.根据权利要求5所述的方法,其中,所述利用多模态理解模型对所述多模态信息进行理解,得到多模态理解结果,包括:将所述富媒体信息输入至与所述富媒体信息的模态对应的理解模型,得到富媒体理解结果。7.根据权利要求6所述的方法,其中,所述将所述富媒体信息输入至与所述富媒体信息的模态对应的理解模型,得到富媒体理解结果,包括:若所述富媒体信息是图片模态,将所述富媒体信息输入至图片理解模型,得到图片理解结果。8.根据权利要求6所述的方法,其中,所述将所述富媒体信息输入至与所述富媒体信息的模态对应的理解模型,得到富媒体理解结果,包括:若所述富媒体信息是视频模态,从所述富媒体信息中抽取关键图片;将所述关键图片输入至图片理解模型,得到视频理解结果。9.一种多模态理解模型训练方法,包括:获取第一样本和第二样本,其中,所述第一样本包括第一多模态信息和第一多模态理解结果,所述第二样本包括第二多模态信息;
将所述第一多模态信息作为初始模型的输入,将所述第一多模态理解结果作为所述初始模型的输出,对所述初始模型进行训练,得到第一模型;利用所述第一模型对所述第二样本进行标签标注,得到第三样本;利用所述第一样本和所述第三样本对所述初始模型进行训练,得到多模态理解模型。10.根据权利要求9所述的方法,其中,所述利用所述第一模型对所述第二样本进行标签标注,得到第三样本,包括:将所述第二多模态信息输入至所述第一模型,得到第二多模态理解结果;基于所述第二多模态理解结果对所述第二多模态信息进行标注,得到候选样本;从所述候选样本中筛选出所述第三样本。11.根据权利要求10所述的方法,其中,所述从所述候选样本中筛选出所述第三样本,包括:将所述候选样本划分成多个候选样本集合;利用所述多个候选样本集合分别对所述第一模型进行训练,以及利用所述第一样本分别测试各个候选样本集合所对应的训练后的第一模型的性能提升度;选取性能提升度高于预设阈值的候选样本集合中的候选样本,作为所述第三样本。12.一种人机交互对话装置,包括:信息获取模块,被配置成获取用户输入的多模态信息和所述用户的对话上下文信息;信息理解模块,被配置成利用多模态理解模型对所述多模态信息进行理解,得到多模态理解结果;信息生成模块,被配置成基于所述对话上下文信息和所述多模态理解结果,生成回复信息;信息输出模块,被配置成输出所述回复信息。13.根据权利要求12所述的装置,其中,所述信息获取模块包括:第一获取子模块,被配置成获取所述用户输入的第一模态信息;第二...

【专利技术属性】
技术研发人员:卜崇宇孙权张伟伟张伟冬吴思佳张贵洲
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1