人机交互对话方法、装置以及设备制造方法及图纸

技术编号：37132398 阅读：11 留言：0更新日期：2023-04-06 21:30

本公开提供了一种人机交互对话方法、装置以及设备，涉及人工智能技术领域，具体涉及自然语言处理、图像处理和深度学习等技术领域，可应用于智能客服系统。该方法的一具体实施方式包括：获取用户输入的多模态信息和用户的对话上下文信息；利用多模态理解模型对多模态信息进行理解，得到多模态理解结果；基于对话上下文信息和多模态理解结果，生成回复信息；输出回复信息。该实施方式可进行跨模态对话，丰富了智能客服系统或对话系统人机交互的多样性。性。性。

全部详细技术资料下载

【技术实现步骤摘要】
人机交互对话方法、装置以及设备

[0001]本公开涉及人工智能
，具体涉及自然语言处理、图像处理和深度学习等
，可应用于智能客服系统。

技术介绍

[0002]随着机器学习技术的不断发展，智能客服对话系统已开始应用。在客服咨询对话中，坐席通过智能对话自动获取回复语句，以提高工作效率。
[0003]目前，智能客服对话系统以文本内容理解为主要功能，音频经过ASR(Automatic Speech Recognition，自动语音识别技术)转换为文本后进入到对话引擎中进行交互。任务式对话中通过会话流程画布对流程片段进行编排管理，具备理解文本实体、意图的功能，可产生基于编排规则、表格问答的回复内容。

技术实现思路

[0004]本公开实施例提出了一种人机交互对话方法、装置、设备、存储介质以及程序产品。
[0005]第一方面，本公开实施例提出了一种人机交互对话方法，包括：获取用户输入的多模态信息和用户的对话上下文信息；利用多模态理解模型对多模态信息进行理解，得到多模态理解结果；基于对话上下文信息和多模态理解结果，生成回复信息；输出回复信息。
[0006]第二方面，本公开实施例提出了一种多模态理解模型训练方法，包括：获取第一样本和第二样本，其中，第一样本包括第一多模态信息和第一多模态理解结果，第二样本包括第二多模态信息；将第一多模态信息作为初始模型的输入，将第一多模态理解结果作为初始模型的输出，对初始模型进行训练，得到第一模型；利用第一模型对第二样本进行标签标注，得到第三样本；利用...

【技术保护点】

【技术特征摘要】
1.一种人机交互对话方法，包括：获取用户输入的多模态信息和所述用户的对话上下文信息；利用多模态理解模型对所述多模态信息进行理解，得到多模态理解结果；基于所述对话上下文信息和所述多模态理解结果，生成回复信息；输出所述回复信息。2.根据权利要求1所述的方法，其中，所述获取用户输入的多模态信息，包括：获取所述用户输入的第一模态信息；若基于所述第一模态信息进行理解得到的结果没有包含目标意图信息，获取所述用户输入的第二模态信息。3.根据权利要求2所述的方法，其中，所述获取用户输入的多模态信息，还包括：若基于所述第一模态信息和所述第二模态信息进行理解得到的结果没有包含目标意图信息，继续获取所述用户输入的其他模态信息，直至满足预设的输入结束条件。4.根据权利要求2所述的方法，其中，所述获取所述用户输入的第一模态信息，包括：接收所述用户输入的文本信息；以及所述若基于所述第一模态信息进行理解得到的结果没有包含目标意图信息，获取所述用户输入的第二模态信息，包括：对所述文本信息进行意图理解，得到文本理解结果；若所述文本理解结果没有包含目标意图信息，向所述用户发送引导信息，其中，所述引导信息用于引导用户输入富媒体信息；获取所述用户基于所述引导信息输入的富媒体信息。5.根据权利要求4所述的方法，其中，所述获取所述用户基于所述引导信息输入的富媒体信息，包括：接收所述富媒体信息对应的统一资源定位符；基于所述统一资源定位符从文件服务器下载所述富媒体信息。6.根据权利要求5所述的方法，其中，所述利用多模态理解模型对所述多模态信息进行理解，得到多模态理解结果，包括：将所述富媒体信息输入至与所述富媒体信息的模态对应的理解模型，得到富媒体理解结果。7.根据权利要求6所述的方法，其中，所述将所述富媒体信息输入至与所述富媒体信息的模态对应的理解模型，得到富媒体理解结果，包括：若所述富媒体信息是图片模态，将所述富媒体信息输入至图片理解模型，得到图片理解结果。8.根据权利要求6所述的方法，其中，所述将所述富媒体信息输入至与所述富媒体信息的模态对应的理解模型，得到富媒体理解结果，包括：若所述富媒体信息是视频模态，从所述富媒体信息中抽取关键图片；将所述关键图片输入至图片理解模型，得到视频理解结果。9.一种多模态理解模型训练方法，包括：获取第一样本和第二样本，其中，所述第一样本包括第一多模态信息和第一多模态理解结果，所述第二样本包括第二多模态信息；
将所述第一多模态信息作为初始模型的输入，将所述第一多模态理解结果作为所述初始模型的输出，对所述初始模型进行训练，得到第一模型；利用所述第一模型对所述第二样本进行标签标注，得到第三样本；利用所述第一样本和所述第三样本对所述初始模型进行训练，得到多模态理解模型。10.根据权利要求9所述的方法，其中，所述利用所述第一模型对所述第二样本进行标签标注，得到第三样本，包括：将所述第二多模态信息输入至所述第一模型，得到第二多模态理解结果；基于所述第二多模态理解结果对所述第二多模态信息进行标注，得到候选样本；从所述候选样本中筛选出所述第三样本。11.根据权利要求10所述的方法，其中，所述从所述候选样本中筛选出所述第三样本，包括：将所述候选样本划分成多个候选样本集合；利用所述多个候选样本集合分别对所述第一模型进行训练，以及利用所述第一样本分别测试各个候选样本集合所对应的训练后的第一模型的性能提升度；选取性能提升度高于预设阈值的候选样本集合中的候选样本，作为所述第三样本。12.一种人机交互对话装置，包括：信息获取模块，被配置成获取用户输入的多模态信息和所述用户的对话上下文信息；信息理解模块，被配置成利用多模态理解模型对所述多模态信息进行理解，得到多模态理解结果；信息生成模块，被配置成基于所述对话上下文信息和所述多模态理解结果，生成回复信息；信息输出模块，被配置成输出所述回复信息。13.根据权利要求12所述的装置，其中，所述信息获取模块包括：第一获取子模块，被配置成获取所述用户输入的第一模态信息；第二...

【专利技术属性】
技术研发人员：卜崇宇，孙权，张伟伟，张伟冬，吴思佳，张贵洲，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人