人机交互方法、装置、系统、电子设备以及计算机介质制造方法及图纸

技术编号:31501276 阅读:19 留言:0更新日期:2021-12-22 23:18
本公开公开了一种人机交互方法和装置,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习等技术领域。该方法的一具体实施方式包括:接收用户的至少一种模态的信息;基于至少一种模态的信息,识别用户的意图信息以及与意图信息对应的用户情绪特征;基于意图信息,确定对用户的答复信息;基于用户情绪特征,选定向用户反馈的人物情绪特征;基于人物情绪特征与答复信息,生成与人物情绪特征对应的动画人物形象的播报视频。该实施方式提高了用户交互体验。体验。体验。

【技术实现步骤摘要】
人机交互方法、装置、系统、电子设备以及计算机介质


[0001]本公开涉及人工智能
,具体涉及计算机视觉、深度学习等
,尤其涉及人机交互方法、装置、电子设备、计算机可读介质以及计算机程序产品。

技术介绍

[0002]传统的虚拟数字人客服系统仅仅能完成简单的人机交互,可以理解成为是一个没有感情的机器人,只是做到简单的语音识别与语义理解,在较为复杂的柜台客服系统中,仅通过简单的语音识别和语义理解无法针对各种不同情绪的用户做出情绪反应,用户交互体验较差。

技术实现思路

[0003]本公开的实施例提出了人机交互方法、装置、电子设备、计算机可读介质以及计算机程序产品。
[0004]第一方面,本公开的实施例提供了一种人机交互方法,该方法包括:接收用户的至少一种模态的信息;基于至少一种模态的信息,识别用户的意图信息以及与意图信息对应的用户情绪特征;基于意图信息,确定对用户的答复信息;基于用户情绪特征,选定向用户反馈的人物情绪特征;基于人物情绪特征与答复信息,生成与人物情绪特征对应的动画人物形象的播报视频。
[0005]在一些实施例中,上述至少一种模态的信息包括:用户的图像数据以及音频数据;上述基于至少一种模态的信息,识别用户的意图信息以及与意图信息对应的用户情绪特征,包括:基于用户的图像数据,识别用户的表情特征;由音频数据,得到文本信息;基于文本信息,提取用户的意图信息;基于音频数据以及表情特征,得到与意图信息对应的用户情绪特征。
[0006]在一些实施例中,上述基于至少一种模态的信息,识别用户的意图信息以及与意图信息对应的用户情绪特征,还包括:用户情绪特征还由文本信息得到。
[0007]在一些实施例中,上述基于音频数据以及表情特征,得到与意图信息对应的用户情绪特征,包括:将音频数据输入已训练完成的语音情绪识别模型,得到语音情绪识别模型输出的语音情绪特征;将表情特征输入已训练完成的表情情绪识别模型,得到表情情绪识别模型输出的表情情绪特征;对语音情绪特征、表情情绪特征加权求和,得到与意图信息对应的用户情绪特征。
[0008]在一些实施例中,上述至少一种模态的信息包括:用户的图像数据以及文本数据;上述基于至少一种模态的信息,识别用户的意图信息以及与意图信息对应的用户情绪特征,包括:基于用户的图像数据,识别用户的表情特征;基于文本数据,提取用户的意图信息;基于文本数据以及表情特征,得到与意图信息对应的用户情绪特征。
[0009]在一些实施例中,上述基于人物情绪特征与答复信息,生成与人物情绪特征对应的动画人物形象的播报视频,包括:基于答复信息、人物情绪特征,生成答复音频;基于答复
音频、人物情绪特征以及预先建立的动画人物形象模型,得到与人物情绪特征对应的动画人物形象的播报视频。
[0010]在一些实施例中,上述基于答复音频、人物情绪特征以及预先建立的动画人物形象模型,得到与人物情绪特征对应的动画人物形象的播报视频,包括:将答复音频、人物情绪特征输入已训练完成的口型驱动模型,得到口型驱动模型输出的口型数据;将答复音频、人物情绪特征输入已训练完成的表情驱动模型,得到表情驱动模型输出的表情数据;基于口型数据、表情数据对动画人物形象模型进行驱动,得到三维模型动作序列,对三维模型动作序列进行渲染,得到视频帧图片序列;合成视频帧图片序列,得到与人物情绪特征对应的动画人物形象的播报视频。口型驱动模型、表情驱动模型基于预标注的同一人的音频以及由该音频得到的音频情绪信息训练得到。
[0011]第二方面,本公开的实施例提供了一种人机交互装置,该装置包括:接收单元,被配置成接收用户的至少一种模态的信息;识别单元,被配置成基于至少一种模态的信息,识别用户的意图信息以及与意图信息对应的用户情绪特征;确定单元,被配置成基于意图信息,确定对用户的答复信息;选定单元,被配置成基于用户情绪特征,选定向用户反馈的人物情绪特征;播报单元,被配置成基于人物情绪特征与答复信息,生成与人物情绪特征对应的动画人物形象的播报视频。
[0012]在一些实施例中,上述至少一种模态的信息包括:用户的图像数据以及音频数据;上述识别单元包括:识别子单元,被配置成基于用户的图像数据,识别用户的表情特征;文本得到子单元,被配置成由音频数据,得到文本信息;提取子单元,被配置成基于文本信息,提取用户的意图信息;特征得到子单元,被配置成基于音频数据以及表情特征,得到与意图信息对应的用户情绪特征。
[0013]在一些实施例中,上述识别单元中的用户情绪特征进一步地还由文本信息得到。
[0014]在一些实施例中,上述特征得到子单元包括:语音得到模块,被配置成将音频数据输入已训练完成的语音情绪识别模型,得到语音情绪识别模型输出的语音情绪特征;表情得到模块,被配置成将表情特征输入已训练完成的表情情绪识别模型,得到表情情绪识别模型输出的表情情绪特征;求和模块,被配置成对语音情绪特征、表情情绪特征加权求和,得到与意图信息对应的用户情绪特征。
[0015]在一些实施例中,上述至少一种模态的信息包括:用户的图像数据以及文本数据;上述识别单元包括:识别模块,被配置成基于用户的图像数据,识别用户的表情特征;提取模块,被配置成基于文本数据,提取用户的意图信息;特征得到模块,被配置成基于文本数据以及表情特征,得到与意图信息对应的用户情绪特征。
[0016]在一些实施例中,上述播报单元包括:生成子单元,被配置成播报单元;视频得到子单元,被配置成基于答复音频、人物情绪特征以及预先建立的动画人物形象模型,得到与人物情绪特征对应的动画人物形象的播报视频。
[0017]在一些实施例中,上述视频得到子单元包括:口型驱动模块,被配置成将答复音频、人物情绪特征输入已训练完成的口型驱动模型,得到口型驱动模型输出的口型数据;表情驱动模块,被配置成将答复音频、人物情绪特征输入已训练完成的表情驱动模型,得到表情驱动模型输出的表情数据;模型驱动模块,被配置成基于口型数据、表情数据对动画人物形象模型进行驱动,得到三维模型动作序列;图片得到模块,被配置成对三维模型动作序列
进行渲染,得到视频帧图片序列;视频得到模块,被配置成合成视频帧图片序列,得到与人物情绪特征对应的动画人物形象的播报视频。口型驱动模型、表情驱动模型基于预标注的同一人的音频以及由该音频得到的音频情绪信息训练得到。
[0018]第三方面,本公开的实施例提供了一种人机交互系统,该系统包括:采集设备、显示设备以及分别与采集设备、显示设备连接的交互平台;采集设备用于采集用户的至少一种模态的信息;交互平台用于接收用户的至少一种模态的信息;基于至少一种模态的信息,识别用户的意图信息以及与意图信息对应的用户情绪特征;基于意图信息,确定对用户的答复信息;基于用户情绪特征,选定向用户反馈的人物情绪特征;基于人物情绪特征与答复信息,生成与人物情绪特征对应的动画人物形象的播报视频;显示设备用于接收并播放播报视频。
[0019]第四方面,本公开的实施例提供了一种电子设备,该电子设备本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种人机交互方法,所述方法包括:接收用户的至少一种模态的信息;基于所述至少一种模态的信息,识别所述用户的意图信息以及与所述意图信息对应的用户情绪特征;基于所述意图信息,确定对所述用户的答复信息;基于所述用户情绪特征,选定向所述用户反馈的人物情绪特征;基于所述人物情绪特征与所述答复信息,生成与所述人物情绪特征对应的动画人物形象的播报视频。2.根据权利要求1所述的方法,其中,所述至少一种模态的信息包括:所述用户的图像数据以及音频数据;所述基于所述至少一种模态的信息,识别所述用户的意图信息以及与所述意图信息对应的用户情绪特征,包括:基于所述用户的图像数据,识别所述用户的表情特征;由所述音频数据,得到文本信息;基于所述文本信息,提取所述用户的意图信息;基于所述音频数据以及所述表情特征,得到与所述意图信息对应的用户情绪特征。3.根据权利要求2所述的方法,其中,所述基于所述至少一种模态的信息,识别所述用户的意图信息以及与所述意图信息对应的用户情绪特征,还包括:所述用户情绪特征还由所述文本信息得到。4.根据权利要求2所述的方法,其中,所述基于所述音频数据以及所述表情特征,得到与所述意图信息对应的用户情绪特征,包括:将所述音频数据输入已训练完成的语音情绪识别模型,得到所述语音情绪识别模型输出的语音情绪特征;将所述表情特征输入已训练完成的表情情绪识别模型,得到所述表情情绪识别模型输出的表情情绪特征;对所述语音情绪特征、所述表情情绪特征加权求和,得到与所述意图信息对应的用户情绪特征。5.根据权利要求1所述的方法,其中,所述至少一种模态的信息包括:所述用户的图像数据以及文本数据;所述基于所述至少一种模态的信息,识别所述用户的意图信息以及与所述意图信息对应的用户情绪特征,包括:基于所述用户的图像数据,识别所述用户的表情特征;基于所述文本数据,提取所述用户的意图信息;基于所述文本数据以及所述表情特征,得到与所述意图信息对应的用户情绪特征。6.根据权利要求1

5之一所述的方法,其中,所述基于所述人物情绪特征与所述答复信息,生成与所述人物情绪特征对应的动画人物形象的播报视频,包括:基于所述答复信息、所述人物情绪特征,生成答复音频;基于所述答复音频、所述人物情绪特征以及预先建立的动画人物形象模型,得到与所述人物情绪特征对应的动画人物形象的播报视频。
7.根据权利要求6所述的方法,其中,所述基于所述答复音频、所述人物情绪特征...

【专利技术属性】
技术研发人员:袁鑫吴俊仪蔡玉玉张政臣刘丹何晓冬
申请(专利权)人:北京京东世纪贸易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1