用于人机交互的方法、装置、设备和介质制造方法及图纸

技术编号:27195200 阅读:20 留言:0更新日期:2021-01-31 11:47
本公开公开了用于人机交互的方法、装置、设备和介质,涉及人工智能领域,尤其涉及深度学习、语音技术和计算机视觉领域。具体实现方案为:基于接收的语音信号,生成针对语音信号的答复的答复文本;基于语音信号单元与文本单元之间的映射关系,生成与答复文本相对应的答复语音信号,答复文本包括一组文本单元;基于答复文本确定表情和/或动作的标识,其中由虚拟对象呈现表情和/或动作;以及基于答复语音信号、表情和/或动作的标识,生成包括虚拟对象的输出视频,输出视频包括基于答复语音信号确定的、要由虚拟对象呈现的唇形序列。通过该方法,可以显著的增加交互内容的范围,改进人机交互的质量和水平,提高用户体验。提高用户体验。提高用户体验。

【技术实现步骤摘要】
用于人机交互的方法、装置、设备和介质


[0001]本公开涉及人工智能领域,尤其涉及深度学习、语音技术和计算机视觉领域的用于人机交互的方法、装置、设备和介质。

技术介绍

[0002]随着计算机技术的快速发展,人与机器的交互越来越多。为了提高用户的体验,人机交互技术得到了快速的发展。用户发出语音命令后,计算设备通过语音识别技术来识别用户的语音。在识别完成后,执行与用户的语音命令相对应的操作。这种语音交互方式改进了人机交互的体验。然而,在人机交互过程中还存在着许多需要解决的问题。

技术实现思路

[0003]本公开提供了一种用于人机交互的方法、装置、设备和介质。
[0004]根据本公开的第一方面,提供了一种用于人机交互的方法。该方法包括基于接收的语音信号,生成针对语音信号的答复的答复文本。该方法还包括基于语音信号单元与文本单元之间的映射关系,生成与答复文本相对应的答复语音信号,答复文本包括一组文本单元,生成的答复语音信号包括与一组文本单元对应的一组语音信号单元。该方法还包括基于答复文本确定表情和/或动作的标识,其中由虚拟对象呈现表情和/或动作。该方法还包括基于答复语音信号、表情和/或动作的标识,生成包括虚拟对象的输出视频,输出视频包括基于答复语音信号确定的、要由虚拟对象呈现的唇形序列。
[0005]根据本公开的第二方面,提供了一种用于人机交互的装置。该装置包括答复文本生成模块,被配置为基于接收的语音信号,生成针对语音信号的答复的答复文本;第一答复语音信号生成模块,被配置为基于语音信号单元与文本单元之间的映射关系,生成与答复文本相对应的答复语音信号,答复文本包括一组文本单元,生成的答复语音信号包括与一组文本单元对应的一组语音单元;标识确定模块,被配置为基于答复文本确定表情和/或动作的标识,其中由虚拟对象呈现表情和/或动作;以及第一输出视频生成模块,被配置为基于答复语音信号、表情和/或动作的标识,生成包括虚拟对象的输出视频,输出视频包括基于答复语音信号确定的、要由虚拟对象呈现的唇形序列。
[0006]根据本公开的第三方面,提供了一种电子设备。该电子设备包括至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行根据本公开的第一方面的方法。
[0007]根据本公开的第四方面,提供一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行根据本公开的第一方面的方法。
[0008]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0009]附图用于更好地理解本方案,不构成对本公开的限定。
[0010]图1示出了本公开的多个实施例能够在其中实现的环境100的示意图。
[0011]图2示出了根据本公开的一些实施例的用于人机交互的过程200的流程图。
[0012]图3示出了根据本公开的一些实施例的用于人机交互的方法300的流程图。
[0013]图4示出了根据本公开的一些实施例的用于训练对话模型的方法400的流程图。
[0014]图5A和图5B分别示出了根据本公开的一些实施例的对话模型网络结构及掩码表的示例。
[0015]图6示出了根据本公开的一些实施例的用于生成答复语音信号的方法600的流程图。
[0016]图7示出了根据本公开的一些实施例的表情和/或动作的描述的示例700的示意图。
[0017]图8示出了根据本公开的一些实施例的用于获取和使用表情和动作识别模型的方法800的流程图。
[0018]图9示出了根据本公开的一些实施例的用于生成输出视频的方法900的流程图。
[0019]图10示出了根据本公开的一些实施例的用于生成输出视频方法1000的流程图。
[0020]图11示出了根据本公开实施例的用于处理图像的装置1100的示意性框图。
[0021]图12示出了能够实施本公开的多个实施例的设备1200的框图。
具体实施方式
[0022]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0023]在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
[0024]让机器像真人一样和人类进行交互是人工智能重要目标。现在,机器和人类交互形式从界面交互已经进化到了使用语言交互。然而,传统方案中还只是内容有限的交互或者只是能进行语音的输出。例如交互内容主要局限于有限领域命令式的交互,如“查天气”、“播放音乐”、“设定闹钟”等。此外,交互模式也比较单一,仅有语音或文本交互。此外人机交互还缺乏人格属性,机器更像是一个工具而非对话的人。
[0025]为了至少解决上述问题,根据本公开的实施例,提出一种的改进方案。在该方案中,计算设备基于接收的语音信号,生成针对语音信号的答复的答复文本。然后计算设备生成与答复文本相对应的答复语音信号。计算设备基于答复文本确定表情和/或动作的标识,该表情和/或动作由虚拟对象呈现。然后计算设备基于答复语音信号、表情和/或动作的标识,生成包括虚拟对象的输出视频。通过该方法,可以显著的增加交互内容的范围,改进人机交互的质量和水平,提高用户体验。
[0026]图1示出了本公开的多个实施例能够在其中实现的环境100的示意图。该示例环境可用于实现人机交互。该示例环境100包括计算设备108和终端设备104。
[0027]终端104中的虚拟对像110,例如虚拟人,可用于与用户102进行交互。在交互过程中,用户102可以向终端104发出询问或聊天语句。终端104可以用于获取用户102的语音信号,并且用虚拟对象110呈现对用户的输入的语音信号的回答,从而实现人机对话。
[0028]终端104可以为可以被实现为任何类型的计算设备,包括但不限于移动电话(例如,智能手机)、膝上型计算机、便携式数字助理(PDA)、电子书(电子书)阅读器、便携式游戏机、便携式媒体播放器、游戏机、机顶盒(STB)、智能电视(TV)、个人计算机、膝上型计算机、车载计算机(例如,导航单元)、机器人等。
[0029]终端104将获取的语音信号通过网络106传送到计算设备108。计算设备108可以基于从终端104获取的语音信号生成对应的输出视频和输出语音信号以由终端104上的虚拟对象110本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于人机交互的方法,包括:基于接收的语音信号,生成针对所述语音信号的答复的答复文本;基于语音信号单元与文本单元之间的映射关系,生成与所述答复文本相对应的答复语音信号,所述答复文本包括一组文本单元,生成的所述答复语音信号包括与所述一组文本单元对应的一组语音信号单元;基于所述答复文本确定表情和/或动作的标识,其中由虚拟对象呈现所述表情和/或动作;以及基于所述答复语音信号、所述表情和/或动作的标识,生成包括所述虚拟对象的输出视频,所述输出视频包括基于所述答复语音信号确定的、要由所述虚拟对象呈现的唇形序列。2.根据权利要求1所述的方法,其中生成所述答复文本包括:对所述接收的语音信号进行识别,以生成输入文本;以及基于所述输入文本获取所述答复文本。3.根据权利要求2所述的方法,其中基于所述输入文本获取所述答复文本包括:将所述输入文本和所述虚拟对象的人格属性输入对话模型以获取所述答复文本,所述对话模型是使用输入文本和所述虚拟对象的人格属性生成答复文本的机器学习模型。4.根据权利要求3所述的方法,其中所述对话模型是利用所述虚拟对象的人格属性和对话样本训练得到的,所述对话样本包括输入文本样本和答复文本样本。5.根据权利要求1所述的方法,其中生成所述答复语音信号包括:将所述答复文本划分为一组文本单元;基于语音信号单元与文本单元之间的映射关系,获取与所述一组文本单元中的文本单元相对应的语音信号单元;以及基于所述语音信号单元生成所述答复语音信号。6.根据权利要求5所述的方法,其中获取所述语音信号单元包括:从所述一组文本单元中选择所述文本单元;基于语音信号单元与文本单元之间的映射关系,从语音库中查找与所述文本单元相对应的所述语音信号单元。7.根据权利要求6所述的方法,其中所述语音库中存储有语音信号单元和文本单元的所述映射关系,语音库中的语音信号单元是通过对获取的与所述虚拟对象有关的语音录制数据进行划分得到的,语音库中的文本单元是基于划分得到的语音信号单元确定的。8.根据权利要求1所述的方法,其中确定所述表情和/或动作的标识包括:将所述答复文本输入表情和动作识别模型来获得所述表情和/或动作的标识,所述表情和动作识别模型是使用文本确定表情和/或动作的标识的机器学习模型。9.根据权利要求1所述的方法,其中生成所述输出视频包括:将所述答复语音信号划分为一组语音信号单元;获取与所述一组语音信号单元相对应的所述虚拟对象的唇形序列;基于所述表情和/或动作的标识,获取针对所述虚拟对象的对应表情和/或动作的视频片段;以及将所述唇形序列结合到所述视频片段中以生成所述输出视频。10.根据权利要求9所述的方法,其中将所述唇形序列结合到所述视频片段中以生成所
述输出视频包括:确定所述视频片段中在时间轴上的预定时间位置处的视频帧;从所述唇形序列中获取与所述预定时间位置相对应的唇形;将所述唇形结合到所述视频帧以用于生成所述输出视频。11.根据权利要求1所述的方法,还包括:相关联地输出所述答复语音信号和所述输出视频。12.一种用于人机交互的装置,包括:答复文本生成模块,被配置为基于接收的语音信号,生成针对所述语音信号的答复的答复文本;第一答复语音信号生成模块,被配置为基于语音信号单元与文本单元之间的映射关系,生成与所述答复文本相对应的答复语音信号,所述答复文本包括一组文本单元,生成的所述答复语音信号包括与所述一组文本单元对应的一组语音单元;标识确定模块,被配置为基于所述答复文本确定表情和/或动作的标识,其中由虚拟对象呈现所述表情和/或动作;以及第一输出视频生成模块,被配置为基于所...

【专利技术属性】
技术研发人员:吴文权吴华王海峰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1