用于人机交互的方法、装置、设备和介质制造方法及图纸

技术编号：27195200 阅读：32 留言：0更新日期：2021-01-31 11:47

本公开公开了用于人机交互的方法、装置、设备和介质，涉及人工智能领域，尤其涉及深度学习、语音技术和计算机视觉领域。具体实现方案为：基于接收的语音信号，生成针对语音信号的答复的答复文本；基于语音信号单元与文本单元之间的映射关系，生成与答复文本相对应的答复语音信号，答复文本包括一组文本单元；基于答复文本确定表情和/或动作的标识，其中由虚拟对象呈现表情和/或动作；以及基于答复语音信号、表情和/或动作的标识，生成包括虚拟对象的输出视频，输出视频包括基于答复语音信号确定的、要由虚拟对象呈现的唇形序列。通过该方法，可以显著的增加交互内容的范围，改进人机交互的质量和水平，提高用户体验。提高用户体验。提高用户体验。

全部详细技术资料下载

【技术实现步骤摘要】
用于人机交互的方法、装置、设备和介质

[0001]本公开涉及人工智能领域，尤其涉及深度学习、语音技术和计算机视觉领域的用于人机交互的方法、装置、设备和介质。

技术介绍

[0002]随着计算机技术的快速发展，人与机器的交互越来越多。为了提高用户的体验，人机交互技术得到了快速的发展。用户发出语音命令后，计算设备通过语音识别技术来识别用户的语音。在识别完成后，执行与用户的语音命令相对应的操作。这种语音交互方式改进了人机交互的体验。然而，在人机交互过程中还存在着许多需要解决的问题。

技术实现思路

[0003]本公开提供了一种用于人机交互的方法、装置、设备和介质。
[0004]根据本公开的第一方面，提供了一种用于人机交互的方法。该方法包括基于接收的语音信号，生成针对语音信号的答复的答复文本。该方法还包括基于语音信号单元与文本单元之间的映射关系，生成与答复文本相对应的答复语音信号，答复文本包括一组文本单元，生成的答复语音信号包括与一组文本单元对应的一组语音信号单元。该方法还包括基于答复文本确定表情和/或动作的标识，其中由虚拟对象呈现表情和/或动作。该方法还包括基于答复语音信号、表情和/或动作的标识，生成包括虚拟对象的输出视频，输出视频包括基于答复语音信号确定的、要由虚拟对象呈现的唇形序列。
[0005]根据本公开的第二方面，提供了一种用于人机交互的装置。该装置包括答复文本生成模块，被配置为基于接收的语音信号，生成针对语音信号的答复的答复文本；第一答复语音信号生成模块，被配置为基于语音信号单元与文本...

【技术保护点】

【技术特征摘要】
1.一种用于人机交互的方法，包括：基于接收的语音信号，生成针对所述语音信号的答复的答复文本；基于语音信号单元与文本单元之间的映射关系，生成与所述答复文本相对应的答复语音信号，所述答复文本包括一组文本单元，生成的所述答复语音信号包括与所述一组文本单元对应的一组语音信号单元；基于所述答复文本确定表情和/或动作的标识，其中由虚拟对象呈现所述表情和/或动作；以及基于所述答复语音信号、所述表情和/或动作的标识，生成包括所述虚拟对象的输出视频，所述输出视频包括基于所述答复语音信号确定的、要由所述虚拟对象呈现的唇形序列。2.根据权利要求1所述的方法，其中生成所述答复文本包括：对所述接收的语音信号进行识别，以生成输入文本；以及基于所述输入文本获取所述答复文本。3.根据权利要求2所述的方法，其中基于所述输入文本获取所述答复文本包括：将所述输入文本和所述虚拟对象的人格属性输入对话模型以获取所述答复文本，所述对话模型是使用输入文本和所述虚拟对象的人格属性生成答复文本的机器学习模型。4.根据权利要求3所述的方法，其中所述对话模型是利用所述虚拟对象的人格属性和对话样本训练得到的，所述对话样本包括输入文本样本和答复文本样本。5.根据权利要求1所述的方法，其中生成所述答复语音信号包括：将所述答复文本划分为一组文本单元；基于语音信号单元与文本单元之间的映射关系，获取与所述一组文本单元中的文本单元相对应的语音信号单元；以及基于所述语音信号单元生成所述答复语音信号。6.根据权利要求5所述的方法，其中获取所述语音信号单元包括：从所述一组文本单元中选择所述文本单元；基于语音信号单元与文本单元之间的映射关系，从语音库中查找与所述文本单元相对应的所述语音信号单元。7.根据权利要求6所述的方法，其中所述语音库中存储有语音信号单元和文本单元的所述映射关系，语音库中的语音信号单元是通过对获取的与所述虚拟对象有关的语音录制数据进行划分得到的，语音库中的文本单元是基于划分得到的语音信号单元确定的。8.根据权利要求1所述的方法，其中确定所述表情和/或动作的标识包括：将所述答复文本输入表情和动作识别模型来获得所述表情和/或动作的标识，所述表情和动作识别模型是使用文本确定表情和/或动作的标识的机器学习模型。9.根据权利要求1所述的方法，其中生成所述输出视频包括：将所述答复语音信号划分为一组语音信号单元；获取与所述一组语音信号单元相对应的所述虚拟对象的唇形序列；基于所述表情和/或动作的标识，获取针对所述虚拟对象的对应表情和/或动作的视频片段；以及将所述唇形序列结合到所述视频片段中以生成所述输出视频。10.根据权利要求9所述的方法，其中将所述唇形序列结合到所述视频片段中以生成所
述输出视频包括：确定所述视频片段中在时间轴上的预定时间位置处的视频帧；从所述唇形序列中获取与所述预定时间位置相对应的唇形；将所述唇形结合到所述视频帧以用于生成所述输出视频。11.根据权利要求1所述的方法，还包括：相关联地输出所述答复语音信号和所述输出视频。12.一种用于人机交互的装置，包括：答复文本生成模块，被配置为基于接收的语音信号，生成针对所述语音信号的答复的答复文本；第一答复语音信号生成模块，被配置为基于语音信号单元与文本单元之间的映射关系，生成与所述答复文本相对应的答复语音信号，所述答复文本包括一组文本单元，生成的所述答复语音信号包括与所述一组文本单元对应的一组语音单元；标识确定模块，被配置为基于所述答复文本确定表情和/或动作的标识，其中由虚拟对象呈现所述表情和/或动作；以及第一输出视频生成模块，被配置为基于所...

【专利技术属性】
技术研发人员：吴文权，吴华，王海峰，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人