一种服务器、显示设备和虚拟数字人交互方法技术

技术编号：37709417 阅读：17 留言：0更新日期：2023-06-02 00:00

本公开涉及一种服务器、显示设备和虚拟数字人交互方法，涉及虚拟数字人技术领域。其中，服务器包括：控制器，被配置为：接收显示设备发送的问询语音和用户图像；确定问询语音对应的交互语音，并根据交互语音和用户图像生成第一动态视频，第一动态视频中包括交互语音和基于用户图像生成的虚拟数字人，虚拟数字人的面部表情状态与交互语音匹配；将第一动态视频发送至显示设备。本公开实施例降低了虚拟数字人的制作成本和制作难度。制作成本和制作难度。制作成本和制作难度。

全部详细技术资料下载

【技术实现步骤摘要】
一种服务器、显示设备和虚拟数字人交互方法

[0001]本公开涉及虚拟数字人
，尤其涉及一种服务器、显示设备和虚拟数字人交互方法。

技术介绍

[0002]虚拟数字人是指具有数字化外形的虚拟人物，广泛应用于显示设备的人机交互过程中。虚拟数字人系统一般情况下由人物形象、语音生成、动画生成、音视频合成显示、交互等模块构成。传统的制作虚拟数字人需要事先采集大量的视频数据，并通过各种软件及花费大量的人工方式来制作、驱动人物模型，制作周期长、成本过高，并且需在具体场景中进行调试之后才能被使用，且很难支持二次编辑和开发，因此亟需一种简单、低功耗且动态逼真的虚拟数字人交互方案。

技术实现思路

[0003]为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种服务器、显示设备和虚拟数字人交互方法，降低了虚拟数字人的制作成本和制作难度。
[0004]为了实现上述目的，本公开实施例提供的技术方案如下：
[0005]第一方面，提供一种服务器，该服务器包括：
[0006]控制器，被配置为：接收显示设备发送的问询语音和用户图像；
[0007]确定问询语音对应的交互语音，并根据交互语音和用户图像生成第一动态视频，第一动态视频中包括交互语音和基于用户图像生成的虚拟数字人，虚拟数字人的面部表情状态与交互语音匹配；
[0008]将第一动态视频发送至显示设备。
[0009]第二方面，提供一种显示设备，该显示设备包括：
[0010]声音采集器，被配置为：接收用户输入的...

【技术保护点】

【技术特征摘要】
1.一种服务器，其特征在于，包括：控制器，被配置为：接收显示设备发送的问询语音和用户图像；确定所述问询语音对应的交互语音，并根据所述交互语音和所述用户图像生成第一动态视频，所述第一动态视频中包括所述交互语音和基于所述用户图像生成的虚拟数字人，所述虚拟数字人的面部表情状态与所述交互语音匹配；将所述第一动态视频发送至所述显示设备。2.根据权利要求1所述的服务器，其特征在于，所述控制器，根据所述交互语音和所述用户图像生成第一动态视频，被配置为：根据所述交互语音和所述用户图像，生成所述用户图像中人脸的关键点序列；将所述关键点序列和所述用户图像输入预先训练的神经网络，得到所述神经网络输出的预测图像序列；将所述交互语音和所述预测图像序列进行对齐，合成得到所述第一动态视频。3.根据权利要求1所述的服务器，其特征在于，所述控制器，接收显示设备发送的问询语音和用户图像之后，所述确定所述问询语音对应的交互语音，并根据所述交互语音和所述用户图像生成第一动态视频之前，还被配置为：根据所述用户图像和预设关键点序列生成第二动态视频，所述第二动态视频包括基于所述用户图像生成的虚拟数字人；将所述第二动态视频发送至所述显示设备。4.根据权利要求3所述的服务器，其特征在于，所述控制器，根据所述用户图像和预设关键点序列生成第二动态视频之后，还被配置为：根据历史统计数据，确定生成所述第一动态视频所需的时长；根据所述时长，确定所述第二动态视频的播放次数，以及确定所述第二动态视频中所述时长对应的目标帧；所述控制器，根据所述交互语音和所述用户图像生成第一动态视频，被配置为：将所述目标帧作为第一动态视频的起始帧，根据所述交互语音和所述用户图像生成第一动态视频的其他帧。5.根据权利要求1所述的服务器，其特征在于，所述控制器，根据所述交互语音和所述用户图像生成第一动态视频，被配置为：对所述用户图像进行识别，确定所述用户图像中是否包含人脸特征信息；在所述用户图像中包含所述人脸特征信息的情况下...

【专利技术属性】
技术研发人员：付爱国，李绪送，于子亿，杨善松，王旭升，
申请(专利权)人：海信视像科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人