本公开涉及一种服务器、显示设备和虚拟数字人交互方法,涉及虚拟数字人技术领域。其中,服务器包括:控制器,被配置为:接收显示设备发送的问询语音和用户图像;确定问询语音对应的交互语音,并根据交互语音和用户图像生成第一动态视频,第一动态视频中包括交互语音和基于用户图像生成的虚拟数字人,虚拟数字人的面部表情状态与交互语音匹配;将第一动态视频发送至显示设备。本公开实施例降低了虚拟数字人的制作成本和制作难度。制作成本和制作难度。制作成本和制作难度。
【技术实现步骤摘要】
一种服务器、显示设备和虚拟数字人交互方法
[0001]本公开涉及虚拟数字人
,尤其涉及一种服务器、显示设备和虚拟数字人交互方法。
技术介绍
[0002]虚拟数字人是指具有数字化外形的虚拟人物,广泛应用于显示设备的人机交互过程中。虚拟数字人系统一般情况下由人物形象、语音生成、动画生成、音视频合成显示、交互等模块构成。传统的制作虚拟数字人需要事先采集大量的视频数据,并通过各种软件及花费大量的人工方式来制作、驱动人物模型,制作周期长、成本过高,并且需在具体场景中进行调试之后才能被使用,且很难支持二次编辑和开发,因此亟需一种简单、低功耗且动态逼真的虚拟数字人交互方案。
技术实现思路
[0003]为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种服务器、显示设备和虚拟数字人交互方法,降低了虚拟数字人的制作成本和制作难度。
[0004]为了实现上述目的,本公开实施例提供的技术方案如下:
[0005]第一方面,提供一种服务器,该服务器包括:
[0006]控制器,被配置为:接收显示设备发送的问询语音和用户图像;
[0007]确定问询语音对应的交互语音,并根据交互语音和用户图像生成第一动态视频,第一动态视频中包括交互语音和基于用户图像生成的虚拟数字人,虚拟数字人的面部表情状态与交互语音匹配;
[0008]将第一动态视频发送至显示设备。
[0009]第二方面,提供一种显示设备,该显示设备包括:
[0010]声音采集器,被配置为:接收用户输入的问询语音;
[0011]控制器,被配置为:响应于问询语音,控制图像采集器采集用户图像;
[0012]将问询语音和用户图像发送至服务器,以由服务器生成第一动态视频,第一动态视频中包括交互语音和基于用户图像生成的虚拟数字人,虚拟数字人的面部表情状态与交互语音匹配;
[0013]接收服务器发送的第一动态视频,并控制显示器播放第一动态视频。
[0014]第三方面,本公开提供一种虚拟数字人交互方法,该方法包括:
[0015]接收显示设备发送的问询语音和用户图像;
[0016]确定问询语音对应的交互语音,并根据交互语音和用户图像生成第一动态视频,第一动态视频中包括交互语音和基于用户图像生成的虚拟数字人,虚拟数字人的面部表情状态与交互语音匹配;
[0017]将第一动态视频发送至显示设备。
[0018]第四方面,本公开提供另一种虚拟数字人交互方法,该方法包括:
[0019]接收用户输入的问询语音;
[0020]响应于问询语音,控制图像采集器采集用户图像;
[0021]将问询语音和用户图像发送至服务器,以由服务器生成第一动态视频,第一动态视频中包括交互语音和基于用户图像生成的虚拟数字人,虚拟数字人的面部表情状态与交互语音匹配;
[0022]接收服务器发送的第一动态视频,并控制显示器播放第一动态视频。
[0023]第五方面,本公开提供了一种计算机可读存储介质,包括:计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现如第三方面或第四方面所示的虚拟数字人交互方法。
[0024]第六方面,本公开提供了一种计算机程序产品,该计算机程序产品包括计算机程序,当该计算机程序在计算机上运行时,使得计算机实现如第三方面或第四方面所示的虚拟数字人交互方法。
[0025]本公开实施例提供一种服务器、显示设备和虚拟数字人交互方法,其中该服务器所包括的控制器,首先接收显示设备发送的问询语音和用户图像,进而确定该问询语音对应的交互语音,并根据这个交互语音和用户图像生成第一动态视频,该第一动态视频中包括交互语音以及基于用户图像生成的虚拟数字人,虚拟数字人的面部表情状态和交互语音匹配;进一步的将该第一动态视频返回给显示设备,以在显示设备上播放该第一动态视频,从而通过用户对应的虚拟数字人输出交互语音。本公开实施例通过用户图像和交互语音生成动态的虚拟数字人,无需预先采集大量的视频数据制作人物模型,降低了虚拟数字人的制作成本和制作难度。
附图说明
[0026]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
[0027]为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0028]图1为本公开实施例提供的一些实施例中的场景示意图;
[0029]图2为本公开实施例提供的控制装置100的配置框图;
[0030]图3为本公开实施例提供的一种服务器的结构框图;
[0031]图4为本公开实施例提供的一种服务器的配置框图;
[0032]图5为本公开实施例提供的显示设备200的硬件配置框图;
[0033]图6为本公开实施例提供的显示设备200中软件配置示意图;
[0034]图7为本公开实施例提供的一种虚拟数字人交互方法的流程示意图一;
[0035]图8为本公开实施例提供的训练神经网络的示意图;
[0036]图9为本公开实施例提供的一种虚拟数字人交互方法的流程示意图二;
[0037]图10为本公开实施例提供的一种特定场景下虚拟数字人交互方法的流程示意图三。
具体实施方式
[0038]为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
[0039]在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
[0040]目前虚拟数字人技术发展迅速,并且在人工智能技术的持续推动下,虚拟数字人技术正朝着智能化、精细化、多样化的方向发展,相关技术中,关于虚拟数字人的制作和驱动需要实现采集大量的视频数据,并通过各种软件及耗费人力制作和驱动人物模型,这样的方法制作周期长、成本过高,并且应用在具体场景时需要进行适应性调试后才能使用,也很难支持二次编辑和开发。因此,如何简单、低功耗地制作并驱动虚拟数字人进行交互是本领域亟需解决的技术问题。
[0041]为解决上述全部技术问题或部分技术问题,本公开实施例提供一种服务器、显示设备和虚拟数字人交互方法,其中该服务器包括控制器,控制器被配置为:首先接收显示设备发送的问询语音和用户图像,然后确定问询语音对应的交互语音,以实现对问询语音的答复,并且根据交互语音和用户图像生成第一动态视频,该第一动态视频中包括交互语音和基于用户图像生成的虚拟数字人,该虚拟数字人的面部表情状态和交互语音匹配,进一步的将第一动态视频发送至显示设备,以由显示设备对第一动态视频进行播放,以展示用户本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种服务器,其特征在于,包括:控制器,被配置为:接收显示设备发送的问询语音和用户图像;确定所述问询语音对应的交互语音,并根据所述交互语音和所述用户图像生成第一动态视频,所述第一动态视频中包括所述交互语音和基于所述用户图像生成的虚拟数字人,所述虚拟数字人的面部表情状态与所述交互语音匹配;将所述第一动态视频发送至所述显示设备。2.根据权利要求1所述的服务器,其特征在于,所述控制器,根据所述交互语音和所述用户图像生成第一动态视频,被配置为:根据所述交互语音和所述用户图像,生成所述用户图像中人脸的关键点序列;将所述关键点序列和所述用户图像输入预先训练的神经网络,得到所述神经网络输出的预测图像序列;将所述交互语音和所述预测图像序列进行对齐,合成得到所述第一动态视频。3.根据权利要求1所述的服务器,其特征在于,所述控制器,接收显示设备发送的问询语音和用户图像之后,所述确定所述问询语音对应的交互语音,并根据所述交互语音和所述用户图像生成第一动态视频之前,还被配置为:根据所述用户图像和预设关键点序列生成第二动态视频,所述第二动态视频包括基于所述用户图像生成的虚拟数字人;将所述第二动态视频发送至所述显示设备。4.根据权利要求3所述的服务器,其特征在于,所述控制器,根据所述用户图像和预设关键点序列生成第二动态视频之后,还被配置为:根据历史统计数据,确定生成所述第一动态视频所需的时长;根据所述时长,确定所述第二动态视频的播放次数,以及确定所述第二动态视频中所述时长对应的目标帧;所述控制器,根据所述交互语音和所述用户图像生成第一动态视频,被配置为:将所述目标帧作为第一动态视频的起始帧,根据所述交互语音和所述用户图像生成第一动态视频的其他帧。5.根据权利要求1所述的服务器,其特征在于,所述控制器,根据所述交互语音和所述用户图像生成第一动态视频,被配置为:对所述用户图像进行识别,确定所述用户图像中是否包含人脸特征信息;在所述用户图像中包含所述人脸特征信息的情况下...
【专利技术属性】
技术研发人员:付爱国,李绪送,于子亿,杨善松,王旭升,
申请(专利权)人:海信视像科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。