System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 数字人生成方法、装置、设备及程序产品制造方法及图纸_技高网

数字人生成方法、装置、设备及程序产品制造方法及图纸

技术编号:44577477 阅读:1 留言:0更新日期:2025-03-14 12:40
本申请公开了一种数字人生成方法、装置、设备及程序产品,属于数字人技术领域。所述方法包括:获取用户的人脸图像;基于所述人脸图像中人脸的面部特征,生成数字人的数字人形象,所述数字人形象是具有所述面部特征的虚拟形象;基于所述人脸图像中人脸的人脸表情,确定所述数字人的语音情感。本申请实施例提供的方案实现了数字人形象以及语音的个性化定制,并提高了数字人形象的表情与数字人语音所表达情感之间的匹配度。

【技术实现步骤摘要】

本申请涉及数字人,特别涉及一种数字人生成方法、装置、设备及程序产品


技术介绍

1、数字人(digital human)是运用数字技术创造出来的、与人类形象接近的数字化人物形象。随着数字人技术的不断发展,数字人被应用于越来越多日常场景。

2、相关技术中,用户使用设备提供的数字人功能时,设备在屏幕中显示数字人形象,并控制数字人与用户进行语音交互。并且,用户可以根据个人喜好,从多个预置的候选数字人形象中选择符合个人喜好的数字人形象,或者,从多种预置数字人语音中选取符合个人喜好的数字人语音。

3、相关技术中的数字人形象和数字人语音均为预置,无法满足不同用户的个性化需求。


技术实现思路

1、本申请提供了一种数字人生成方法、装置、设备及程序产品,可以提高数字人的个性化程度。所述技术方案如下:

2、一方面,本申请实施例提供了一种数字人生成方法,所述方法包括:

3、获取用户的人脸图像;

4、基于所述人脸图像中人脸的面部特征,生成数字人的数字人形象,所述数字人形象是具有所述面部特征的虚拟形象;

5、基于所述人脸图像中人脸的人脸表情,确定所述数字人的语音情感。

6、另一方面,本申请实施例提供了一种数字人生成装置,所述装置包括:

7、获取模块,用于获取用户的人脸图像;

8、生成模块,用于基于所述人脸图像中人脸的面部特征,生成数字人的数字人形象,所述数字人形象是具有所述面部特征的虚拟形象;

9、所述生成模块,还用于基于所述人脸图像中人脸的人脸表情,确定所述数字人的语音情感。

10、在一些实施例中,所述数字人形象由形象生成模型生成,所述形象生成模型包括卷积神经网络和生成对抗网络;

11、所述生成模块,用于:

12、通过所述卷积神经网络对所述人脸图像进行特征提取,得到所述人脸图像中人脸的所述面部特征;

13、将所述面部特征输入所述生成对抗网络,通过所述生成对抗网络生成所述数字人的所述数字人形象。

14、在一些实施例中,所述装置还包括训练模块,用于:

15、通过所述卷积神经网络对样本人脸图像进行特征提取,得到所述样本人脸图像中样本人脸的样本面部特征;

16、将所述样本面部特征输入所述生成对抗网络,通过所述生成对抗网络生成样本数字人形象;

17、基于所述样本数字人形象以及所述样本面部特征,确定所述形象生成模型的模型损失;

18、基于所述模型损失训练所述卷积神经网络和所述生成对抗网络。

19、在一些实施例中,所述训练模块,用于:

20、通过所述卷积神经网络对所述样本数字人形象进行特征提取,得到所述样本数字人形象的样本数字人面部特征;

21、基于所述样本数字人面部特征和所述样本面部特征,确定面部特征损失;

22、基于所述生成对抗网络中判别器对所述样本数字人形象以及真实数字人形象的判别结果,确定形象生成损失;

23、基于所述面部特征损失、所述面部特征损失对应的第一损失权重、所述形象生成损失以及所述形象生成损失对应的第二损失权重,确定所述形象生成模型的所述模型损失,其中,所述第一损失权重与训练轮次负相关,所述第二损失权重与训练轮次正相关。

24、在一些实施例中,所述生成模块,还用于:

25、确定数字人形象风格对应的所述形象生成模型,其中,不同的所述形象生成模型用于生成不同风格的所述数字人形象。

26、在一些实施例中,所述生成模块,用于:

27、通过表情分类器对所述人脸图像中人脸的所述面部特征进行表情分类,得到各个候选人脸表情标签对应的表情置信度;基于所述候选人脸表情标签以及所述表情置信度,确定所述数字人的所述语音情感;

28、或,

29、基于所述人脸图像中人脸的人脸关键点,提取多个维度的表情特征;将所述多个维度的表情特征输入表情识别网络,得到所述表情识别网络输出的各个候选人脸表情标签对应的表情置信度;基于所述候选人脸表情标签以及所述表情置信度,确定所述数字人的所述语音情感。

30、在一些实施例中,所述获取模块,还用于:

31、获取所述用户的预录制语音;

32、所述生成模块,还用于:

33、基于所述语音情感和所述预录制语音,生成所述数字人的语音包,所述语音包用于表征所述用户的语音特征,且所述语音特征具有所述语音情感。

34、在一些实施例中,所述生成模块,用于:

35、通过lstm模型对所述预录制语音进行语音特征提取,得到所述用户的所述语音特征;

36、基于所述语音情感对所述语音特征中的韵律特征进行特征调整,得到所述数字人的所述语音包。

37、在一些实施例中,所述生成模块,用于:

38、基于所述语音情感的情感类型确定特征调整方式,以及基于所述语音情感的情感程度确定特征调整量;

39、基于所述特征调试方式以及所述特征调整量,对所述语音特征中的所述韵律特征进行特征调整,得到所述数字人的所述语音包。

40、在一些实施例中,所述获取模块,用于:

41、在不存在所述用户的历史语音的情况下,获取目标语料对应的所述预录制语音,所述目标语料为生成所述语音包所需的语料;

42、在存在所述用户的历史语音的情况下,基于所述历史语音对应的已有语料以及目标语料,确定缺失语料,所述目标语料为生成所述语音包所需的语料;获取所述缺失语料对应的所述预录制语音。

43、另一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括:处理器和存储器,所述存储器中存储有至少一段程序;所述处理器,用于执行所述存储器中的所述至少一段程序以实现上述如上述方面所述的数字人生成方法。

44、另一方面,本申请实施例提供了一种计算机可读存储介质,所述可读存储介质中存储有可执行指令,所述可执行指令由处理器加载并执行以实现上述如上述方面所述的数字人生成方法。

45、另一方面,本申请实施例提供了一种计算机程序产品,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中,处理器从所述计算机可读存储介质读取并执行所述计算机指令,以实现上述如上述方面所述的数字人生成方法。

46、本申请提供的技术方案带来的有益效果至少包括:

47、本申请实施例中,基于人脸图像中用户人脸的面部特征,生成具有该面部特征的数字人形象,提高了数字人与用户之间形象的相似度;基于人脸图像中人脸的人脸表情,确定数字人的语音情感,提高了数字人形象的表情与数字人语音所表达情感之间的匹配度,实现了数字人形象以及语音的个性化定制。

本文档来自技高网
...

【技术保护点】

1.一种数字人生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述数字人形象由形象生成模型生成,所述形象生成模型包括卷积神经网络和生成对抗网络;

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:

4.根据权利要求3所述的方法,其特征在于,所述基于所述样本数字人形象以及所述样本面部特征,确定所述形象生成模型的模型损失,包括:

5.根据权利要求2所述的方法,其特征在于,所述方法还包括:

6.根据权利要求2所述的方法,其特征在于,所述基于所述人脸图像中人脸的人脸表情,确定所述数字人的语音情感,包括:

7.根据权利要求1至6任一所述的方法,其特征在于,所述方法还包括:

8.根据权利要求7所述的方法,其特征在于,所述基于所述语音情感和所述预录制语音,生成所述数字人的语音包,包括:

9.根据权利要求8所述的方法,其特征在于,所述基于所述语音情感对所述语音特征中的韵律特征进行特征调整,得到所述数字人的所述语音包,包括:

10.根据权利要求7所述的方法,其特征在于,所述获取所述用户的预录制语音,包括:

11.一种数字人生成装置,其特征在于,所述装置包括:

12.一种计算机设备,其特征在于,所述计算机设备包括:处理器和存储器,所述存储器中存储有至少一段程序;所述处理器,用于执行所述存储器中的所述至少一段程序以实现上述如权利要求1至10任一所述的数字人生成方法。

13.一种计算机可读存储介质,其特征在于,所述可读存储介质中存储有可执行指令,所述可执行指令由处理器加载并执行以实现上述如权利要求1至10任一所述的数字人生成方法。

14.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中,处理器从所述计算机可读存储介质读取并执行所述计算机指令,以实现上述如权利要求1至10任一所述的数字人生成方法。

...

【技术特征摘要】

1.一种数字人生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述数字人形象由形象生成模型生成,所述形象生成模型包括卷积神经网络和生成对抗网络;

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:

4.根据权利要求3所述的方法,其特征在于,所述基于所述样本数字人形象以及所述样本面部特征,确定所述形象生成模型的模型损失,包括:

5.根据权利要求2所述的方法,其特征在于,所述方法还包括:

6.根据权利要求2所述的方法,其特征在于,所述基于所述人脸图像中人脸的人脸表情,确定所述数字人的语音情感,包括:

7.根据权利要求1至6任一所述的方法,其特征在于,所述方法还包括:

8.根据权利要求7所述的方法,其特征在于,所述基于所述语音情感和所述预录制语音,生成所述数字人的语音包,包括:

9.根据权利要求8所述的方法,其特征在于,所述基于所述语音...

【专利技术属性】
技术研发人员:王峣肖龙珠张宁关蕊
申请(专利权)人:京东方科技集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1