数字人生成方法和装置制造方法及图纸

技术编号：43672039 阅读：13 留言：0更新日期：2024-12-18 20:57

本申请公开了一种数字人生成方法和装置，属于图像处理技术领域。所述数字人生成方法包括：对采集得到的目标对象对应的面部图像进行处理，得到所述目标对象对应的面部特征图像和至少一张嘴部掩码图像；对采集得到的所述目标对象对应的音频数据进行处理，得到所述目标对象对应的口型信息；对所述面部特征图像、所述至少一张嘴部掩码图像和所述口型信息进行处理，得到所述目标对象对应的数字人像。本申请的数字人生成方法，减小了生成的形象与原形象的身份信息差异，避免了在新的参考形象上重新微调训练模型，提高了模型的泛化能力和通用性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请属于图像处理，尤其涉及一种数字人生成方法和装置。

技术介绍

1、在新闻播报、影视配音或对话互动等场景下，需要对数字人形象进行语音和口型的同步。相关技术中存在从音频中提取语音特征结合原形象特征合成口型的方法，该方法生成的形象与原形象的身份信息差异较大，通常还需要微调训练提高生成形象与原形象的相似度，泛化能力较差。

技术实现思路

1、本申请旨在至少解决相关技术中存在的技术问题之一。为此，本申请提出一种数字人生成方法和装置，减小了生成的形象与原形象的身份信息差异，避免了在新的参考形象上重新微调训练模型，提高了模型的泛化能力和通用性。

2、第一方面，本申请提供了一种数字人生成方法，该方法包括：

3、对采集得到的目标对象对应的面部图像进行处理，得到所述目标对象对应的面部特征图像和至少一张嘴部掩码图像；所述面部特征图像包括所述目标对象的全部身份特征，所述嘴部掩码图像包括所述目标对象的部分身份特征；

4、对采集得到的所述目标对象对应的音频数据进行处理，得到所述目标对象对应的口型信息；

5、对所述面部特征图像、所述至少一张嘴部掩码图像和所述口型信息进行处理，得到所述目标对象对应的数字人像。

6、根据本申请实施例提供的数字人生成方法，通过对面部图像进行处理，得到面部特征图像和至少一张嘴部掩码图像，并在潜空间内对面部特征图像、至少一张嘴部掩码图像和口型信息进行处理，即在潜空间内完成特征编辑，使得合成的数字人像不受训练数据分布的影响，从而

7、本申请一个实施例的数字人生成方法，所述对所述面部特征图像、所述至少一张嘴部掩码图像和所述口型信息进行处理，得到所述目标对象对应的数字人像，包括：

8、对所述面部特征图像所包括的所述嘴部特征和所述嘴部掩码图像所包括的头部姿态特征进行处理，得到所述目标对象对应的第一融合特征；

9、基于至少一个线性变换矩阵中目标线性变换矩阵对所述第一融合特征或所述口型信息进行处理，得到所述目标对象对应的第二融合特征；

10、基于所述面部特征图像、所述至少一张嘴部掩码图像和至少一个所述第二融合特征，得到所述数字人像。

11、本申请一个实施例的数字人生成方法，所述对所述面部特征图像所包括的所述嘴部特征和所述嘴部掩码图像所包括的头部姿态特征进行处理，得到所述目标对象对应的第一融合特征，包括：

12、对所述头部姿态特征进行线性变换，得到所述头部姿态特征对应的线性特征；

13、对所述线性特征和所述嘴部特征进行融合处理，得到所述第一融合特征。

14、本申请一个实施例的数字人生成方法，所述对所述头部姿态特征进行线性变换，得到所述头部姿态特征对应的线性特征，包括：

15、基于多个正交基和各所述正交基对应的幅值，对所述头部姿态特征进行线性变换，得到所述线性特征；所述幅值为将所述头部姿态特征输入至感知网络得到的。

16、本申请一个实施例的数字人生成方法，所述基于至少一个线性变换矩阵中目标线性变换矩阵对所述第一融合特征或所述口型信息进行处理，得到所述目标对象对应的第二融合特征，包括：

17、基于所述至少一个线性变换矩阵中第一线性变换矩阵，对所述第一融合特征进行处理，得到所述第一融合特征对应的第一特征；

18、基于所述至少一个线性变换矩阵中第二线性变换矩阵，对所述第一融合特征进行处理，得到所述第一融合特征对应的第二特征；

19、基于所述至少一个线性变换矩阵中第三线性变换矩阵，对所述口型信息进行处理，得到所述口型信息对应的第三特征；

20、对所述第一特征、所述第二特征和所述第三特征进行融合处理，得到所述第二融合特征。

21、本申请一个实施例的数字人生成方法，所述基于所述面部特征图像、所述至少一张嘴部掩码图像和至少一个所述第二融合特征，得到所述数字人像，包括：

22、对所述面部特征图像进行特征提取，得到所述面部特征图像对应的参考帧特征；对各所述嘴部掩码图像进行特征提取，得到各所述嘴部掩码图像对应的掩码帧特征；

23、对各所述第二融合特征进行线性变换，得到各所述第二融合特征对应的仿射变换矩阵；

24、基于各所述仿射变换矩阵，对所述参考帧特征进行仿射变化，得到所述参考帧特征对应的第四特征；

25、对所述第四特征和各所述掩码帧特征分别进行拼接处理，得到所述数字人像。

26、本申请一个实施例的数字人生成方法，所述对采集得到的目标对象对应的面部图像进行处理，得到所述目标对象对应的面部特征图像和至少一张嘴部掩码图像，包括：

27、基于关键点检测算法对所述面部图像进行处理，获取所述目标对象的至少一个面部关键点位置；

28、基于所述至少一个面部关键点位置，得到所述面部特征图像和所述至少一张嘴部掩码图像。

29、第二方面，本申请提供了一种数字人生成装置，该装置包括：

30、第一处理模块，用于对采集得到的目标对象对应的面部图像进行处理，得到所述目标对象对应的面部特征图像和至少一张嘴部掩码图像；所述面部特征图像包括所述目标对象的全部身份特征，所述嘴部掩码图像包括所述目标对象的部分身份特征；

31、第二处理模块，用于对采集得到的所述目标对象对应的音频数据进行处理，得到所述目标对象对应的口型信息；

32、第三处理模块，用于对所述面部特征图像、所述嘴部掩码图像和所述口型信息进行处理，得到所述目标对象对应的数字人像。

33、根据本申请实施例提供的数字人生成装置，通过对面部图像进行处理，得到面部特征图像和至少一张嘴部掩码图像，并在潜空间内对面部特征图像、至少一张嘴部掩码图像和口型信息进行处理，即在潜空间内完成特征编辑，使得合成的数字人像不受训练数据分布的影响，从而能够较好地保留参考形象的身份信息，减小了生成的形象与原形象的身份信息差异，避免了在新的参考形象上重新微调训练模型，提高了模型的泛化能力和通用性。

34、第三方面，本申请提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的数字人生成方法。

35、第四方面，本申请提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的数字人生成方法。

36、第五方面，本申请提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的数字人生成方法。

37、本申请实施例中的上述一个或多个技术方案，至少具有如下技术效果之一：

38、通过对面部图像进行处理，得到面部特征图像和本文档来自技高网...

【技术保护点】

1.一种数字人生成方法，其特征在于，包括：

2.根据权利要求1所述的数字人生成方法，其特征在于，所述对所述面部特征图像、所述至少一张嘴部掩码图像和所述口型信息进行处理，得到所述目标对象对应的数字人像，包括：

3.根据权利要求2所述的数字人生成方法，其特征在于，所述对所述面部特征图像所包括的所述嘴部特征和所述嘴部掩码图像所包括的头部姿态特征进行处理，得到所述目标对象对应的第一融合特征，包括：

4.根据权利要求3所述的数字人生成方法，其特征在于，所述对所述头部姿态特征进行线性变换，得到所述头部姿态特征对应的线性特征，包括：

5.根据权利要求2所述的数字人生成方法，其特征在于，所述基于至少一个线性变换矩阵中目标线性变换矩阵对所述第一融合特征或所述口型信息进行处理，得到所述目标对象对应的第二融合特征，包括：

6.根据权利要求2所述的数字人生成方法，其特征在于，所述基于所述面部特征图像、所述至少一张嘴部掩码图像和至少一个所述第二融合特征，得到所述数字人像，包括：

7.根据权利要求1-6任一项所述的数字人生成方法，其特征

8.一种数字人生成装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述的数字人生成方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-7任一项所述的数字人生成方法。

...

【技术特征摘要】

1.一种数字人生成方法，其特征在于，包括：

4.根据权利要求3所述的数字人生成方法，其特征在于，所述对所述头部姿态特征进行线性变换，得到所述头部姿态特征对应的线性特征，包括：

5.根据权利要求2所述的数字人生成方法，其特征在于，所述基于至少一个线性变换矩阵中目标线性变换矩阵对所述第一融合特征或所述口型信息进行处理，得到所述目标对象对应的第二融合特征，包括...

【专利技术属性】
技术研发人员：田丰，卫晓欣，聂品，姚荣国，李卓霖，
申请(专利权)人：广电运通集团股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人