唇形驱动模型的训练方法、唇形驱动方法、装置及设备制造方法及图纸

技术编号：41363091 阅读：27 留言：0更新日期：2024-05-20 10:11

本发明专利技术公开了一种唇形驱动模型的训练方法、唇形驱动方法、装置及设备，涉及人工智能技术领域，尤其涉及数字人、深度学习技术领域。该方法包括：分别对样本掩码图像和所述样本掩码图像对应的样本音频频谱进行降维处理，得到样本人脸图像特征和样本音频特征；对所述样本人脸图像特征和所述样本音频特征进行融合，得到图音融合特征；分别对所述图音融合特征进行处理，得到样本人脸预测图像和样本人脸预测轮廓；根据所述样本人脸图像特征、所述样本音频特征、所述样本人脸预测图像、所述样本人脸预测轮廓和标签数据，确定训练损失；采用所述训练损失，对唇形驱动模型进行训练。通过上述技术方案，能够提升生成数字人的图像质量。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，尤其涉及数字人、深度学习，具体涉及一种唇形驱动模型的训练方法、唇形驱动方法、装置及设备。

技术介绍

1、音频驱动唇部图像生成技术是制作2d数字人的常见方法，但是目前开源的方案存在一些天然缺陷。使得生成的数字人清晰度不够且明显存在生成痕迹，具体表现在以下几点：1)开源方案在低分辨率的特征上建模，生成低分辨率的唇部重建图，通过插值等图像处理方式还原到高分辨率原图后会让生成区域明显模糊不清。通过图像超分辨率的方式进行修复后，会有所改善，但对整个数字人制作过程增加了处理耗时。2)开源方案会对人脸检测框的下半框进行重建，重建之后边界框痕迹明显。如果待制作的数字人对象为长发女性，那人脸下半脸部分的边界框会更加明显(会在长发的背景下格外突出)。影响生成数字人的图像质量。因此，亟需一种有效的音频驱动唇形图像生成方式，来提升生成数字人的图像质量。

技术实现思路

1、本专利技术提供了一种唇形驱动模型的训练方法、唇形驱动方法、装置及设备，以提高唇形驱动模型的重建能力。

2、根据本专利技术的一方面，提供了一种唇形驱动模型的训练方法，该方法包括：

3、分别对样本掩码图像和所述样本掩码图像对应的样本音频频谱进行降维处理，得到样本人脸图像特征和样本音频特征；

4、对所述样本人脸图像特征和所述样本音频特征进行融合，得到图音融合特征；

5、分别对所述图音融合特征进行处理，得到样本人脸预测图像和样本人脸预测轮廓；

6、根据所述样本人脸

7、采用所述训练损失，对唇形驱动模型进行训练。

8、根据本专利技术的另一方面，提供了一种唇形驱动方法，该方法包括：

9、确定目标掩码图像和所述目标掩码图像对应的目标音频频谱；

10、采用唇形驱动模型对所述目标掩码图像和所述目标音频频谱进行预测，得到目标唇形驱动图像；其中，所述唇形驱动模型基于本专利技术任意实施例所述的唇形驱动模型的训练方法训练得到。

11、根据本专利技术的另一方面，提供了一种唇形驱动模型的训练装置，该装置包括：

12、样本降维模块，用于分别对样本掩码图像和所述样本掩码图像对应的样本音频频谱进行降维处理，得到样本人脸图像特征和样本音频特征；

13、融合特征确定模块，用于对所述样本人脸图像特征和所述样本音频特征进行融合，得到图音融合特征；

14、图像预测模块，用于分别对所述图音融合特征进行处理，得到样本人脸预测图像和样本人脸预测轮廓；

15、训练损失确定模块，用于根据所述样本人脸图像特征、所述样本音频特征、所述样本人脸预测图像、所述样本人脸预测轮廓和标签数据，确定训练损失；

16、模型训练模块，用于采用所述训练损失，对唇形驱动模型进行训练。

17、根据本专利技术的另一方面，提供了一种唇形驱动装置，该装置包括：

18、目标数据确定模块，用于确定目标掩码图像和所述目标掩码图像对应的目标音频频谱；

19、唇形驱动图像确定模块，用于采用唇形驱动模型对所述目标掩码图像和所述目标音频频谱进行预测，得到目标唇形驱动图像；其中，所述唇形驱动模型基于本专利技术任意实施例所述的唇形驱动模型的训练方法训练得到。

20、根据本专利技术的另一方面，提供了一种电子设备，所述电子设备包括：

21、至少一个处理器；以及

22、与所述至少一个处理器通信连接的存储器；其中，

23、所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本专利技术任一实施例所述的唇形驱动模型的训练方法或唇形驱动方法。

24、根据本专利技术的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本专利技术任一实施例所述的唇形驱动模型的训练方法或唇形驱动方法。

25、根据本专利技术的另一方面，提供了一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序在被处理器执行时实现本专利技术任一实施例所述的唇形驱动模型的训练方法或唇形驱动方法。

26、本专利技术实施例的技术方案，通过分别对样本掩码图像和样本掩码图像对应的样本音频频谱进行降维处理，得到样本人脸图像特征和样本音频特征，对样本人脸图像特征和样本音频特征进行融合，得到图音融合特征，之后分别对图音融合特征进行处理，得到样本人脸预测图像和样本人脸预测轮廓，进而根据样本人脸图像特征、样本音频特征、样本人脸预测图像、样本人脸预测轮廓和标签数据，确定训练损失，采用训练损失，对唇形驱动模型进行训练。上述技术方案，引入样本人脸预测轮廓来构建训练损失，能够对重建人脸即样本人脸预测图像进行约束，从而优化模型的重建能力。

27、应当理解，本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征，也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种唇形驱动模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求1所述的方法，其特征在于，所述唇形驱动模型包括图像编码器和音频编码器；相应的，分别对样本掩码图像和所述样本掩码图像对应的样本音频频谱进行降维处理，得到样本人脸图像特征和样本音频特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述唇形驱动模型包括图像解码器和分割分支；所述分割分支为上采样网络；相应的，分别对所述图音融合特征进行处理，得到样本人脸预测图像和样本人脸预测轮廓，包括：

5.根据权利要求1所述的方法，其特征在于，根据所述样本人脸图像特征、所述样本音频特征、所述样本人脸预测图像、所述样本人脸预测轮廓和标签数据，确定训练损失，包括：

6.根据权利要求5所述的方法，其特征在于，根据所述对齐损失、所述重建损失和所述分割损失，确定训练损失，包括：

7.一种唇形驱动方法，其特征在于，包括：

8.一种唇形驱动模型的训练装置，其特征在于，包括：

9.一种唇形驱动装置，其特征在于，包括：

10.一种电子设备，其特征在于，所述电子设备包括：

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-6中任一项所述的唇形驱动模型的训练方法，或权利要求7所述的唇形驱动方法。

12.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的唇形驱动模型的训练方法，或权利要求7所述的唇形驱动方法。

...

【技术特征摘要】

1.一种唇形驱动模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，还包括：

6.根据权利要求5所...

【专利技术属性】
技术研发人员：陈炜，朱亮，谢奔，王昌辉，尚群凯，
申请(专利权)人：南京领行科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人