图像换脸方法及装置、设备、介质制造方法及图纸

技术编号：41876394 阅读：20 留言：0更新日期：2024-07-02 00:28

本申请涉及网络直播图像换脸技术，公开一种图像换脸方法及装置、设备、介质，该方法包括：根据模板图像生成用于阐述该模板图像所属目标风格的风格描述文本；根据风格描述文本与目标脸部图像构造换脸控制条件，控制稳定扩散模型对其潜在空间中模板图像相对应的潜在表示进行生成降噪处理；根据模板图像中的参考脸部图像的人脸关键点特征对潜在空间中的潜在表示进行脸部强化处理；基于潜在空间中的潜在表示解码生成换脸图像，以在换脸图像中仿真呈现目标风格和目标脸部图像。本申请以更为经济高效的方式实现图像换脸技术，使换脸图像借助风格迁移再现模板图像的目标风格，且换脸图像中的人脸也更为和谐协调，图像生成效果较佳。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及网络直播，尤其涉及一种图像换脸方法及其相应的装置、电子设备以及计算机可读存储介质。

技术介绍

1、网络直播场景中，主播用户向直播间推送视频流，实现才艺展示、信息分享、知识教育等应用目的，使主播用户通过这些活动参与社会劳动获取收益，促进整体社会效益。

2、网络直播产生的视频和图像，容易产出优秀作品，当需要展示这些作品时，常需通过图文展示一些亮点信息，例如，直播视频列表中的各个亮点视频通常需要设置包含主播用户人脸的封面图像，封面图像可以从亮点视频的图像帧中取材。有时候，主播用户可能希望封面图像中的图像风格相对于原始图像帧有所变化，对此，可以借助基于深度学习模型的换脸技术实现。

3、早期用于实现图像换脸的深度学习模型是基于生成对抗模型实现的，这种技术不能充分解耦人脸身份信息和非身份信息，导致所生成的换脸图像出现特征缠结，脸型无法准确迁移，效果较差。

4、目前用于实现图像换脸的深度学习模型之一，是结合微调大语言模型(lora，low-rank adaptat i on of large language mode l s)与稳定扩散模型(stab l e duffus ion)进行综合应用的技术，这种技术由微调大语言模型来生成相应的提示，再由稳定扩散模型借助提示生成换脸图像。这种方式需要先针对性地利用多张个人照片对大语言模型进行微调训练，对用户素材要求极高，训练耗时非常久，非常低效且成本高，不适宜用于大面积推广。

5、有鉴于此，申请人积极探索更为高效的图像换脸技术，以便为用户提供

技术实现思路

1、本申请的首要目的在于解决上述问题至少之一而提供一种图像换脸方法及其相应的装置、电子设备以及计算机可读存储介质。

2、为满足本申请的各个目的，本申请采用如下技术方案：

3、适应本申请的目的之一而提出的一种图像换脸方法，包括如下步骤：

4、根据模板图像生成用于阐述该模板图像所属目标风格的风格描述文本；

5、根据所述风格描述文本与目标脸部图像构造换脸控制条件，控制稳定扩散模型对其潜在空间中所述模板图像相对应的潜在表示进行生成降噪处理；

6、根据所述模板图像中参考脸部图像的人脸关键点特征对所述潜在空间中的潜在表示进行脸部强化处理；

7、基于完成生成降噪处理和脸部强化处理的潜在表示解码生成换脸图像，以在所述换脸图像中仿真呈现所述目标风格和所述目标脸部图像。

8、可选的实施例中，根据模板图像生成用于阐述该模板图像所属目标风格的风格描述文本，包括：

9、获取模板图像，所述模板图像包含参考脸部图像和该参考脸部图像之外用于体现目标风格的风格相关图像；

10、将所述模板图像输入具有视觉理解生成能力的图像表述模型中进行推理，生成阐述所述风格相关图像相对应的目标风格的风格描述文本。

11、可选的实施例中，根据所述风格描述文本与目标脸部图像构造换脸控制条件，包括：

12、将所述风格描述文本编码为提示文本特征，将提示文本特征与所述潜在空间中的潜在表示进行注意力运算，得到风格显著特征；

13、将目标脸部图像编码为目标脸部特征，将目标脸部特征与所述潜在空间中的所述潜在表示进行注意力运算，得到脸部显著特征；

14、将所述风格显著特征和所述脸部显著特征作为换脸控制条件，输入所述稳定扩散模型的噪点预测网络的各个降噪处理节点中。

15、可选的实施例中，根据所述模板图像中参考脸部图像的人脸关键点特征对所述潜在空间中的潜在表示进行脸部强化处理，包括：

16、检测确定所述模板图像中的参考脸部图像，提取所述参考脸部图像中的人脸关键点特征；

17、将所述人脸关键点特征与所述潜在空间中的潜在表示进行特征相加，得到五官显著特征；

18、在所述生成降噪处理过程中，将所述五官显著特征融合至所述潜在空间的潜在表示，以实现对该潜在表示的脸部强化处理。

19、可选的实施例中，所述基于完成生成降噪处理和脸部强化处理的潜在表示解码生成换脸图像的步骤，基于所述稳定扩散模型对所述潜在空间中的潜在表示进行有限多次迭代的生成降噪处理和脸部强化处理后得到的潜在表示进行。

20、适应本申请的目的之一而提出的一种封面图像换脸方法，包括：

21、获取主播用户指定的目标脸部图像和模板图像，所述模板图像包含参考脸部图像和该参考脸部图像之外用于体现目标风格的风格相关图像；

22、应用所述图像换脸方法，根据所述目标脸部图像和所述模板图像生成换脸图像；

23、将所述换脸图像设置为目标视频的封面图像。

24、可选的实施例中，获取主播用户指定的目标脸部图像和模板图像，包括：

25、获取主播用户直播生成的亮点视频作为目标视频，从所述目标视频的图像帧中确定满足预设条件的多个图像帧，将所述多个图像帧推送给所述主播用户；

26、从主播用户基于所述多个图像帧选定的优质图像帧中提取脸部图像作为目标脸部图像；

27、基于所述目标脸部图像与模板库中的参考图像之间的相似度，确定与该目标脸部图像构成相似的部分参考图像，将所述部分参考图像推送给所述主播用户；

28、将所述主播用户从所述部分参考图像中指定的目标参考图像设为模板图像。

29、适应本申请的目的之一而提供的一种图像换脸方法，包括：

30、风格生成模块，设置为根据模板图像生成用于阐述该模板图像所属目标风格的风格描述文本；

31、降噪控制模块，设置为根据所述风格描述文本与目标脸部图像构造换脸控制条件，控制稳定扩散模型对其潜在空间中所述模板图像相对应的潜在表示进行生成降噪处理；

32、人脸强化模块，设置为根据所述模板图像中参考脸部图像的人脸关键点特征对所述潜在空间中的潜在表示进行脸部强化处理；

33、换脸解码模块，设置为基于完成生成降噪处理和脸部强化处理的潜在表示解码生成换脸图像，以在所述换脸图像中仿真呈现所述目标风格和所述目标脸部图像。

34、适应本申请的目的之一而提供的一种电子设备，包括中央处理器和存储器，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的方法的步骤。

35、适应本申请的另一目的而提供的一种计算机可读存储介质，其以计算机可读指令的形式存储有依据所述的方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行该方法所包括的步骤。

36、适应本申请的另一目的而提供的一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现本申请任意一种实施例中所述方法的步骤。

37、相对于现有技术，本申请具有多方面技术优势，包括但不限于：

38、首先，本申请一方面以生成的方式，理解模板图像的目标风格，生成相应的风格描述文本本文档来自技高网...

【技术保护点】

1.一种图像换脸方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的图像换脸方法，其特征在于，根据模板图像生成用于阐述该模板图像所属目标风格的风格描述文本，包括：

3.根据权利要求1所述的图像换脸方法，其特征在于，根据所述风格描述文本与目标脸部图像构造换脸控制条件，包括：

4.根据权利要求1所述的图像换脸方法，其特征在于，根据所述模板图像中参考脸部图像的人脸关键点特征对所述潜在空间中的潜在表示进行脸部强化处理，包括：

5.根据权利要求1至4是任意一项所述的图像换脸方法，其特征在于，所述基于完成生成降噪处理和脸部强化处理的潜在表示解码生成换脸图像的步骤，基于所述稳定扩散模型对所述潜在空间中的潜在表示进行有限多次迭代的生成降噪处理和脸部强化处理后得到的潜在表示进行。

6.一种封面图像换脸方法，其特征在于，包括：

7.根据权利要求6所述的封面图像换脸方法，其特征在于，获取主播用户指定的目标脸部图像和模板图像，包括：

8.一种图像换脸装置，其特征在于，包括：

9.一种电子设备，包括中央处

10.一种计算机可读存储介质，其特征在于，其以计算机可读指令的形式存储有依据权利要求1至7中任意一项所述的方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行相应的方法所包括的步骤。

...

【技术特征摘要】

1.一种图像换脸方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的图像换脸方法，其特征在于，根据模板图像生成用于阐述该模板图像所属目标风格的风格描述文本，包括：

3.根据权利要求1所述的图像换脸方法，其特征在于，根据所述风格描述文本与目标脸部图像构造换脸控制条件，包括：

5.根据权利要求1至4是任意一项所述的图像换脸方法，其特征在于，所述基于完成生成降噪处理和脸部强化处理的潜在表示解码生成换脸图像的步骤，基于所述稳定扩散模型对所述潜在空间中的潜在表示进行有限...

【专利技术属性】
技术研发人员：郑康元，朱致鹏，
申请(专利权)人：广州方硅信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人