基于文本控制的人脸遮挡融合方法、系统及可读存储介质技术方案

技术编号：44250800 阅读：1 留言：0更新日期：2025-02-11 13:47

本申请公开一种基于文本控制的人脸遮挡融合方法，该方法包括：获取用于遮挡的前景目标图像；获取包含人脸的背景图像B的下半脸遮挡区域；以及基于下半脸遮挡提示文本和扩散模型将前景目标融合至背景图像B的下半脸遮挡区域上。本申请还提供应用该基于文本控制的人脸遮挡融合方法的人脸融合系统及可读存储介质。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及图像处理，更具体地说，是基于文本控制的人脸遮挡融合方法、系统及可读存储介质。

技术介绍

1、学习模型的精度要求也越来越高，精度的提升一方面通过调整网络模型结构来达到，另一方面依赖于获取大量的训练数据；然而现实场景中由于诸多因素的限制，获取数据的成本越来越高，导致在很多场景下不能得到我们需要的数据量。因此我们有必要通过合成的手段来获得我们所需的数据量，以此来提升模型的精度。同样，为了提高脸部有遮挡时的人脸识别模型的精确度，需要收集大量脸部被遮挡不用人脸图像，然而单纯通过网上收集包含人体目标的复杂场景需要人工花费较多时间去挑选，或者比如直接使用ps软件直接人体目标合成至复杂场景中，该方法合成的图像最为精确且最为真实但每张图像的合成需要耗费大量的人工时间。

技术实现思路

1、针对现有技术，本申请解决的技术问题是提供一种能实现自动将遮挡目标合成至人脸上的基于文本控制的人脸遮挡融合方法、采集装置及识别系统。

2、为解决上述技术问题，本申请提供一种基于文本控制的人脸遮挡融合方法，包括：

3、获取用于遮挡的前景目标图像；

4、获取包含人脸的背景图像b的下半脸遮挡区域；以及，

5、基于下半脸遮挡提示文本和扩散模型将前景目标融合至背景图像b的下半脸遮挡区域上。

6、在一申请实施例中，所述获取包含人脸的背景图像b的下半脸遮挡区域，包括：

7、对背景图像b进行人脸关键点检测，获得人脸的三个关键点坐标：左眼区域中心点(lef

8、根据所述三个关键点坐标定位出下半脸遮挡区域：下半脸遮挡区域在x轴上的坐标范围为(0,x.up)且在y轴上的坐标范围为(y.min,y.max)；

9、其中，left.x、left.y、righ.x和right.y分别为左眼区域中心点横坐标、左眼区域中心点纵坐标、右眼区域中心点横坐标、右眼区域中心点纵坐标；y.min＝min(right.y,left.y),y.max＝y.min+(nose.y-y.min)*2/5；x.up＝|left.x-center.x|,center.x＝(righ.x-left.x)/2；|.|表示求绝对值，min(.)意为两者中取最小值，x.up为获得下半脸遮挡区域在x轴的最大横坐标值，y.min和y.max分别为下半脸遮挡区域在y轴上的最小纵坐标值和最大纵坐标值。

10、在一申请实施例中，基于下半脸遮挡提示文本和扩散模型将前景目标融合至背景图像b的下半脸遮挡区域上，包括：

11、获取前景目标图像的编码图像和背景图像的编码图像

12、对编码图像和编码图像进行融合获得前背景编码图像

13、基于下半脸遮挡提示文本驱动扩散模型对前背景编码图像进行去噪解码获得下半脸遮挡的融合图像s。

14、在一申请实施例中，基于下半脸遮挡提示文本驱动扩散模型对背景编码图像进行去噪解码获得下半脸遮挡的融合图像s，为：

15、将背景编码图像下半脸遮挡提示文本信息、前景目标信息输入至扩散模型的叠加有注意力模块的去噪网络中进行迭代去噪，获得去噪后的下半脸遮挡的融合图像s。

16、其中，下半脸遮挡提示文本信息包括提示文本信息指示的所述背景图像b中的人脸区域和所述背景图像b的下半脸遮挡区域，前景目标信息为提取的关于前景目标的掩码图。

17、在一申请实施例中，所述扩散模型基于ddpm模型，所述去噪网络基于unet网络；输入所述注意力模块获得注意力图为：

18、

19、

20、其中，t表示扩散模型的去噪求解融合图像s的时间步，l表示unet网络的第l层；与分别为时间步为t时l层时网络提取的前景目标图像f和背景区域b的空间特征，背景区域b为所述下半脸遮挡区域；和分别为时间步为t时unet网络的注意力模块对背景区域b进行处理时提取的第l层的查询向量和键向量，和为时间步为t时unet网络的注意力模块对前景目标图像f进行处理时提取的第l层的查询向量和键向量，和分别为向量和的转置；d1和d2分别为和中的向量维度和分别为关于背景图像的自注意图、关于前景目标图像的自注意图以及关于和之间的夹叉注意图；soft max(.)表示归一下操作；vcompose基于区域像素指数构建复合自注意图的函数因子。

21、在一申请实施例中，对编码图像和编码图像进行融合获得前背景编码图像为：

22、

23、其中，z为高斯噪声，背景图像b的下半脸遮挡区域对应的图像区域称为主背景区域b，xb为主背景区域的掩码图像且该掩码图中的主背景区域的像素值值为1，xf为融合在下半脸遮挡区域上的前景图像对应的掩码图且该掩码图中前景目标区域的像素值为1，为异或结果，⊙是同或运算。其中t与t等同，均表示时间不长。

24、本申请提供一种人脸融合系统，其包括：

25、图像获取单元，获取前景图像和背景图像；以及，

26、图像处理器，连接图像获取单元且用于执行所述基于文本控制的人脸遮挡融合方法的步骤。

27、本申请还提供一种计算机可读存储介质，所述计算机可读介质存储有程序代码，当所述计算机程序代码在计算机上运行时，使得计算机执行所述基于文本控制的人脸遮挡融合方法的步骤。

28、本申请提供的基于文本控制的人脸遮挡融合方法、人脸融合系统及存储介质的有益效果在于：提取待融合的背景图像中的人脸的下半脸遮挡的待融合区域，将前景目标图像自动融合至背景图像中的人脸的下半脸遮挡区域，获得人脸被物体遮挡的融合图像。该基于文本控制的人脸遮挡融合方法能够为模训练型提供丰富的数据来源。

本文档来自技高网...

【技术保护点】

1.一种基于文本控制的人脸遮挡融合方法，其特征在于，包括：

2.如权利要求1所述的基于文本控制的人脸遮挡融合方法，其特征在于，所述获取包含人脸的背景图像B的下半脸遮挡区域，包括：

3.如权利要求1所述的基于文本控制的人脸遮挡融合方法，其特征在于，基于下半脸遮挡提示文本和扩散模型将前景目标融合至背景图像B的下半脸遮挡区域上，包括：

4.如权利要求3所述的基于文本控制的人脸遮挡融合方法，其特征在于，基于下半脸遮挡提示文本驱动扩散模型对背景编码图像进行去噪解码获得下半脸遮挡的融合图像S，为：

5.如权利要求5所述的基于文本控制的人脸遮挡融合方法，其特征在于，所述扩散模型基于DDPM模型，所述去噪网络基于UNET网络；输入所述注意力模块获得注意力图为：

6.如权利要求3所述的基于文本控制的人脸遮挡融合方法，其特征在于，对编码图像和编码图像进行融合获得前背景编码图像为：

7.一种人脸融合系统，其特征在于，包括：

8.一种计算机可读存储介质，其特征在于，所述计算机可读介质存储有程序代码，当所述计算机程序代码在

...

【技术特征摘要】

1.一种基于文本控制的人脸遮挡融合方法，其特征在于，包括：

2.如权利要求1所述的基于文本控制的人脸遮挡融合方法，其特征在于，所述获取包含人脸的背景图像b的下半脸遮挡区域，包括：

3.如权利要求1所述的基于文本控制的人脸遮挡融合方法，其特征在于，基于下半脸遮挡提示文本和扩散模型将前景目标融合至背景图像b的下半脸遮挡区域上，包括：

4.如权利要求3所述的基于文本控制的人脸遮挡融合方法，其特征在于，基于下半脸遮挡提示文本驱动扩散模型对背景编码图像进行去噪解码获得下半脸遮挡的融合图像s，为：

5.如...

【专利技术属性】
技术研发人员：陈雅琼，欧阳一村，罗富章，付磊，龚小龙，
申请(专利权)人：盛视科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人