基于动态掩码感知的人体去遮挡方法技术

技术编号：43168838 阅读：17 留言：0更新日期：2024-11-01 19:59

本发明专利技术涉及一种基于动态掩码感知的人体去遮挡方法，属于图像处理技术领域。首先利用大卷积核的CNN编码器，将图像从图像维度映射到潜在空间维度，再使用动态掩码感知的Transformer网络提取全局信息，最后使用掩码引导的解码器，将潜在空间特征映射回图像维度，再使用掩码引导的loss，进行梯度反传，进行模型参数优化。本发明专利技术基于Transformer模型，并通过创新设计动态掩码注意力机制、上采样解码器等内容，提高了人体去遮挡的效果，在人体行为理解、智能视频理解、智能监控等方面具有重要的应用价值。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像处理，具体涉及一种基于动态掩码感知的人体去遮挡方法。

技术介绍

1、随着视频监控技术的迅速发展，视频监控被广泛的用于重点场所、重大公共活动、事件的安保，发现和识别异常人物、事件。为减少人工观看容易出现的漏检、工作强度高等问题，基于人体分析、行为识别的智能化感知理解技术受到了日益广泛的关注。但是，由于目标众多、非合作，人体遮挡是一个不可避免的问题，严重影响了后续任务的性能。因此，人体去遮挡具有重要的意义和广泛的应用价值。

2、针对这个问题，已有的人体去遮挡技术基于生成对抗网络(gan)，使用cnn建模不同区域的关系，生成不可见部分的图像，然后基于gan网络的判别器对整个模型进行优化，使得生成的区域尽可能与实际相似。但是，受限于cnn的接受域限制，这些已有的技术难以建模全局信息，预测的不可见部分与实际真值相差甚远，难以满足实际需求。

技术实现思路

1、本专利技术所要解决的技术问题是：

2、为了避免现有技术的不足之处，本专利技术提供一种基于动态掩码感知的人体去遮挡方法，用于恢复人体被遮挡部分的图像外观，提高系统对遮挡目标的自适应性，提高了人体去遮挡效果。

3、为了解决上述技术问题，本专利技术采用的技术方案为：

4、一种基于动态掩码感知的人体去遮挡方法，其特征在于步骤如下：

5、步骤1：将输入图片x、人体不可见部分掩码minv、完整人体掩码mamodal缩放尺寸一致，按照通道维度连接起来得到输入向量xin；>

6、步骤2：在人体不可见部分掩码minv上随机采样若干个点，将输入图片x与这若干个点送入segment anything model中，得到遮挡物掩码mocc；

7、步骤3：将输入向量xin送入cnn编码器进行卷积、编码到潜在空间中，得到潜在空间特征xmid；

8、步骤4：将潜在空间特征xmid输入transformer网络中，在人体可见部分掩码mmodal、遮挡物掩码mocc、人体不可见部分掩码minv的引导下，提取潜在空间特征xmid的全局信息，得到处理后的潜在特征x′mid；

9、步骤5：将处理后的潜在特征x′mid输入卷积神经网络解码器中，在遮挡物掩码mocc的指导下，分别对遮挡物和其余部分进行双线性上采样、卷积操作进行特征提取，重复多次将最终的特征转换为预测去遮挡图像xout；

10、步骤6：将预测去遮挡物图像xout与人体不可见部分掩码minv逐像素相乘得到第一结果；将输入向量xin与可见部分掩码m1-inv相乘得到第二结果；将第一结果和第二结果相加，得到最终去遮挡图像xde-o。

11、本专利技术进一步的技术方案：所述的cnn编码器采用大卷积神经网络头，大卷积的卷积核为7x7。

12、本专利技术进一步的技术方案：步骤4的具体操作如下：

13、步骤4.1：对潜在空间特征xmid并行进行3次不同的线性变换，将xmid分别映射到查询空间、键空间和值空间当中，得到xq,xk,xv；

14、步骤4.2：在人体可见部分掩码mmodal、遮挡物掩码mocc、人体不可见部分掩码minv的引导下，各个掩码乘上其对应的可学习矩阵ai,i＝1,2,3，再加上计算步骤4.1中的xv的关系矩阵attn，其操作公式化表示为：

15、

16、其中，d代表xq的最后维度的大小，⊙表示逐像素相乘；

17、步骤4.3：对步骤4.2中的关系矩阵attn和值矩阵xv进行注意力机制的计算，具体为矩阵乘法，得到处理后的中间特征xmid；

18、步骤4.4：将步骤4.3中的处理后的中间特征xmid输入到一个两层的mlp网络中，得到处理后的潜在空间特征x′mid。

19、本专利技术进一步的技术方案：所述步骤5的具体操作如下：

20、步骤5.1：在遮挡物掩码mocc的指导下，分开对潜在特征x′mid的遮挡部分和其余部分进行双线性上采样，得到上采样后的潜在空间特征x″mid；

21、步骤5.2：将步骤5.1中上采样后的潜在空间特征x″mid输入单层卷积神经网络conv中，进行特征提取，得到更新的潜在特征x″′mid；

22、步骤5.3：重复5.1～5.2步骤3次，将最终步骤5.2中处理后的潜在空间特征x″′mid输入单层卷积神经网络conv1，得到256×256的预测去遮挡图像xout。

23、本专利技术进一步的技术方案：还包括设计损失函数，将损失函数进行梯度反传，更新cnn编码器、transformer网络及卷积神经网络解码器的模型参数。

24、本专利技术进一步的技术方案：所述损失函数为第一距离损失值、第二距离损失值、第三距离损失值的关系式：

25、loss＝ap×lossp(xout⊙mamodal,xgt⊙mamodal)+ad×lossd(xout⊙mamodal,xgt⊙mamodal)+a1×loss1(xout⊙mamodal,xgt⊙mamodal),loss∈rb

26、其中，lossp、lossd、loss1分别代表第一距离损失值、第二距离损失值、第三距离损失值，⊙表示逐像素相乘，×代表直接相乘，ap、ad、a1是用于平衡不同损失的超参数，在训练集上进行选择，xout和xgt分别代表预测去遮挡图像和真值去遮挡图像。

27、本专利技术进一步的技术方案：所述第一距离损失值为：

28、将预测去遮挡图像xout与真实去遮挡图像xgt，乘上完整人体部分的掩码mamodal之后，放入vgg网络中计算深层特征；计算两者深层特征的l1范数意义上的距离lossp：

29、lossp＝‖vgg(xout⊙mamodal)-vgg(xgt⊙mamodal)‖1

30、所述第二距离损失值为：

31、将预测去遮挡图像xout与真实去遮挡图像xgt，乘上完整人体部分的掩码mamodal，放入鉴别器网络中，计算两者在鉴别器d空间中的l1范数意义上的距离lossd：

32、lossd＝‖d(xout⊙mamodal)-d(xgt⊙mamodal)‖1

33、所述第三距离损失值为：

34、基于预测去遮挡图像xout与真实去遮挡图像xgt属于整人体部分的掩码mamodal区域的像素，计算两者在像素空间上的l1范数意义上的距离loss1：

35、

36、一种计算机系统，其特征在于包括：一个或多个处理器，计算机可读存储介质，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现上述的方法。

37、一种计算机可读存储介质，其特征在于存储有计算机可执行指令，所述指令在被执行时用于实现上述的方法。

38、一种计算机程序产品，其特征在于包括计算机可执行指令，所述指令在被执行时用于实现上述的方法。...

【技术保护点】

1.一种基于动态掩码感知的人体去遮挡方法，其特征在于步骤如下：

2.根据权利要求1所述一种基于动态掩码感知的人体去遮挡方法，其特征在于，所述的CNN编码器采用大卷积神经网络头，大卷积的卷积核为7x7。

3.根据权利要求1所述一种基于动态掩码感知的人体去遮挡方法，其特征在于，步骤4的具体操作如下：

4.根据权利要求1所述一种基于动态掩码感知的人体去遮挡方法，其特征在于，所述步骤5的具体操作如下：

5.根据权利要求1所述一种基于动态掩码感知的人体去遮挡方法，其特征在于，还包括设计损失函数，将损失函数进行梯度反传，更新CNN编码器、Transformer网络及卷积神经网络解码器的模型参数。

6.根据权利要求5所述一种基于动态掩码感知的人体去遮挡方法，其特征在于，所述损失函数为第一距离损失值、第二距离损失值、第三距离损失值的关系式：

7.根据权利要求5所述一种基于动态掩码感知的人体去遮挡方法，其特征在于，所述第一距离损失值为：

8.一种计算机系统，其特征在于包括：一个或多个处理器，计算机可读存储介质，用于

9.一种计算机可读存储介质，其特征在于存储有计算机可执行指令，所述指令在被执行时用于实现权利要求1所述的方法。

10.一种计算机程序产品，其特征在于包括计算机可执行指令，所述指令在被执行时用于实现权利要求1所述的方法。

...

【技术特征摘要】

1.一种基于动态掩码感知的人体去遮挡方法，其特征在于步骤如下：

2.根据权利要求1所述一种基于动态掩码感知的人体去遮挡方法，其特征在于，所述的cnn编码器采用大卷积神经网络头，大卷积的卷积核为7x7。

3.根据权利要求1所述一种基于动态掩码感知的人体去遮挡方法，其特征在于，步骤4的具体操作如下：

4.根据权利要求1所述一种基于动态掩码感知的人体去遮挡方法，其特征在于，所述步骤5的具体操作如下：

5.根据权利要求1所述一种基于动态掩码感知的人体去遮挡方法，其特征在于，还包括设计损失函数，将损失函数进行梯度反传，更新cnn编码器、transformer网络及卷积神经网络解码器的模型参数。

6.根据权利要求5所述一种基于...

【专利技术属性】
技术研发人员：张艳宁，梁国强，胡嘉豪，
申请(专利权)人：西北工业大学深圳研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人