一种基于可变形卷积编码网络和特征区域关注的人体姿态估计方法技术

技术编号：40867757 阅读：3 留言：0更新日期：2024-04-08 16:33

本发明专利技术公开了一种基于可变形卷积编码网络和特征区域关注的人体姿态估计方法。所述方法包括如下步骤：1)提取输入图像序列的视觉特征；2)特征序列融合的增强全局视觉特征；3)自适应区域特征；4)通道和空间的特征信息表示；5)生成姿态点热力图。本发明专利技术提出的一种基于可变形卷积编码网络和特征区域关注的人体姿态估计方法，能促进网络对特征区域的区分能力和对有效特征区域的关注，从而减少对错误特征区域的识别，提升网络的精准度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人体姿态估计的，具体是一种基于可变形卷积编码网络和特征区域关注的人体姿态估计方法。

技术介绍

1、近年来，人体姿态估计一直是计算机视觉中一个重要的任务，现有的人姿态技术也取得了很大的发展。人体姿态估计是计算机视觉领域的一个重要研究方向，它旨在从图像或视频中识别和理解人体各部位的位置和姿态。但是，人体姿态估计需要高分辨表示来实现高性能。因此，需要一个具有高性能的人体姿态估计模型。

2、传统的人体姿态估计方法是基于图形结构的解决方法,这些方法过于依赖手工制作的特性，受到算法的影响比较大，并且模型的表示能力有限。近年来，在深度学习的发展和大规模姿态数据集的影响下，各种深度学习方法被用于人体姿态估计。这些方法大致分为两种类型：自底向上和自顶向下。自底向上的方法首先检测图像中的各个身体部位，然后通过分组和组装这些身体部位来合成整个人体。另一方面，自顶向下的方法首先检测人体边界框，然后检测每个边界框内的人体姿势。近些年的工作中提出了一个高分辨率网络hrnet，该网络在整个推理过程中保留了高分辨率特征映射，在多个基于图像的测试集中获得了最先进的结果。为此对hrnet算法进行改进，使网络有效提取图像中的姿态信息。

技术实现思路

1、本专利技术的目的是针对现有人体姿态估计技术的不足，而提供一种基于可变形卷积编码网络和特征区域关注的人体姿态估计方法。这种方法能自适应获取图像中目标区域的特征信息，同时，能更加精确的关注目标区域上的空间与通道特征信息，有利于减少姿态点的错误检测，从而增加姿态检测的准确率。

2、实现本专利技术目的的技术方案是：

3、一种基于可变形卷积编码网络和特征区域关注的人体姿态估计方法，包括如下步骤:

4、1)提取输入图像序列的视觉特征f1、f2、f3：首先将图像序列xt输入到视觉特征提取网络hrnet中，提取不同阶段的视觉特征f1、f2、f3，所述的过程公式如下：

5、fi＝hrnet(xt),i＝1,2,3

6、2)特征序列融合的增强全局视觉特征st：多个阶段不同粗细的视觉特征f1、f2、f3，使用特征拼接concat进行特征融合，再使用卷积编码网络netc把不同阶段的视觉特征进行重构编码融合，获得能够更准确地检测和识别图像中目标区域边界的一个具有不同阶段视觉特征和更加具有细粒度的全局视觉特征st，所述的过程公式如下：

7、st＝netc(concat(f1,f2,f3))

8、3)自适应区域特征mt：使用全局视觉特征st通过一个卷积模块netconv计算偏移量的可训练参数woffset和惩罚权值参数wmask，把获得的全局视觉特征st，woffset，wmask输入到可变形卷积网络netdef，使用可变形卷积运算，实现目标特征区域的特征提取，得到自适应区域特征mt，所述的过程公式如下：

9、woffset＝netconv(st)

10、wmask＝netconv(st)

11、mt＝netdef(st,woffset,wmask)

12、4)通道和空间的特征信息表示mt'：采用视觉特征的通道与空间注意力模块netcs挖掘自适应区域特征mt的通道和空间的特征信息，把自适应区域关注特征mt通过通道注意力子模块netca和空间注意力子模块netsa进行通道维度和空间维度信息挖掘和特征提取，获得具有通道和空间的特征信息表示mt'，所述的过程公式如下：

13、netca(mt)＝wch×mt

14、netsa(netca(mt))＝wsp×netca(mt)

15、mt'＝netcs(mt)

16、其中，wch表示通道权重，wsp表示空间权重；

17、5)生成姿态点热力图ht：把具有通道和空间的特征信息表示mt'和视觉特征f3进行特征融合，得到增强表示ft'，通过检测模块neth获得姿态点热力图ht，所述的过程公式如下：

18、ft'＝f3+mt'

19、ht＝neth(ft')

20、步骤2)中所述的卷积编码网络netc具体为：

21、视觉特征f1、f2、f3进入卷积编码网络netc后，先通过使用特征拼接concat进行特征融合，然后再使用3×conv卷积模块进行视觉特征的重构编码，得到全局视觉特征st，所述的过程公式如下：

22、st＝wi*(concat(f1,f2,f3)

23、其中，wi为卷积运算的权重，卷积核大小3×3；

24、步骤3)中所述的可变形卷积网络netdef具体为：

25、全局视觉特征st进入可变形卷积网络netdef后，对输入特征st分为三条支路。其中一个分支通过一个1×conv卷积模块获得偏移量的可训练参数woffset，另一个分支通过一个1×conv卷积模块和sigmoid函数获得惩罚权值参数wmask；然后，把输入特征st，惩罚权值参数wmask，偏移量的可训练参数woffset进行一次可变形卷积运算，计算获得自适应区域特征mt；最后，可以根据模型精度需求重复这个步骤来增加模型的性能，所述的过程公式如下：

26、woffset＝st*wi

27、

28、

29、其中，wi为卷积运算的权重，卷积核大小3×3，fdef可变形卷积函数；

30、步骤4)中所述的视觉特征的通道与空间注意力模块netcs具体为：

31、自适应区域特征mt进入视觉特征的通道与空间注意力模块netcs后，先后进入通道注意力子模块netca和空间注意力子模块netsa，得到通道权重wch，空间权重wsp，然后自适应区域特征mt通过与通道权重wch、空间权重wsp相乘，最后获得具有通道和空间的特征信息表示mt'，所述的过程公式如下：

32、wch＝σ(fln(favg(mt))+fln(fmax(mt)))

33、

34、

35、其中，σ表示sigmoid函数，wi卷积权值，卷积核大小为3×3，是矩阵乘法函数，favg、fmax分别为自适应全局平均池化和全局最大池化函数，fln是layernorm函数；

36、本技术方案的优点是：

37、(1)采用卷积编码网络模块与可变形卷积网络模块来对特征图的目标区域进行特征提取，获得一个自适应区域特征mt，能提升网络特征提取能力和模型的性能。

38、(2)采用视觉特征的通道与空间注意力模块，对特征图不同区域上的通道和空间特征信息进行减弱或增强，分挖掘目标特征区域中的空间和通道特征信息，能获得一个更加精确的通道和空间的特征信息表示mt'。

39、本技术方案能自适应获取图像中目标区域的特征信息，同时，能更加精确的关注目标区域上的空间与通道特征信息，有利于减少姿态点的错误检测，从而增加姿态检测的准确率。

本文档来自技高网...

【技术保护点】

1.一种基于可变形卷积编码网络和特征区域关注的人体姿态估计方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于可变形卷积编码网络和特征区域关注的人体姿态估计方法，其特征在于，步骤2)中所述的卷积编码网络Netc具体为：

3.根据权利要求1所述的一种基于可变形卷积编码网络和特征区域关注的人体姿态估计方法，其特征在于，步骤3)中所述的可变形卷积网络Netdef具体为：

4.根据权利要求1所述的一种基于可变形卷积编码网络和特征区域关注的人体姿态估计方法，其特征在于，步骤4)中所述的视觉特征的通道与空间注意力模块Netcs具体为：

【技术特征摘要】

1.一种基于可变形卷积编码网络和特征区域关注的人体姿态估计方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于可变形卷积编码网络和特征区域关注的人体姿态估计方法，其特征在于，步骤2)中所述的卷积编码网络netc具体为：

3.根据权利要求1所述的一种基于...

【专利技术属性】
技术研发人员：莫建文，姜贵昀，梁豪昌，
申请(专利权)人：桂林电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人