基于深度学习的多人人体姿态估计算法制造技术

技术编号:26505901 阅读:49 留言:0更新日期:2020-11-27 15:33
本发明专利技术提出一种基于深度学习的人体姿态估计算法,算法流程包括:所述的模型输入是将包含多人人体姿态的图像或者视频文件传入建好的模型中,对输入的图像和视频使用50层的ResNet网络提取多人肢体和关节点图像特征,使用卷积姿态机进行检测,检测到的关节点使用高斯函数选取最佳关节点的heat map,肢体生成是将得到的关节点使用部件亲和力场理论将关节点对进行匹配,得到人体姿态所需的所有肢体种类和关节点的集合,姿态生成是使用匈牙利算法和人体肢体框架对肢体种类和关节点的集合进行匹配,通过整个流程完成图像中的多人姿态估计。本发明专利技术可以应用在救援机器人平台上在陆地沙尘、湿地和狭小空间等复杂环境中对待救援的多人人体姿态进行准确高效的估计。

【技术实现步骤摘要】
基于深度学习的多人人体姿态估计算法
本专利技术属于复杂环境下的多人人体图像处理
,尤其是涉及一种基于深度学习的多人人体姿态估计算法。
技术介绍
室外陆地环境下的救援是人类救援的主要内容之一,现有的传统救援方式面对沙尘、湿地和狭小空间等陆地复杂环境时有可能无法保证及时、准确地到达现场展开救援,为救援任务增加了很多不稳定性因素,同时在搜救过程中可能出现的二次灾难也极大地威胁了相关人员的安全。为了弥补现有搜救系统设备不能覆盖陆地复杂地形的缺陷,研制可满足多搜救地形条件下便携、高适应性地面机器人系统十分必要。救援机器人的主要任务是快速找到受伤人员的姿态信息,为进一步采取救援措施做准备。受伤人员的图像信息具有内容丰富、获取速度容易和快速的特点,使得机器视觉(ComputerVision,CV)技术在陆地救援机器人中十分常见。在视觉搜寻过程中涉及到机器视觉的图像分类、目标检测、目标位姿判断与估计等多个信息的加工和处理内容。在实际的救援过程中,受伤人员的视觉信息容易受到室外恶劣环境的影响,尤其是受到图像背景和受伤人员姿态(单人或者多人肢体存在遮挡)的干扰难以获取有效的图像,导致姿态估计解不唯一,不能准确、稳定的对伤员的姿态估计。为了解决机器视觉如何在复杂环境下准确找出受伤人员,开发可以有效抵抗室外环境的干扰,提高受伤人员姿态估计的效率,并有一定鲁棒性的多人人体姿态估计模型对于当前救援机器人的发展具有重要的意义。
技术实现思路
有鉴于此,本专利技术旨在提出一种基于深度学习的多人人体姿态估计算法,以解决上述背景技术中提到的问题。为达到上述目的,本专利技术的技术方案是这样实现的:一种基于深度学习的多人人体姿态估计算法将图像或者视频文件传入模型中,然后对输入的图像和视频使用50层的ResNet网络提取多人肢体和关节点图像特征,使用卷积姿态机(ConvolutionalPoseMachines,CPM)对关节点检测,检测到的关节点使用高斯函数选取最佳关节点的heatmap,将得到的关节点使用部件亲和力场理论(PAFs)进行关节点对到肢体的匹配,得到人体姿态所需的所有肢体种类和关节点的集合,再使用匈牙利算法和人体肢体框架对肢体种类和关节点的集合进行匹配得到完整的人体姿态估计,最后完成图像中的多人姿态估计。进一步的,所述模型输入具体包括1000*1000像素大小以内的RGB彩色图像或包含多人图像的视频文件,文件格式为MP4格式。进一步的,所述特征提取网络由50层ResNet网络组成。ResNet网络的核心之一是引入了深层瓶颈结构(DeeperBottleneckArchitectures),原理是在一个比较浅的网络(ShallowNet)后面再加上几个恒等映射层(Identitymapping,即y=x,输出等于输入),来增加网络的深度,提高网络的非线性能力,同时恒等映射并不能引起误差增加,即更深的网络不应该带来训练集上误差的上升。残差网络的出现成功解决了常规神经网络中经常出现的:如果离输入层太远,残差传回来的导数值太小,导致调整值为零接近失真;每一层网络都需要学习一个新的输出函数f(x),当网络深度大幅度增加时,输出函数的数量会导致计算压力很大等问题。将网络的原始输入从旁路直接输入到网络更深的层中增加网络的残差,弥补残差消失现象,并且残差网络每层训练时每次只要相对于原数据,学习一个残差即可,而不是直接映射f(x)。常规的卷积神经网络,一次性抽出所有的信息,会增加梯度消失的风险,而残差网络只学习残差即可,计算时分为两条路径,第一条直接向下传递的网络:试图从x中直接学习残差F(x);第二条捷径网络:输入x。图像输入x,需要拟合的结果(输出)为H(x)。根据残差模块结构将输出结果差分为x+y,即H(x)=x+y,再令y=F(x),即y也是由x拟合而来,然后将得到的残差和x相加在一起得到该层的输出结果,即映射值H(X)=F(x)+x与输入x作差就得到所需残差,所以残差结构实际上只需要拟合F(x)就可以,计算公式为(1)所示。进一步的,在特征检测过程中,用S*来表示置信度图(confidencemaps)对图像中特定关键点的2D检测位置,例如,如果图像中只有一个人且关节点可见,则每个置信度图应存在单个峰值;若图像中有k个人,其中该关节点可见的有j个,比如j个脖子,则应该有j个峰值。将模型第一步得到特征点输入姿态卷积机网络中进行关节点检测,得到一批潜在的关节点置信图,再将潜在关节点Xj,k和真实关节点p点使用公式(2)计算得到最佳关节点。其中,σ表示峰值蔓延程度,p为该点处的图像坐标值。将得到的集合通过公式(3.3)获得最后输出的预测置信图。进一步的,通过关节点检测的置信图可以得到图像中的关节点,网络模型使用PartAffinityFields将关键点连接起来。PartAffinityFields(PAFs)是OpenPose模型的核心内容,它是指在肢体区域内保存的位置和方向信息。PAFs又分为单人PAFs和多人PAFs。进一步的,在单人检测中每个肢体关节点都指向别的肢体,每种肢体都有一个相应的AffinityField连接与它相关的身体部位。令Xj1,k和Xj2,k分别表示关节点j1和j2的坐标,向量表示由这两个关节点组成的第K个人的一个肢体C,如图所示当点P在这个肢体上面时,只有从点j1指向j2时,向量才为单位矢量;其他点都是零向量,判断条件如公式(4)和(5)所示。在肢体C上的点P都满足公式(6)和(7)。其中L表示肢体的长度,V是垂直于单位向量的矢量,σl指肢体宽度。当一张图中有多个肢体C重叠在一起时需要对向量求平均值,如公式(8)所示。其中nc(p)表示P点处非0向量的个数。检测关节点组成的关联点对时通过计算关联点对组成的线段上面PAF的线积分,来筛选适合于实际的真实关节点对和肢体。积分公式如公式(9)和(10)所示。p(u)=(1-u)dj1+udj2(10)其中p(u)是两个关节点之间的内插的位置。进一步的,在多人检测中,对于检测出来的置信图进行非极大值抑制后,获得这些关节点的位置离散点候选集合,在多人的图像中,需要将这些候选点匹配到不同的人身上,会有多个解,使用匈牙利算法和人体肢体框架共同作用得出多人姿态解。进一步的,匈牙利算法是指假设人体肢体部件和关节点设为G,G=(V,E)是一个无向图。图的顶点集V可以分割为两个互不相交的子集X和Y(子集内部没有边),图中任何一条边的两个端点都分属于不同的子集,则称图G为二分图。在匹配的过程中需要保证子集X和Y中的端点尽可能多的被一对一无重复相互匹配,如果出现|V1|≤|V2|(即子集1中需要匹配的端点数小于子集2),且|M|=|V1|,这是称匹配过程为完全匹配,当|V1|=|V2|时称为完美的匹配。进一步的,为了帮助匈牙利算法对图中一部分不容易匹配的肢体对快速匹配,本文引入人体肢体框架模型,其中点本文档来自技高网...

【技术保护点】
1.一种基于深度学习的多人人体姿态估计模型,其特征在于:将图像输入到网络中,经过特征提取网络的处理,得到多人人体姿态估计特征,然后再将特征输入到多人人体肢体和关节点匹配网路中实现多人人体姿态的估计。/n

【技术特征摘要】
1.一种基于深度学习的多人人体姿态估计模型,其特征在于:将图像输入到网络中,经过特征提取网络的处理,得到多人人体姿态估计特征,然后再将特征输入到多人人体肢体和关节点匹配网路中实现多人人体姿态的估计。


2.根据权利要求1所述的一种基于深度学习的多人人体姿态估计模型,其...

【专利技术属性】
技术研发人员:周旺发邓三鹏祁宇明马瑞军权利红王帅王文邓茜
申请(专利权)人:天津博诺智创机器人技术有限公司天津职业技术师范大学中国职业培训指导教师进修中心安徽博皖机器人有限公司湖北博诺机器人有限公司
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1