基于生成对抗学习和图神经网络的人体姿势关键点识别方法技术

技术编号:26891601 阅读:21 留言:0更新日期:2020-12-29 16:10
本发明专利技术涉及一种生成对抗学习和图神经网络的人体姿势关键点识别方法,属于人体姿势关键点识别领域。一方面采用卷积网络作为生成器提取图片特征,然后结合反卷积学习其中的人体姿势关键点,另一方面采用图神经网络作为判别器对学习生成的人体姿势关键点进行正误判别,促使生成器加强对错误的关键点再学习,以适应更复杂环境下的人体姿势关键点识别。

【技术实现步骤摘要】
基于生成对抗学习和图神经网络的人体姿势关键点识别方法
本专利技术属于人体姿势关键点识别领域,具体是提出一种结合生成对抗学习和图神经网络的人体姿势关键点识别方法和系统。整个系统一方面采用resnet卷积网络作为生成器提取图片特征,然后结合反卷积学习其中的人体姿势关键点,另一方面采用图神经网络作为判别器对学习生成的人体姿势关键点进行正误判别,促使生成器加强对错误的关键点再学习,以适应更复杂环境下的人体姿势关键点识别。
技术介绍
人体姿态关键点识别是计算机视觉领域的基本研究方向之一,在传统算法遭遇瓶颈之时,卷积神经网络的再次崛起和快速迭代为解决这一问题带来了新工具,最近几年,尽管人体姿势关键点识别任务在使用深度卷积神经网络的情况下已经取得了极大的进步,但是由于光照、遮挡和变化大的身体姿势等导致关键点不可见的问题,2D人体姿势关键点识别仍然是一项具有挑战性和重要意义的任务。人体姿势关键点识别任务广泛的应用于行为动作识别、人机交互和游戏动画等相关任务中,该任务的主要难点是识别手臂的肘和腕以及腿部的踝和膝盖。人体姿势识别任务中人体不同关节部分的相关空间语义信息起到非常关键的作用,考虑到人体各个关节本身部分就可以看作是一个连接的图结构,本专利技术采用图神经网络作为生成对抗学习中的判别器对人体各个关节部分的关键点识别的正误判别。
技术实现思路
要解决的技术问题为了避免现有技术的不足之处,本专利技术提出一种基于生成对抗学习和图神经网络的人体姿势关键点识别方法。技术方案一种基于生成对抗学习和图神经网络的人体姿势关键点识别方法,其特征在于步骤如下:步骤1:输入为一张含有人体姿势的图片,大小为3*256*256,表示为V∈RC×W×H,其中C表示的是图像channel的大小,W和H是图像的宽和高,然后经过5层包含残差的卷积神经网络,得到256个8*8大小的特征图,接着将此256个8*8大小的特征图经过三层反卷积层放大和一层卷积神经网络得到相对应的人体姿势预测关节点的节点信息,即16个64*64大小的特征图;最后,提取每个64*64大小的特征图中的最大值作为人体关节点坐标,此处人体关节点坐标总共是16个;步骤2:将步骤1中得到的16个64*64大小的特征图作为判别器的输入,判别器用来判断生成器生成的当前预测节点是否符合人为先验是否合理,如果合理即为1,否则为0;具体过程为:通过对输入的16个64*64大小特征图后两维进行拉伸得到16个长度为64*64的向量,经过全连接层的处理得到16个长度为256的向量,分别对每个关节点过门控图神经网络GGNN来得到更新后的节点信息,最后通过全连接层处理得到16个一维向量,即人体姿势关键点。步骤2中所述的门控图神经网络GGNN的更新过程:第一,依靠自建的人体姿势图结构和公式(1),得到每个节点和相邻节点构成的边邻域信息j;第二,结合每个节点(t-1)时刻的状态信息i和边邻域信息j经过公式(3)得到更新后的节点信息:公式(1)中n表示某个关节点,M是第n个关节点的邻域关节点集合,m表示其中某个邻域节点,t是当前更新时步,i为该节点状态信息,j为每个节点和相邻节点构成的边邻域信息,F和GRU分别表示从相邻节点收集信息和更新节点隐藏状态信息的函数,F可以表示为公式(2),GRU可以用公式(4)-(7)表示;门控机制GRU的具体计算公式如下:其中,W和U都是第n个关键点的卷积权重,b是卷积偏置;sigmoid和tanh为常用的激活函数。有益效果本专利技术提出的一种基于生成对抗学习和图神经网络的人体姿势关键点识别方法,可以得到更稳定更精确的人体姿势关键点,基于图神经网络的结构充分利用了人体姿势本身内在的语义空间结构关系,结合生成对抗式的学习可以应对更多复杂的环境和变换大的姿势,而在本专利技术应用时不需要判别器部分,仅仅使用生成器生成所需的结果即可,如此使得网络更简单高效,运行速度更快。附图说明图1图结构图2生成器结构图图3判别器结构图具体实施方式现结合实施例、附图对本专利技术作进一步描述:本专利技术的技术方案主要分为两个模块:第一个模块是生成器(如图2),第二个模块是判别器(如图3)。生成器结构:输入为3*256*256的图像,表示为V∈RC×W×H,此处的C表示的是图像channel的大小,W和H是图像的宽和高,经过多层卷积神经网络得到256*8*8的特征图(featuremap),此处主要是提取图片特征信息的主干网络。将此256*8*8大小的特征图经过三层反卷积层(Deconv)放大得到256*64*64的特征图,最后通过一层输出卷积得到相对应的预测关节点的节点信息,即16*64*64的特征图,此处的16为人体关节点数量。判别器结构:判别器的输入是生成器输出的16*64*64特征图,首先将64*64的两维特征转换为一维特征,经过一层全连接神经网络变为16*256的特征大小。通过人体关节自身的空间语义信息构建图结构(如图2),利用图结构的关系对于每个节点加上相邻节点的特征信息,得到的仍然是16*256的特征。最后通过一层全连接神经网络得到16*1的一个向量特征。图结构的构建:利用人体姿势本身的依赖关系构建图结构(如图1所示),具体为:将人体姿势的16个关节点作为图结构中的节点,将人体姿势的每个关节点和相邻关节点的依赖关系作为图结构中节点和节点的连接。端到端的训练过程:在随机初始化所有参数后,按照传统的生成对抗网络一般训练过程交替训练生成器和判别器。具体来说,生成器训练3次,判别器训练1次。在训练判别器的过程中,我们把真实的标签作为判别器的输入,让判别器来学习这是真的。同时,本专利技术将生成器生成的预测结果作为判别器的输入,训练判别器来学习这是假的。在训练生成器的过程中,通过生成对抗学习直接优化生成器来欺骗判别器。换句话说,判别器将把生成器产生的预测结果视为真实的结果。最后通过加权结合两部分的损失值生成对抗性的学习,用第二个模块辅助确保第一个模块有能力对各种复杂环境下的大姿势实现更稳定更精准的人体关键点定位。测试过程:在测试时,只需要用到生成器的输出作为最终结果即可,本身的判别器只用做训练部分来提高生成器的预测能力,测试部分不需要用到,很显然,本专利技术设计具有诸如速度快、模型结构简单、参数量少等多个优点。该人体姿势关键点识别方法有以下主要步骤:(1)生成器的训练:将一张图片通过生成器提取特征并输出得到相对应的预测关节点的节点信息。具体过程为:输入为一张含有人体姿势的图片,大小为3*256*256,表示为V∈RC×W×H,此处的C表示的是图像channel的大小,W和H是图像的宽和高,然后经过5层包含残差的卷积神经网络,得到256个8*8大小的特征图(featuremap),接着将此256个8*8大小的特征图经过三层反卷积层(Deconv)放大和一层卷积神经网络得到相对应的人本文档来自技高网...

【技术保护点】
1.一种基于生成对抗学习和图神经网络的人体姿势关键点识别方法,其特征在于步骤如下:/n步骤1:输入为一张含有人体姿势的图片,大小为3*256*256,表示为V∈R

【技术特征摘要】
1.一种基于生成对抗学习和图神经网络的人体姿势关键点识别方法,其特征在于步骤如下:
步骤1:输入为一张含有人体姿势的图片,大小为3*256*256,表示为V∈RC×W×H,其中C表示的是图像channel的大小,W和H是图像的宽和高,然后经过5层包含残差的卷积神经网络,得到256个8*8大小的特征图,接着将此256个8*8大小的特征图经过三层反卷积层放大和一层卷积神经网络得到相对应的人体姿势预测关节点的节点信息,即16个64*64大小的特征图;最后,提取每个64*64大小的特征图中的最大值作为人体关节点坐标,此处人体关节点坐标总共是16个;
步骤2:将步骤1中得到的16个64*64大小的特征图作为判别器的输入,判别器用来判断生成器生成的当前预测节点是否符合人为先验是否合理,如果合理即为1,否则为0;具体过程为:通过对输入的16个64*64大小特征图后两维进行拉伸得到16个长度为64*64的向量,经过全连接层的处理得到16个长度为256的向量,分别对每个关节点过门控图神经网络GGNN来得到更新后的节点信息,最后通过全连接层处理得到16个一维向量,即...

【专利技术属性】
技术研发人员:王鹏田磊
申请(专利权)人:西北工业大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1