当前位置: 首页 > 专利查询>中山大学专利>正文

基于层次信息传递的图片人体动作识别方法技术

技术编号:20118988 阅读:26 留言:0更新日期:2019-01-16 12:16
本发明专利技术公开了一种基于层次信息传递的图片人体动作识别方法,于,包括下述步骤:S1、将人体分割为一个层次结构,该层次结构是自顶向下由粒度越来越细的局部身体区域构成,即将人体递归地分解为更小的身体部分;S2、构建层次传播网络,递归地对步骤S1中层次结构的信息进行传递与整合,从而得到最终的动作描述子;S3、将步骤S2得到的动作描述子与额外的全图信息结合,输入最后的全连接层进行分类,使用sigmoid函数来计算该置信度的概率分布,用二元交叉熵来计算分类损失。本发明专利技术定义了抽象的人体分割框架与分割规则,使得人体分割方案的选定更加灵活,降低单一性或者不合理性。

Human motion recognition based on hierarchical information transfer

The invention discloses a method of human motion recognition based on hierarchical information transmission, which includes the following steps: S1, dividing human body into a hierarchical structure, which is composed of local body regions with finer and finer granularity from top to bottom, i.e., dividing human body into smaller body parts recursively; S2, Constructing Hierarchical Communication network, recursively dividing human body into middle layers. The information of sub-structure is transferred and integrated to get the final action descriptor; S3, the action descriptor obtained by E 2 is combined with the additional full graph information, and the final full connection layer is input for classification. The probability distribution of the confidence is calculated by sigmoid function, and the classification loss is calculated by binary cross-entropy. The invention defines an abstract human body segmentation framework and rules, which makes the selection of human body segmentation scheme more flexible and reduces the singularity or irrationality.

【技术实现步骤摘要】
基于层次信息传递的图片人体动作识别方法
本专利技术属于计算机视觉
,具体涉及一种基于层次信息传递的图片人体动作识别方法。
技术介绍
图像动作识别是计算机视觉领域的一项基础且重要的研究,它要求模型识别图像中人体所进行的动作并给出动作的类别。图像动作识别有很多方面的应用,例如图像说明(ImageCaption)、群体行为识别(collectiveactivityrecognition)及人家人物交互识别(Human-objectInteraction)等等。图像动作识别也是视频动作分析的基础,通过将视频帧视为单个图像,可以将问题转化为图像的动作识别,从而在时间维度上进一步建模。已有的工作主要可以分为三类:基于人体姿态的图像动作识别、基于层次结构的图像动作识别以及基于物体检测的图像动作识别。1)基于人体姿态的图像动作识别:这一类方法的主要思路是捕捉图像中人体的姿态信息并进行编码,因为人体姿态常常隐含着大量动作的线索。Mallya在LearningModelsforActionsandPerson-objectInteractionswithTransfertoQuestionAnswering中利用深度卷积神经网络提取图像的特征矩阵,接着使用人体姿势估计(poseestimator)检测人体在图像中的边界框(boundingbox)。人体姿势估计算法用于检测人体关键点(例如某些关节点)在图像中的坐标位置,利用这些坐标位置即可计算出人体在图像中的边界框;若无特别提及,下文提到的人体姿势估计算法都是利用别人提供且训练好的模型。得到人体在图像上的边界框后,通过区域池化算法(RoIPooling),可以在特征矩阵上裁剪出边界框对应的特征区域,接着将该特征区域与原图的特征矩阵调整为相同的大小。此时特征区域包含了人体姿势的信息,而原图特征矩阵包含了人体周围的一些有用信息(例如发生交互的物体等)。为了将这两种信息进行融合,首先用两个卷积层对它们进行特征通道(channel)降维,接着在通道维度上对两者进行拼接,最后利用神经网络的分类层对拼接后的特征进行分类。2)基于层次结构的图像动作识别:这一类方法的主要思路是将人体分割为不同的局部区域(例如手臂、躯干等),通过利用每个局部区域所隐含的不同动作信息,将之结合成为最终的动作描述子进行分类。Zhao在SingleImageActionRecognitionUsingSemanticBodyPartActions中定义了一系列人体的局部区域,以及局部区域对应的动作类别列表;将人体局部区域提取出来后,对每个局部区域分别学习一个子网络,来计算该区域在对应的动作类别列表上的概率分布。利用这些训练好的子网络来提取局部区域的特征,并使用线性显著性分析(LinearDiscriminativeAnalysis)来挑选出最具判别效果的一些区域,将这些区域的特征向量进行连接,作为最后的动作描述子进行动作分类。3)基于层次结构的图像动作识别:这一类方法在传统的基于人体姿态的方法之上,加入了对互动物体的信息挖掘,常应用于人-物互动的场景。Gkioxari在ContextualActionRecognitionwithR*CNN中提出了R*CNN结构,利用选择搜索(SelectiveSearch)从图像中获取许多区域,这些区域具有相似的色彩、纹理、尺度等,且往往包含了物体。类似于Mallya的文章,R*CNN也利用了人体边界框;并且从获取到的区域中,筛选出若干合适的区域,使得该区域与人体边界框的重叠率满足某种预设的条件。类似于Mallya的文章,R*CNN采用卷积神经网络提取整个图像的特征矩阵,并利用区域池化算法从特征矩阵中裁剪出人体边界框及所选区域的特征区域,调整为相同的大小。不同于Mallya的模型的拼接方式,R*CNN分别将这两个特征区域输入到后续的神经网络分类层,获取对应的在所有动作类别上的概率分布,再对这两个概率分布进行对位取最大值的操作,作为最终的概率分布。在这种方法中,从选择搜索算法中筛选出来的区域,往往包含了人体进行互动的物体信息,从而对动作的识别有增进效果。相对于视频里的动作分析,静态图像的动作分析由于缺少时间维度上的动态线索,所以更具挑战性。上述方法都将人体看作一个整体,让深度模型去自动学习人体里的动作信息,这是十分困难的。同时,不同类别的动作可能会具有相似的姿态,例如骑单车与骑马,所以单纯对整个人体建模将会损失许多具有判别性质的局部信息。Zhao的方法对上述问题进行了优化,更多地利用了人体局部区域的信息。但是它存在一个不便利之处,它需要提前设置每个局部身体区域对应的动作列表,从而对每个身体区域学习一个子网络。由于人体动作空间十分庞大,设置动作列表是一个难以定义的行为,并且限制了该模型在实际中的应用。另一方面,Zhao的方法在对局部身体区域的信息进行融合的时候,所使用的方式比较浅层(将所有特征向量进行拼接)。这样的方式将不同身体区域当成了平行的、互相独立的单元,而忽略了它们之间的相互联系。由于神经网络具有生物相似性,从生物的角度出发,我们可以发现,一个动作其实是一个复杂的系统。在这个系统中,不同的局部身体区域包含着各自的局部上下文信息,这些信息具有层级属性(例如手掌和手臂的关系),并且相同层级的区域会发生大量的交互,将信息整合并传递至更高的层级。在这种自底向上的模式中,信息最终被整合为一个完整的动作描述子,描述整个人体的动作。显然,Zhao的方法缺少这方面的分析与建模。
技术实现思路
本专利技术的主要目的在于克服现有技术的缺点与不足,提供一种基于层次信息传递的图片人体动作识别方法,使得人体分割方案的选定更加灵活,降低单一性或者不合理性。为了达到上述目的,本专利技术采用以下技术方案:本专利技术一种基于层次信息传递的图片人体动作识别方法,包括下述步骤:S1、将人体分割为一个层次结构,该层次结构是自顶向下由粒度越来越细的局部身体区域构成,即将人体递归地分解为更小的身体部分;围绕这些身体部分,从图像中截取对应区域,利用卷积神经网络提取图像特征;S2、构建层次传播网络,递归地对步骤S1中层次结构的特征信息进行传递与整合,从而得到最终的动作描述子;S3、将步骤S2得到的动作描述子与额外的全图信息结合,输入最后的全连接层进行分类。作为优选的技术方案,所述步骤S1具体为:将该人体层次分割标记为A={Hi},i=1,2,…,I,I是该人体层次分割的总层数,Hi表示第i层里身体部分的集合;由此可见,H1包含最大的身体部分,因此也是层次人体分割A的根结点;Hi里的每个节点可被分解为更小的部分,由此构成Hi+1里的结点;因此HI包含最小的身体部分。作为优选的技术方案,步骤S2具体为:HI中结点的信息传递到HI-1中对应的父节点,形成位于该父节点位置的集成信息,这些集成信息又被传递至HI-2中对应的父节点上,在这种递归模式下,底层的信息最终被传播并集成到H1的根结点上,形成最终的动作描述子。作为优选的技术方案,将Hi里的第j个结点标记为xij,将传递并集成于xij的信息标记为b(xij),则有:其中xi+1,k表示Hi+1的第k个结点,Sij用于保证Hi+1中结点的信息只传递给对应的父节点,即,k∈Sij本文档来自技高网
...

【技术保护点】
1.一种基于层次信息传递的图片人体动作识别方法,其特征在于,包括下述步骤:S1、将人体分割为一个层次结构,该层次结构是自顶向下由粒度越来越细的局部身体区域构成,即将人体递归地分解为更小的身体部分;围绕这些身体部分,从图像中截取对应区域,利用卷积神经网络提取图像特征;S2、构建层次传播网络,递归地对步骤S1中层次结构的特征信息进行传递与整合,从而得到最终的动作描述子;S3、将步骤S2得到的动作描述子与额外的全图信息结合,输入最后的全连接层进行分类。

【技术特征摘要】
1.一种基于层次信息传递的图片人体动作识别方法,其特征在于,包括下述步骤:S1、将人体分割为一个层次结构,该层次结构是自顶向下由粒度越来越细的局部身体区域构成,即将人体递归地分解为更小的身体部分;围绕这些身体部分,从图像中截取对应区域,利用卷积神经网络提取图像特征;S2、构建层次传播网络,递归地对步骤S1中层次结构的特征信息进行传递与整合,从而得到最终的动作描述子;S3、将步骤S2得到的动作描述子与额外的全图信息结合,输入最后的全连接层进行分类。2.根据权利要求1所述基于层次信息传递的图片人体动作识别方法,其特征在于,所述步骤S1具体为:将该人体层次分割标记为A={Hi},i=1,2,...,I,I是该人体层次分割的总层数,Hi表示第i层里身体部分的集合;由此可见,H1包含最大的身体部分,因此也是层次人体分割A的根结点;Hi里的每个节点可被分解为更小的部分,由此构成Hi+1里的结点;因此HI包含最小的身体部分。3.根据权利要求2所述基于层次信息传递的图片人体动作识别方法,其特征在于,步骤S2具体为:HI中结点的信息传递到HI-1中对应的父节点,形成位于该父节点位置的集成信息,这些集成信息又被传递至HI-2中对应的父节点上,在这种递归模式下,底层的信息最终被传播并集成到H1的根结点上,形成最终的动作描述子。4.根据权利要求3所述基于层次信息传递的图片人体动作识别方法,其特征在于,将Hi里的第j个结点标记为xij,将传递并集成于xij的信...

【专利技术属性】
技术研发人员:胡建芳朱海昇谢佳锋郑伟诗
申请(专利权)人:中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1