一种基于人体结构多尺度分割的行人属性识别方法、存储介质和终端技术

技术编号:28675165 阅读:13 留言:0更新日期:2021-06-02 02:51
本发明专利技术公开了基于人体结构多尺度分割的行人属性识别方法、存储介质和终端,方法包括以下步骤:得到输入的行人图像;获取行人图像的细节关键点和抽象人体区域;对行人图像的特征进行逐层提取;将提取的细节关键点与浅层特征进行结合,并将提取的抽象人体区域与深层特征进行结合,将结合后的数据和深层特征分别输入到区域引导模块得到多个预测向量;将多个预测向量进行融合,得到最终预测结果。本发明专利技术由于网络的深浅‑人体结构的粗细划分‑属性的高低级之间存在着对应的关系,因此在更浅的特征层上对更细的行人局部做特征学习,在更高的特征层上对划分更粗的行人局部进行特征学习,利用身体结构去指导行人属性识别,从而得到强大的行人属性表示。

【技术实现步骤摘要】
一种基于人体结构多尺度分割的行人属性识别方法、存储介质和终端
本专利技术涉及行人属性识别领域,尤其涉及基于人体结构多尺度分割的行人属性识别方法、存储介质和终端。
技术介绍
行人属性识别(PedestrianAttributeRecognition,PAR)从本质上而言,是属于目标检测范畴,即从图像或视频序列中提取描述场景中个体的人类可理解特征的语义特征。由于它们提供了关于人类的重要信息,这些系统已经被集成到许多现实世界的应用中,并与世界各地的许多技术相结合。由于不同的行人属性往往对应人体不同的位置,导致对应的特征提取比困难。例如发型和颜色,帽子等属性被看作是特定的低级属性,往往对应于图像的不同小区域;而一些属性是抽象的概念,如性别、取向和年龄,它们不对应于某些区域,这些属性被认为是高级属性。为了解决上述问题,现有的方法一部分倾向与寻找人体局部与属性之间的关联,这便导致PAR的准确率往往和人体部件分割的准确性有着较大关联。还有一部分倾向于寻找不同的语义层次与不同属性之间的关联,但很难找到一个更准确具体的描述各个属性与语义之间关系的模型。由于低级属性对应更小的人体局部区域,更小区域也更适合使用低层次的网络来寻找,高级属性反之,先前的方法都没有考虑到这种有关“属性等级-人体区域”之间的共同联系。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供基于人体结构多尺度分割的行人属性识别方法、存储介质和终端。本专利技术的目的是通过以下技术方案来实现的:本专利技术的第一方面,提供基于人体结构多尺度分割的行人属性识别方法,包括以下步骤:得到输入的行人图像;获取行人图像的细节关键点和抽象人体区域;对行人图像的特征进行逐层提取;将提取的细节关键点与浅层特征进行结合,并将提取的抽象人体区域与深层特征进行结合,将结合后的数据和深层特征分别输入到区域引导模块得到多个预测向量;将多个预测向量进行融合,得到最终预测结果。进一步地,所述获取行人图像的细节关键点和抽象人体区域包括:利用行人姿态估计模型分别获得所述行人图像的先验人体姿态关键点P1、多个人体部位区域P2、行人区域P3。进一步地,所述行人姿态估计模型得到人体姿态关键点坐标K=[k1,k2,…,kM],M为关键点总数;所述先验人体姿态关键点P1=[K1,K2,…,KM],其中K1=[k1]、K2=[k2],以此类推;多个人体部位区域P2=[Khead,Kupper,Klower],其中Khead、Kupper、Klower分别包含表示人体头、上身、下身的关键点坐标;行人区域P3=[Kbody],其中Kbody包含框出整个人体的四个关键点。进一步地,所述对行人图像的特征进行逐层提取包括:利用层次特征提取模块,至少三层对行人图像的特征进行逐层提取,得到特征F1、特征F2、特征F3。进一步地,所述层次特征提取模块为以Resnet50为基础的主干网,包括顺次连接的五个卷积层conv1、conv2、conv3、conv4和conv5,其中特征F1由卷积层conv2输出,特征F2由conv3输出,特征F3由conv4输出。进一步地,所述将提取的细节关键点与浅层特征进行结合,并将提取的抽象人体区域与深层特征进行结合,将结合后的数据和深层特征分别输入到区域引导模块得到多个预测向量,包括:将先验人体姿态关键点P1和特征F1进行对应,将多个人体部位区域P2和特征F2进行对应,将行人区域P3和特征F3进行对应,对应后分别输入区域引导模块后得到预测向量同时将特征F3输入至输入区域引导模块后得到预测向量进一步地,所述区域引导模块具体为:将Fi和Pi(i=1,2,3)输入区域引导模块,Fi的尺寸为Wi×Hi×Di;对Pi中每一个Kj,利用空间变换器网络在Fi上进行区域提取,得到尺寸为W′i×H′i×Di的区域特征;对于三层的每层区域,使用独立的神经网络进行特征学习,使用Di维度的全连接层FC来学习每个区域的特征;将每个Pi对应的区域学习到的特征融合得到集成特征表示,得到基于M个区域的尺度为M×Di的集成表示;基于上述集成特征表示,分别使用具有L输出量的FC作为分类器对属性进行分类,预测结果记为L为需要分类的属性个数,对于特征F3也使用具有L输出量的FC作为分类器对属性进行分类,预测结果记为进一步地,所述将多个预测向量进行融合,得到最终预测结果,包括:利用结果对比模块将预测向量进行融合得到预测结果其中通过选择每一属性的预测结果最大值而得到。本专利技术的第二方面,提供一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行所述的基于人体结构多尺度分割的行人属性识别方法的步骤。本专利技术的第三方面,提供一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行所述的基于人体结构多尺度分割的行人属性识别方法的步骤。本专利技术的有益效果是:(1)在本专利技术的一示例性实施例中,由于网络的深浅-人体结构的粗细划分-属性的高低级之间存在着对应的关系(例如更浅层的网络(对于“对行人图像的特征进行逐层提取”的网络)更容易学习细节的特征,比如更细的人体结构,更低级的属性;更深层的网络更能够学习的抽象的特征,比如整个人体、更高级的属性),因此在该示例性实施例中考虑到这种对应关系,在更浅的特征层上对更细的行人局部做特征学习,在更高的特征层上对划分更粗的行人局部进行特征学习,利用身体结构去指导行人属性识别,从而得到强大的行人属性表示。(2)在本专利技术的又一示例性实施例中,考虑到模型已经利用了很多的人体信息来指导神经网络的学习,因此加上conv5得到的特征图过小对准确率的提高并不明显,反而会较多的增加训练的时长;而conv1的时候,网络提取到的特征信息还不够多。因此,经过综合考虑,选择conv2-conv4进行提取。(3)在本专利技术的又一示例性实施例中,除了三部分结合的内容进行引导,还包括把特征F3的部分进行引导,得到预测向量即在主干网络的最后直接输出一个预测结果,是对整幅图像进行预测,可以将背景信息也考虑到。附图说明图1为本专利技术一示例性实施例提供的方法流程图;图2为本专利技术一示例性实施例提供的结构示意图;图3为本专利技术一示例性实施例提供的P1~P3示意图;图4为本专利技术一实例性实施例提供的区域引导模块结构示意图。具体实施方式下面结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在本专利技术的描述中,需要说明的是,属于“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方向或位置关系为基于附图所述的方向或位置关本文档来自技高网...

【技术保护点】
1.基于人体结构多尺度分割的行人属性识别方法,其特征在于:包括以下步骤:/n得到输入的行人图像;/n获取行人图像的细节关键点和抽象人体区域;/n对行人图像的特征进行逐层提取;/n将提取的细节关键点与浅层特征进行结合,并将提取的抽象人体区域与深层特征进行结合,将结合后的数据和深层特征分别输入到区域引导模块得到多个预测向量;/n将多个预测向量进行融合,得到最终预测结果。/n

【技术特征摘要】
1.基于人体结构多尺度分割的行人属性识别方法,其特征在于:包括以下步骤:
得到输入的行人图像;
获取行人图像的细节关键点和抽象人体区域;
对行人图像的特征进行逐层提取;
将提取的细节关键点与浅层特征进行结合,并将提取的抽象人体区域与深层特征进行结合,将结合后的数据和深层特征分别输入到区域引导模块得到多个预测向量;
将多个预测向量进行融合,得到最终预测结果。


2.根据权利要求1所述的基于人体结构多尺度分割的行人属性识别方法,其特征在于:所述获取行人图像的细节关键点和抽象人体区域包括:
利用行人姿态估计模型分别获得所述行人图像的先验人体姿态关键点P1、多个人体部位区域P2、行人区域P3。


3.根据权利要求2所述的基于人体结构多尺度分割的行人属性识别方法,其特征在于:所述行人姿态估计模型得到人体姿态关键点坐标K=[k1,k2,…,kM],M为关键点总数;所述先验人体姿态关键点P1=[K1,K2,…,KM],其中K1=[k1]、K2=[k2],以此类推;多个人体部位区域P2=[Khead,Kupper,Klower],其中Khead、Kupper、Klower分别包含表示人体头、上身、下身的关键点坐标;行人区域P3=[Kbody],其中Kbody包含框出整个人体的四个关键点。


4.根据权利要求2所述的基于人体结构多尺度分割的行人属性识别方法,其特征在于:所述对行人图像的特征进行逐层提取包括:
利用层次特征提取模块,至少三层对行人图像的特征进行逐层提取,得到特征F1、特征F2、特征F3。


5.根据权利要求4所述的基于人体结构多尺度分割的行人属性识别方法,其特征在于:所述层次特征提取模块为以Resnet50为基础的主干网,包括顺次连接的五个卷积层conv1、conv2、conv3、conv4和conv5,其中特征F1由卷积层conv2输出,特征F2由conv3输出,特征F3由conv4输出。


6.根据权利要求4所述的基于人体结构多尺...

【专利技术属性】
技术研发人员:匡平付蓉
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1