本发明专利技术提出一种基于教室场景的多人关键点检测网络和方法。网络包括人体目标检测模块、人体目标区域融合模块、人体目标区域特征提取模块和关键点检测与集成模块。本发明专利技术利用多个stage进行高效特征融合,基于多尺度特征融合策略对OpenPose和YoloV3网络分别做了改进。本发明专利技术提出基于空洞卷积的Inception模块代替OpenPose的特征提取网络,能获取更大感受野的局部信息,将密集连接模块融入YOLOV3的浅层网络中,使浅层与高层特征进行特征融合,并用GIOU损失函数代替YOLO v3的边界框回归损失函数来提升检测精度,再通过人体预测框融合策略进行区域融合输出检测区域。将这两个网络级联为一个框架进行关键点检测,有效改善了教室后排小尺度学生定位难和误检关键点的问题。
【技术实现步骤摘要】
一种基于教室场景的多人关键点检测网络和方法
本专利技术涉及一种人体关键点检测,特别是一种基于教室场景的多人关键点检测网络和方法。
技术介绍
人体关键点检测,又称人体姿态估计,是计算机视觉中一个很基础的问题,是人体动作识别、行为分析、人机交互等的前置任务,可以理解为对人体的关键点,如头,手肘,手腕,膝盖等位置的估计。人体姿态估计又可分为2D/3D关键点检测、单人/多人关键点检测,在完成关键点检测之后还能进行关键点的跟踪,也被称为人体姿态跟踪。人体关键点检测也面临了很多挑战,比如灵活、小而几乎看不见的关节、遮挡、衣服和光线变化都为人体关键点检测增加了难度。本专利技术主要涉及2D多人关键点检测,目的在于检测课堂上的学生的关键点,用于后续进行姿态识别。给定一张RGB图像,精确地定位出多个人体的关键点,并确定其隶属的人体。目前对于多人关键点检测,有两个主流方法:(1)Top-down:先进行目标(人体)检测,再对每个检测到的人体进行单人姿态估计的两阶段方法(如CPM、StackedHourglass、HRnet等网络)。自上而下的方法必然会受到目标检测任务的约束,因为基于boundingbox的单人姿态估计,在面对遮挡问题和小尺度人体目标时容易受挫。(2)Bottom-up:先检测所有人的关键点,再用算法将这些关键点关联匹配到相关人体(如OpenPose的动态规划,AssociativeEmbedding的tag匹配,PersonLab的贪婪算法等)。遮挡问题仍然是个挑战,同时由于图像上人体尺度大小不一,关键点特征的提取难度大于Top-down方法。一般来说,Top-down方法精度更高但实时性能较差,Bottom-up方法精度不如Top-down高,但速度更快,实时性能较好。
技术实现思路
本专利技术的技术解决问题是:对教室场景下的学生进行姿态估计,针对教室场景下的遮挡、后排小尺寸目标的定位检测困难以及在非人区域误检出关键点的问题,本专利技术提供一种基于教室场景的多人关键点检测网络和方法,其网络是一种Top-down和Bottom-up相结合的多人关键点检测网络。为达到上述目的,本专利技术采用如下技术方案:一种基于教室场景的多人关键点检测网络,包括人体目标区域检测模块、人体目标区域融合模块、人体目标区域特征提取模块、关键点检测与集成模块;所述人体目标区域检测模块依次连接人体目标区域融合模块、人体目标区域特征提取模块和关键点检测与集成模块。所述人体目标区域检测模块,用于检测图片中每个学生的区域。所述人体目标区域融合模块,用于将所述人体目标区域检测模块中检测出的学生的区域进行融合。所述人体目标区域特征提取模块,用于对所述人体目标区域融合模块中融合后的学生区域进行特征提取。所述关键点检测与集成模块,用于对存在学生的区域进行关键点置信度和部位关系亲和度的预测,再进行肢体匹配,得到最终的多人关键点检测结果。所述人体目标区域检测模块是在浅层网络引入了密集连接模块的YOLOV3网络,用密集连接卷积对输入图像提取特征,并且使用GIOU损失函数代替YOLOV3的边界框回归损失函数,使浅层特征和深层特征可以更好更快地进行融合,提升检测精度,改善对教室后排低分辨率学生检测难的问题。所述人体目标区域融合模块,将由YOLO-DesNet检测出的人体框,先对人体框进行放大,确保放大后的人体预测框边界不超过原始图像的边界。对任意两个人体预测框进行融合时,先判断这两个预测框是否存在交集,若存在交集,根据借鉴IOU的思想定义IOUconcat,当两个人体预测框的IOUconcat大于0.5时,就将这两个区域进行融合。所述人体目标区域特征提取模块,是基于空洞卷积的Inception网络,通过引入不同尺度的空洞卷积,获得更大感受野的局部信息,提高网络对局部信息的感知能力。对输入的图片首先使用1*1标准卷积跨通道组织信息,提高网络的表达能力,并且提供更多的非线性变换。然后使用1*1和3*3的标准卷积核对输出的特征进行二次卷积,增加网络对不同人体尺度的适应性。接着,使用不同扩张率的空卷积再次前一步的输出特征进行卷积,获取更大感受野的局部信息,提升对小尺寸人体目标的检测性能。再将不同分支输出的卷积特征按照像素点级别相加,并使用1*1的标准卷积对相加之后的特征再次卷积,消除由于使用不同大小卷积核的卷积造成的混叠效应。最后将输出的融合卷积特征通过ReLu函数进行非线性激活。所述关键点检测与集成模块是一个级联的multi-stage的网络,同时对人体关键点置信图和部位关系图进行预测,并且在每一个stage后都设置了损失函数,最终输出关键点置信度图和部位关系图并进行肢体匹配,得到最后的多人关键点检测结果。一种基于教室场景的多人关键点检测方法,具体操作步骤如下:步骤1:人体目标区域检测,检测图片中每个学生的区域,这里的学生目标检测不需要太过精细。步骤2:人体目标区域融合,将所述人体目标区域检测模块中粗略检测出的学生的区域进行融合。步骤3:人体目标区域特征提取,对人体目标区域融合模块融合后的学生区域进行特征提取。步骤4:关键点检测与集成模块,对存在学生的区域进行关键点置信度和部位关系亲和度的预测,再进行肢体匹配,得到最终的多人关键点检测结果。所述步骤1的具体步骤为:步骤1.1:对输入图像进行1次密集连接卷积和3次残差卷积提取特征,可更好地实现网络多层特征的复用和融合;步骤1.2:通过3组残差模块加深特征提取网络的结构,提高模型对图像深层特征的选择和提取能力;步骤1.3:使用多尺度金字塔结构,通过2次上采样并与网络上层中相同尺寸的特征图进行张量拼接,进行3次回归预测,实现对不同尺寸目标的多尺度检测;步骤1.4:使用GIOU损失函数代替YOLOV3的边界框回归损失函数;步骤1.5:目标置信度损失、目标类别损失以及目标边界框回归损失同时参加反向传播,设置迭代次数为50000,学习率为0.0001,权重衰减为0.0004,帮助网络完成训练。所述步骤2的具体步骤为:步骤2.1:先对步骤1中检测到的人体框进行放大,并且保证放大后的人体框边界不超过图像的边界。步骤2.2:先通过人体预测框的坐标关系,判断任意两个人体框是否存在交集,如果存在,就计算这两个人体框的IOUconcat值。当两个人体框的IOUconcat大于一定的阈值(设置为0.5),就进行区域融合。这里,IOUconcat的定义为任意两个人体预测框的交集与两个预测框较小的框的比值。所述步骤3的具体步骤为:步骤3.1:对输入的图片,使用1*1标准卷积跨通道组织信息,提高网络的表达能力,并且提供更多的非线性变换。步骤3.2:使用1*1和3*3的标准卷积核对步骤3.1中输出的特征进行二次卷积,增加网络对不同人体尺度的适应性。步骤3.3:使用不同扩张率的空卷积对步骤3.2中的输出特征进行卷积,获取更大感受野的局部本文档来自技高网...
【技术保护点】
1.一种基于教室场景的多人关键点检测网络,包括人体目标区域检测模块(1)、人体目标区域融合模块(2)、人体目标区域特征提取模块(3)、关键点检测与集成模块(4);其特征在于:/n所述人体目标区域检测模块(1)依次连接人体目标区域融合模块(2)、人体目标区域特征提取模块(3)和关键点检测与集成模块(4);/n所述人体目标区域检测模块(1),用于检测图片中每个学生的区域;/n所述人体目标区域融合模块(2),用于将所述人体目标区域检测模块(1)中粗略检测出的学生的区域进行融合;/n所述人体目标区域特征提取模块(3),用于对所述人体目标区域融合模块(2)中融合后的学生区域进行特征提取;/n所述关键点检测与集成模块(4),用于对存在学生的区域进行关键点置信度和部位关系亲和度的预测,再进行肢体匹配,得到最终的多人关键点检测结果。/n
【技术特征摘要】
1.一种基于教室场景的多人关键点检测网络,包括人体目标区域检测模块(1)、人体目标区域融合模块(2)、人体目标区域特征提取模块(3)、关键点检测与集成模块(4);其特征在于:
所述人体目标区域检测模块(1)依次连接人体目标区域融合模块(2)、人体目标区域特征提取模块(3)和关键点检测与集成模块(4);
所述人体目标区域检测模块(1),用于检测图片中每个学生的区域;
所述人体目标区域融合模块(2),用于将所述人体目标区域检测模块(1)中粗略检测出的学生的区域进行融合;
所述人体目标区域特征提取模块(3),用于对所述人体目标区域融合模块(2)中融合后的学生区域进行特征提取;
所述关键点检测与集成模块(4),用于对存在学生的区域进行关键点置信度和部位关系亲和度的预测,再进行肢体匹配,得到最终的多人关键点检测结果。
2.根据权利要求1所述的基于教室场景的多人关键点检测网络,其特征在于:所述人体目标区域检测模块(1)是在浅层网络引入了密集连接模块的YOLOV3网络,并且使用GIOU损失函数代替YOLOV3的边界框回归损失函数,使浅层特征和深层特征可以更好更快地进行融合,提升检测精度,改善对教室后排低分辨率学生检测难的问题。
3.根据权利要求1所述的基于教室场景的多人关键点检测网络,其特征在于:所述人体目标区域融合模块(2)用于对所述人体目标区域检测模块(1)中检测到的人体框区域进行融合,旨在减少后续在非人处检测出关键点的情况。
4.根据权利要求1所述的基于教室场景的多人关键点检测网络,其特征在于:所述人体目标区域特征提取模块(3)是基于空洞卷积的InceptionNet网络,目的是获取更大感受野的局部信息,提高对小尺寸学生的检测性能。
5.根据权利要求1所述的基于教室场景的多人关键点检测网络,其特征在于:所述关键点检测与集成模块(4)是一个级联的多stage的网络,同时对人体关键点置信图和部位关系图进行预测,并且在每一个stage后都设置了损失函数,最终输出关键点置信度图和部位关系图并进行肢体匹配,得到最后的多人关键点检测结果。
6.一种基于教室场景的多人关键点检测方法,采用权利要求1所述基于教室场景的多人关键点检测网络进行操作,其特征在于具体操作步骤如下:
步骤1:人体目标区域检测,粗略检测图片中每个学生的区域;
步骤2:人体检测区域融合,对步骤1中检测得到的学生区域进行区域融合;
步骤3:人体目标区域特征提取,对步骤2中得到的融合后的学生目标区域进行特征提取;
步骤4:关键点检测,用对存在学生的区域进行关键点置信度和部位关系亲和度的预测,再进行肢体匹配,得到最终的关键点检测结果。
7.根据权利要求6所述的基于教室场景的多人关键点检测方法,其特征在于,所述步骤1的具体步骤为:
步骤1.1:对输入图像进行1次密集连接卷积和3次残差卷积提取特征,可更...
【专利技术属性】
技术研发人员:滕国伟,丁敏,
申请(专利权)人:上海大学,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。