基于行人重识别算法的指定行人动作检索方法技术

技术编号：34036849 阅读：8 留言：0更新日期：2022-07-06 12:30

本发明专利技术公开了基于行人重识别算法的指定行人动作检索方法。基于行人重识别算法的指定行人动作检索方法：将视频数据的每一帧输入特征提取骨干网络，提取出帧级别的骨干网络特征图后输入行人检测分支模块，行人检测分支模块处理后输出各个行人的最终目标检测边界框；重识别分支模块对骨干网络特征图和各个行人的最终目标检测边界框进行处理并输出各个行人所在的动作特征队列；动作分类模块将各个行人所在的动作特征队列统一缩放为288*288的尺寸，并将其聚合在通道维度以提取各个行人在时间维度的信息，再进行动作分类并得到最终动作检索结果。本发明专利技术加入了行人重识别特征和可持续跟踪指定目标的动作识别结果，大大提高了检测行人的精确度。测行人的精确度。测行人的精确度。

全部详细技术资料下载

【技术实现步骤摘要】
基于行人重识别算法的指定行人动作检索方法

[0001]本专利技术涉及计算机视觉
，尤其涉及基于行人重识别算法的指定行人动作检索方法。

技术介绍

[0002]随着视频数据的日益增多，大量的计算机视觉任务被提出以对视频数据进行分析，其中人类动作识别在现实生活的多个方面有着重要的价值，得到越来越多的关注。
[0003]目前的动作识别算法主要是利用目标的运动信息来完成动作的分类，在简单的实验场景中，这种方法取得了很好的效果。但实际生活中的视频数据往往更复杂，多出现行人数量多、行人间频繁发生位置移动与交互的情况，此时继续沿用上述方法容易出现行人跟丢的问题，进而影响对行人所属动作的正确识别。这需要我们进一步挖掘外观信息在动作识别中的作用。
[0004]在人少、无遮挡的稀疏场景下，此时的外观信息只要精确到可以被行人检测子算法识别为人类这个身份即可，例如不能因为体型的差别或穿不同款式、颜色的衣服，就将做同一个动作的人分为两类。而在复杂场景中，所提取的外观信息需要丰富到足以区分出不同的行人。例如杨文浩等人提出将人脸信息作为衡量不同动作发出者间相似度的主要特征，从而减少由于行人id错误识别导致的动作误分类问题。但人脸特征在行人背对着、光照较暗、距离较远等情况下难以采集，因此需要利用更普适的行人外观特征。
[0005]另一方面，在无人商店顾客行为分析、安防场景下的搜救与嫌犯追踪等实际应用中，一般需要识别出特定行人在离散时间下的所有动作，以便再进一步分析后得出有用的信息。例如Ketan Kotecha(科坦r/>·
科塔卡)等人利用非深度学习方法度量目标间相似性，并将输入视频按照不同的行人裁剪为独立的视频片段，最后在视频片段上进行动作分类任务。但非深度学习方法泛化性差，难以在较长的时间范围内识别出同一个行人，因此需要更有效的相似性度量方法。
[0006]由此可见，现有技术中的动作识别算法一般具有由于缺乏外观特征而容易误分类的缺点，并且现有的技术无法持续跟踪指定目标的动作识别结果。

技术实现思路

[0007]针对以上问题，本专利技术提出基于行人重识别算法的指定行人动作检索方法。
[0008]为实现本专利技术的目的，本专利技术提出基于行人重识别算法的指定行人动作检索方法，包括以下步骤：
[0009]s1：将视频采集设备实时采集的视频数据的每一帧分别输入特征提取骨干网络，所述特征提取骨干网络对所述每一帧进行处理，并提取骨干网络特征图；
[0010]s2：将所述骨干网络特征图输入行人检测分支模块，行人检测分支模块对所述骨干网络特征图进行处理，并输出各个行人的最终目标检测边界框；
[0011]s3：将所述骨干网络特征图和所述各个行人的最终目标检测边界框输入重识别分
支模块，所述重识别分支模块对所述骨干网络特征图和所述各个行人的最终目标检测边界框进行处理，并输出所述各个行人所在的动作特征队列；
[0012]s4：动作分类模块将所述各个行人所在的动作特征队列统一缩放为288*288的尺寸，并将其聚合在通道维度，用以提取所述各个行人在时间维度的信息，再进行动作分类并得到最终动作检索结果。
[0013]进一步地，所述步骤s1的具体过程包括：
[0014]将视频采集设备采集的视频数据中的每一帧依次输入到所述特征提取骨干网络中，所述特征提取骨干网络进行提取并得到每帧图像对应的骨干网络特征图，记为f，其中，R表示实数空间，W表示所述骨干网络特征图f的宽度，H表示所述骨干网络特征图f的高度，D表示空间下采样率，B表示所述骨干网络特征图f的通道数。
[0015]进一步地，所述行人检测分支模块包括：边界框中心点预测头部子网络、边界框尺寸预测头部子网络和中心点偏移量预测头部子网络；
[0016]所述边界框中心点预测头部子网络、边界框尺寸预测头部子网络和中心点偏移量预测头部子网络分别通过实际样本训练获得；
[0017]所述步骤s2的具体过程包括：
[0018]将所述骨干网络特征图f输入所述边界框中心点预测头部子网络，所述边界框中心点预测头部子网络对所述骨干网络特征图f进行预测并输出各个行人的热力图心点预测头部子网络对所述骨干网络特征图f进行预测并输出各个行人的热力图
[0019]对所述各个行人的热力图使用损失函数focal loss：
[0020]其中，x和y分别表示输出的所述各个行人的热力图中每个元素的横坐标和纵坐标，α和β表示控制中心点贡献权重的超参数，表示以坐标(x，y)为中心点存在行人目标的概率，L
x，y
表示以坐标(x，y)为中心点存在行人目标的真实概率；
[0021]将所述骨干网络特征图f输入所述边界框尺寸预测头部子网络，所述边界框尺寸预测头部子网络对所述骨干网络特征图f进行预测并输出各个行人的边界框尺寸预测头部子网络对所述骨干网络特征图f进行预测并输出各个行人的边界框尺寸
[0022]对所述各个行人的边界框尺寸使用最小绝对值偏差损失函数l1：
[0023]其中，i∈[1，N]，表示行人的索引，s
i
表示第i个行人边界框尺寸的真实值，表示第i个行人边界框尺寸的预测值，N表示当前帧中的行人数量，l
size
即最小绝对值偏差损失函数l1，size表示此处用来约束边界框尺寸的预测；
[0024]将所述骨干网络特征图f输入所述中心点偏移量预测头部子网络，所述中心点偏移量预测头部子网络对所述骨干网络特征图f进行预测并输出各个行人的边界框中心点在
长和宽这两个维度上的偏移量
[0025]对所述各个行人的边界框中心点在长和宽这两个维度上的偏移量使用最小绝对值偏差损失函数l1：l
off
即最小绝对值偏差损失函数l1，off表示其所属的网络，o
i
表示第i个行人真实的量化偏移量；表示预测的第i个行人的量化偏移量；
[0026]将所述各个行人对应的所述热力图边界框尺寸和边界框中心点在长和宽这两个维度上的偏移量组合为所述各个行人的候选目标检测边界框，再使用NMS算法对所述各个行人的候选目标检测边界框进行去重并筛选掉置信度低于阈值0.8的边界框后，得到所述各个行人的最终目标检测边界框。
[0027]进一步地，所述重识别分支模块包括：第一预处理模块、第一卷积层、全局平均池化层和后处理模块，所述第一卷积层的卷核大小为128；所述重识别分支模块通过实际样本训练获得；
[0028]所述步骤s3的具体过程包括：
[0029]所述第一预处理模块根据所述各个行人的最终目标检测边界框，从所述每帧图像对应的骨干网络特征图f中裁剪出各个行人的目标特征图P
F，j
，其中，F表示帧数，j表示本帧中的行人标号；
[0030]所述第一卷积层对所述各个行人的目标特征图P
F，j
再次进行特征提取并得到通道数为128的目标特征图P
′
F，j
，所述平均池化本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于行人重识别算法的指定行人动作检索方法，其特征在于，包括以下步骤：s1:将视频采集设备实时采集的视频数据的每一帧分别输入特征提取骨干网络，所述特征提取骨干网络对所述每一帧进行处理，并提取骨干网络特征图；s2:将所述骨干网络特征图输入行人检测分支模块，行人检测分支模块对所述骨干网络特征图进行处理，并输出各个行人的最终目标检测边界框；s3:将所述骨干网络特征图和所述各个行人的最终目标检测边界框输入重识别分支模块，所述重识别分支模块对所述骨干网络特征图和所述各个行人的最终目标检测边界框进行处理，并输出所述各个行人所在的动作特征队列；s4:动作分类模块将所述各个行人所在的动作特征队列统一缩放为288*288的尺寸，并将其聚合在通道维度，用以提取所述各个行人在时间维度的信息，再进行动作分类并得到最终动作检索结果。2.根据权利要求1所述的基于行人重识别算法的指定行人动作检索方法，其特征在于，所述步骤s1的具体过程包括：将视频采集设备采集的视频数据中的每一帧依次输入到所述特征提取骨干网络中，所述特征提取骨干网络进行提取并得到每帧图像对应的骨干网络特征图，记为f，其中，R表示实数空间，W表示所述骨干网络特征图f的宽度，H表示所述骨干网络特征图f的高度，D表示空间下采样率，B表示所述骨干网络特征图f的通道数。3.根据权利要求2所述的基于行人重识别算法的指定行人动作检索方法，其特征在于，所述行人检测分支模块包括：边界框中心点预测头部子网络、边界框尺寸预测头部子网络和中心点偏移量预测头部子网络；所述边界框中心点预测头部子网络、边界框尺寸预测头部子网络和中心点偏移量预测头部子网络分别通过实际样本训练获得；所述步骤s2的具体过程包括：将所述骨干网络特征图f输入所述边界框中心点预测头部子网络，所述边界框中心点预测头部子网络对所述骨干网络特征图f进行预测并输出各个行人的热力图预测头部子网络对所述骨干网络特征图f进行预测并输出各个行人的热力图对所述各个行人的热力图使用损失函数focal loss：其中，x和y分别表示输出的所述各个行人的热力图中每个元素的横坐标和纵坐标，α和β表示控制中心点贡献权重的超参数，表示以坐标(x,y)为中心点存在行人目标的概率，L
x,y
表示以坐标(x,y)为中心点存在行人目标的真实概率；将所述骨干网络特征图f输入所述边界框尺寸预测头部子网络，所述边界框尺寸预测头部子网络对所述骨干网络特征图f进行预测并输出各个行人的边界框尺寸头部子网络对所述骨干网络特征图f进行预测并输出各个行人的边界框尺寸
对所述各个行人的边界框尺寸使用最小绝对值偏差损失函数l1：其中，i∈[1,N]，表示行人的索引，s
i
表示第i个行人边界框尺寸的真实值，表示第i个行人边界框尺寸的预测值，N表示当前帧中的行人数量，l
size
即最小绝对值偏差损失函数l1，size表示此处用来约束边界框尺寸的预测；将所述骨干网络特征图f输入所述中心点偏移量预测头部子网络，所述中心点偏移量预测头部子网络对所述骨干网络特征图f进行预测并输出各个行人的边界框中心点在长和宽这两个维度上的偏移量宽这两个维度上的...

【专利技术属性】
技术研发人员：张伟，周鑫，陈云芳，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人