一种基于改进StrongSort-YOLOv5的人像跟踪方法技术

技术编号：41717906 阅读：11 留言：0更新日期：2024-06-19 12:44

本发明专利技术的目的是针对目前人像跟踪算法跟踪准确度、跟踪精确度低、身份切换次数多的问题，在原有的YOLOv5网络结构基础上做出改进，提出一种基于改进StrongSort‑YOLOv5的人像跟踪方法。首先在YOLOv5主干网络与颈部网络之间和颈部网络中添加了CBAM注意力模块；其次是输出端损失函数的改进，引入了考虑真实框与预测框之间矢量角的SIoU使模型能够在训练过程中更轻松、更快速地接近真实帧，从而提高模型在目标定位上的精度。这一优化措施在人像数据集的实验结果上也得到了充分验证，改进算法相较于先前的版本实现了最优的整体效果，跟踪准确度从改进前的54.50%上升至57.43%，提升了2.97%；跟踪精确度从改进前的81.15%上升至82.52%，同时有效减少了因目标遮挡导致的身份切换次数。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种人像跟踪方法，尤其涉及一种基于改进strongsort-yolov5的人像跟踪方法。

技术介绍

1、随着社会的不断进步和网络视频的广泛普及，人像跟踪已经成为一个备受关注的重要研究方向。在视频会议、智能环境、人机交互、机器人、以及安防监控等领域，实时目标跟踪的需求日益凸显，人像跟踪技术相关应用愈加重要，人工智能、机器学习和传感器融合等新兴技术也为提高跟踪精度和鲁棒性提供了新的途径。

2、基于检测的跟踪（tbd）是一种高效应对人像出现和消失的方法，该方法在处理说话人追踪问题上展现了出色的能力。单阶段检测的算法使用端到端训练，直接对目标进行分类和定位，其中一个典型的例子是ssd（single shot multibox detector）检测算法，该算法使用vgg16的网络结构以及多尺度特征图，从而提升对小物体的检测性能。同时，yolo（you only look once）模型系列将目标检测过程简化为一个端到端的回归问题，直接基于锚框来预测人像的边界框，以此进行对目标的分类和位置预测。上述两种方法在准确性和难度之间都找到了很好的平衡，但它们使用的策略不仅适用于人像目标。此外，yolov5网络更适合人像检测，因为它结合了yolov4和yolov3网络的重大改进，增强了实时性能和检测精度。

3、然而，在实际跟踪场景中，经常面临着高度相似的目标同时存在、周围存在多种干扰因素以及背景复杂的挑战。因此，在tbd策略中，跟踪器的准确度很大程度上依赖于检测器的精准性。sort算法及其改进的deepso

技术实现思路

1、专利技术目的：本专利技术的目的是针对目前人像跟踪算法跟踪准确度、跟踪精确度低、身份切换次数多的问题，在原有的yolov5网络结构基础上做出改进，提出一种基于改进strongsort-yolov5的人像跟踪方法。减少了人像中复杂背景和遮挡与自遮挡对识别性能的影响，降低了复杂环境下人像跟踪的误检率、漏检率和身份变换次数，进而提高跟踪准确度、跟踪精确度。

2、为了实现上述的任务，改善现有技术存在的缺陷，本专利技术提供了一种基于改进strongsort-yolov5的人像跟踪方法，包括如下步骤：

3、步骤s1：采集人像，构建人像数据集；

4、需要说明的是，本专利技术使用的是公开的人像视频数据集。应用场景为街道场景中行人目标的检测与跟踪，本专利技术创建了一个包含9498幅图像的行人检测数据集。

5、步骤s2：将人像数据集集中预处理，划分数据集；

6、需要说明的是，数据集按照8:1:1的比例将其分为训练集、验证集和测试集。

7、步骤s3：采集原始strongsort-yolov5人像数据集的预训练模型数据；

8、需要说明的是，将处理好的人像数据集，在原始strongsort-yolov5模型中训练，获取模型的权重参数数据，为后续的改进strongsort-yolov5模型做对比。

9、步骤s4：对原始strongsort-yolov5人像跟踪模型进行改进，得到改进的strongsort-yolov5-improve模型；

10、需要说明的是，本专利技术是基于对原始strongsort-yolov5模型跟踪算法的网络进行改进，由于考虑到人像跟踪需要实时检测，故选用的对比实验对象是yolov5n权重参数，因为在4个不同的yolov5权重参数中， yolov5n相较其他模型，其卷积层数最少，检测速率最快。首先是注意力机制的引入，注意力机制的显著效果在于突显重要特征并抑制次要特征，在整个网络结构中，主干网络起到了特征提取的关键作用，而颈部网络则负责对特征进行融合并将其传递到头部进行预测。因此，为了充分发挥注意力机制的作用，我们将cbam注意力模块添加在主干网络与颈部网络之间，能使网络在特征提取和融合阶段都能够有效地利用注意力机制，从而更好地捕捉关键特征信息；其次是输出端损失函数的改进，为了进一步优化模型预测框和真实框的宽高比计算方法，引入了具有更多惩罚项的siou 损失函数来替换原始yolov5的ciou损失函数，siou 损失函数有效地降低了损失的总自由度，提高了推理的准确性。最后得到本专利技术提出的改进strongsort-yolov5-improve模型。

11、步骤s5：将人像数据集输入到改进的strongsort-yolov5-improve模型训练，实现跟踪；

12、需要说明的是，将处理好的人像数据集输入到改进的的strongsort-yolov5-improve模型训练得到跟踪精度、准度等数据，并进行消融对比实验，将得到训练后最优结果的权重文件保存。

13、步骤s6：对改进strongsort-yolov5-improve模型进行广泛对比实验；

14、需要说明的是，为探究本专利技术模型结构对多目标跟踪性能的影响，进行了广泛的对比实验，选取了ssd、faster r-cnn、yolov3、yolov4和yolov5等5种主流检测器网络，以及sort、deepsort和strongsort等3种多目标跟踪算法，旨在全面评估不同检测器和跟踪器组合的性能。

15、步骤s7：对改进strongsort-yolov5-improve模型性能的最终评估；

16、需要说明的是，完成该模型的训练后，借助划分好的人像数据集测试集对该网络模型进行测试，输出人像的目标跟踪精度、准度等多种数据，对该模型的跟踪效果进行全面的评估。

17、进一步地，所述步骤s1中包括对数据集的处理，其原始数据集中目标运动、摄像机运动、观看角度和光密度都存在很大差异。为增加训练样本的数量，提高模型的鲁棒性，本专利技术选择每隔3帧提取训练图像。并由于视频切片中相邻帧之间存在较大的相似性，为了增加数据集的丰富性，我们还采用了翻转和随机亮度调整等手段扩充数据集。此外，还对选出的人像数据集通过labeiimg标注工具进行人工标注，标注内容包含数据集中待检测目标的坐标位置信息，标注生成的文件为yolo系列的txt文件格式。

18、进一步地，所述步骤s2中包括对得到的人像数据集图片imges和数据集相对应标注好的labels标签文件划分，为后续的训练和测试做好准备。

19、进一步地，所述步骤s3中的yolov5是一种基于one stage的目标检测算法，只需要将待检测的数据集一次放入检测网络中即可预测所有可能的边界框。yolov5基于网络深度和特征图宽度分为4个模型：yolov5s、yolov5m、yolov5l、yolov5x。其中yolov5n的卷积层数最少，检测速率最快。

20、进一步本文档来自技高网...

【技术保护点】

1.一种基于改进StrongSort-YOLOv5的人像跟踪方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于改进StrongSort-YOLOv5的人像跟踪方法，其特征在于：所述S1中，本专利技术使用的是公开的人像视频数据集；应用场景为街道场景中行人目标的检测与跟踪，本专利技术创建了一个包含9498幅图像的行人检测数据集。

3.根据权利要求1所述的一种基于改进StrongSort-YOLOv5的人像跟踪方法，其特征在于：所述S2中，数据集按照8:1:1的比例将其分为训练集、验证集和测试集。

4.根据权利要求1所述的一种基于改进StrongSort-YOLOv5的人像跟踪方法，其特征在于：所述S3中，将处理好的人像数据集，在原始StrongSort-YOLOv5模型中训练，获取模型的权重参数数据，为后续的改进StrongSort-YOLOv5模型做对比。

5.根据权利要求1所述的一种基于改进StrongSort-YOLOv5的人像跟踪方法，其特征在于：所述S4中本专利技术是基于对原始StrongSort-YOLOv5

6.根据权利要求1所述的一种基于改进StrongSort-YOLOv5的人像跟踪方法，其特征在于：所述S5中，将处理好的人像数据集输入到改进的的StrongSort-YOLOv5-improve模型训练得到跟踪精度、准度等数据，并进行消融对比实验，将得到训练后最优结果的权重文件保存。

7.根据权利要求1所述的一种基于改进StrongSort-YOLOv5的人像跟踪方法，其特征在于：所述S6中，为探究本专利技术模型结构对多目标跟踪性能的影响，进行了广泛的对比实验，选取了SSD、Faster R-CNN、YOLOv3、YOLOv4和YOLOv5等5种主流检测器网络，以及SORT、DeepSort和StrongSort等3种多目标跟踪算法，旨在全面评估不同检测器和跟踪器组合的性能。

8.根据权利要求1所述的一种基于改进StrongSort-YOLOv5的人像跟踪方法，其特征在于：所述S7中，完成该模型的训练后，借助划分好的人像数据集测试集对该网络模型进行测试，输出人像的目标跟踪精度、准度等多种数据，对该模型的跟踪效果进行全面的评估。

...

【技术特征摘要】

1.一种基于改进strongsort-yolov5的人像跟踪方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于改进strongsort-yolov5的人像跟踪方法，其特征在于：所述s1中，本发明使用的是公开的人像视频数据集；应用场景为街道场景中行人目标的检测与跟踪，本发明创建了一个包含9498幅图像的行人检测数据集。

3.根据权利要求1所述的一种基于改进strongsort-yolov5的人像跟踪方法，其特征在于：所述s2中，数据集按照8:1:1的比例将其分为训练集、验证集和测试集。

4.根据权利要求1所述的一种基于改进strongsort-yolov5的人像跟踪方法，其特征在于：所述s3中，将处理好的人像数据集，在原始strongsort-yolov5模型中训练，获取模型的权重参数数据，为后续的改进strongsort-yolov5模型做对比。

5.根据权利要求1所述的一种基于改进strongsort-yolov5的人像跟踪方法，其特征在于：所述s4中本发明是基于对原始strongsort-yolov5模型跟踪算法的网络进行改进，由于考虑到人像跟踪需要实时检测，故选用的对比实验对象是yolov5n权重参数，因为在4个不同的yolov5权重参数中， yolov5n相较其他模型，其卷积层数最少，检测速率最快；首先是注意力机制的引入，注意力机制的显著效果在于突显重要特征并抑制次要特征，在整个网络结构中，主干网络起到了特征提取的关键作用，而颈部网络则负责对特征进行融合并将其传递到头部进行预测；因此，为了充分发挥注意力机制的作用，我们将...

【专利技术属性】
技术研发人员：彭帆，王玫，王柄竣，
申请(专利权)人：桂林理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人