一种三尺度特征的YOLOv4-tiny目标检测算法制造技术

技术编号:37232319 阅读:9 留言:0更新日期:2023-04-20 23:14
本发明专利技术提出了一种三尺度特征的YOLOv4

【技术实现步骤摘要】
一种三尺度特征的YOLOv4

tiny目标检测算法


[0001]该专利技术属于图像识别领域,一种三尺度特征的YOLOv4

tiny目标检测算法,该算法在通用标准数据集上表现出很好的检测性能。

技术介绍

[0002]随着计算机技术的不断发展及算力的不断提升,计算机视觉与其中的目标检测成为了近年来热门方向。利用目标检测可以对特定物体进行识别与定位,在驾驶辅助系统、军事预警系统等有广泛的发展前景。目标检测技术包括传统目标检测技术及基于深度学习的目标检测技术,而后者由于在性能与复杂度方面优于前者,已成为当前目标检测领域的主流算法。
[0003]基于深度学习的目标检测技术主要分为一阶段(One

stage)与二阶段(Two
‑ꢀ
stage)两种方法,Two

stage分为两个阶段,第一阶段对输入图像划定候选区域,第二阶段使用卷积神经网络对候选区域进行分类,典型算法有R

CNN、Fast
‑ꢀ
R

CNN,这种算法准确度较高,但由于使用了两个子网络完成单个目标检测任务,训练成本与检测成本较高,速度较慢;One

stage只有一个阶段,即将输入的图片分为固定数量的块(patch),在每个patch中又有固定数量的锚框(Anchorbox),同时输出Anchorbox的位置与分类标签,典型的算法有SSD512、YOLOv4, One

stage虽然准确度略逊于Two

stage,但其只使用一个网络完成检测工作,训练成本与检测成本较低,速度较快,适用于需要快速响应的场景。
[0004]虽然One

stage检测速度快于Two

stage,但某些情况下需要更快的检测速度来达到应用要求。如车辆辅助驾驶系统,更快的目标检测速度可以缩短传递到驾驶员所需要的时间,使驾驶员快速做出反应,使行车过程更为安全。YOLOv4 算法虽然在选取的通用数据集tt100k与LISA中能表现出良好的性能,达到很高的准确率,但是网络训练和检测时间较长,不能满足实时性的要求,因此本专利技术基于YOLOv4的轻量化版本YOLOv4

tiny,针对交通标志数据集中小目标数量较多的特点,修改YOLOv4

tiny的网络结构,旨在解决原YOLOv4

tiny在小目标检测上精度不高及重叠情况下漏检的问题。以保证在满足实时性的前提下,提高检测精度。

技术实现思路

[0005]本专利技术方法提出了一种三尺度特征的YOLOv4

tiny目标检测算法,通过改变YOLOv4

tiny网络结构,添加三尺度特征图,使YOLOv4算法的检测性能有了部分提升。
[0006]为了实现上述目的,本专利技术采取如下的技术解决方案:
[0007]步骤一、下载当前目标检测领域通用数据集tt100k数据集与LISA数据集,使用这两个数据集可保证算法检测效果与该领域公开的通用数据集保持一致,验证算法实际效果;对下载的数据进行增强,包括翻转、裁剪、加噪、旋转操作;增强后生成的数据不仅可以增加数据集包含的图片数量,且因为增强后的图像与数据集中的原始图像相比更复杂,在保留原始图像特征点的情况下对图片风格、大小进行了改变,图像的模糊程度增加,使增强
后的图像更具多样性,与实际情况更接近,可以提升训练后网络的鲁棒性;tt100k数据集的下载地址是: http://cg.cs.tsinghua.edu.cn/traffic

sign/;LISA数据集的下载地址是: http://cvrr.ucsd.edu/LISA/lisa

traffic

sign

dataset.html;
[0008]tt100k的全称是Tsinghua

Tencent 100K,是清华

腾讯互联网创新技术联合实验室提供的一个可用来识别的道路交通标志通用数据集;TT100K数据集中图像的分辨率为2048
×
2048,共有221种标志类别,大体分为三类:警告标志、禁令标志和指示标志;该数据集覆盖了不同天气条件和不同光照下的交通标志图像,其中训练集包含6105张图像,测试集包含3071张图像;由于原始图像分辨率较大,因此在本专利技术实验中对原图像进行了裁剪处理,裁剪后的图像尺度为 608
×
608;由于数据集中各个类别之间的数据量存在严重不平衡的问题,因此本专利技术实验只选择了标注数据量较多的45类交通标志进行识别,并将测试集、验证集与训练集按照6:2∶2的比例划分,对每张图像进行翻转、裁剪、加噪、旋转操作;
[0009]LISA的全称是Laboratory for Intelligent&Safe Automobiles,是由美国LISA 实验室提供的一个可用来识别的道路交通标志通用数据集;通过驾驶车辆拍摄视频,从视频中提取带有交通标志的某一片段,再依据此片段最多提取30帧,对每一帧的视频图片进行标注;每一个交通标志的标注包含类型标签(Tag)、位置(Position)、是否被遮挡(Occluded)、是否在侧路上(On sideroad)四部分信息;采集图片的过程是在视频中提取的,车辆行驶过程有一定速度而非静止,因此出现模糊,也使得基于该数据集的交通标志识别算法对真实场景的适用性更强;美国LISA数据集中包含了47个类别,但各类别之间标注数量严重失衡,因此为保证数据可用性,本专利技术实验将选取其中四类标注数量较多的类别进行训练测试;将测试集、验证集与训练集按照6∶2∶2的比例划分,并对每张图像进行翻转、裁剪、加噪、旋转操作;
[0010]步骤二、使用标准YOLOv4

tiny网络训练与检测交通标志;使用标准 YOLOv4

tiny网络对基于步骤一的两个交通标志数据集分别进行训练,下载标准YOLOv4

tiny网络并进行编译,标准YOLOv4

tiny网络下载地址: https://github.com/AlexeyAB/darknet,为两个交通标志数据集tt100k与LISA分别更改cfg文件夹中tt100k.data与LISA.data文件中的训练集、验证集、测试集目录为下载数据集的地址,并指定类别数量与类别名称;根据精度要求设定迭代次数(epoch)为20000,根据本次实验数据集加载tt100k.data或LISA.data,同时加载yolov4

tiny.cfg,程序即可开始训练;保存训练过程中各层的权重文件 Q1,作为训练结束后检测的权值输入文件;利用权重文件Q1进行测试,得到平均精度(mAP)、召回本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种三尺度特征的YOLOv4

tiny目标检测算法,其特征如下:步骤一、下载当前目标检测领域通用数据集tt100k数据集与LISA数据集,使用这两个数据集可保证算法检测效果与该领域公开的通用数据集保持一致,验证算法实际效果;对下载的数据进行增强,包括翻转、裁剪、加噪、旋转操作;增强后生成的数据不仅可以增加数据集包含的图片数量,且因为增强后的图像与数据集中的原始图像相比更复杂,在保留原始图像特征点的情况下对图片风格、大小进行了改变,图像的模糊程度增加,使增强后的图像更具多样性,与实际情况更接近,可以提升训练后网络的鲁棒性;tt100k数据集的下载地址是:http://cg.cs.tsinghua.edu.cn/traffic

sign/;LISA数据集的下载地址是:http://cvrr.ucsd.edu/LISA/lisa

traffic

sign

dataset.html;步骤二、使用标准YOLOv4

tiny网络训练与检测交通标志;使用标准YOLOv4

tiny网络对基于步骤一的两个交通标志数据集分别进行训练,下载标准YOLOv4

tiny网络并进行编译,标准YOLOv4

tiny网络下载地址:https://github.com/AlexeyAB/darknet,为两个交通标志数据集tt100k与LISA分别更改cfg文件夹中tt100k.data与LISA.data文件中的训练集、验证集、测试集目录为下载数据集的地址,并指定类别数量与类别名称;根据精度要求设定迭代次数(epoch)为20000,根据本次实验数据集加载tt100k.data或LISA.data,同时加载yolov4

tiny.cfg,程序即可开始训练;保存训练过程中各层的权重文件Q1,作为训练结束后检测的权值输入文件;利用权重文件Q1进行测试,得到平均精度(mAP)、召回率(Recall)与检测时的帧率(FPS);虽然yolov4

tiny网络的检测速度优于yolov4,但检测精度即mAP与Recall都有比较明显的下降,且yolov4

tiny相较于yolov4少了一个尺寸的特征图的输出,对小目标的检测精度下降较为明显;步骤三、本发明针对数据集中小目标数量较多的特点,为了提高小尺度交通标志的检测精度,修改YOLOv4

tiny的网络结构,增加了主干网络输出第三尺度的特征图,旨在解决原YOLOv4

tiny在小目标检测上精度不高及重叠情况下漏检的问题;将其嵌入YOLOv4

tiny中,获得了性能提升,同时该模型也没有引入更多计算量,实时性不受影响;将增加第三尺度特征图输出的三尺度YOLOv4

tiny网络使用步骤一中的两个数据集进行训练,得到权重文件Q2;利用权重文件Q2进行测试,得到mAP、Recall与检测时的帧率FPS;步骤四、将步骤二与步骤三模型性能的检测结果进行对比,包括模型检测精度、模型检测速度、模型检测召回率、模型权重文件大小,并查看步骤二与步骤三实际检测的数据集中的图像,分析检测结果。2.根据权利要求书1所述的一种三尺度特征的YOLOv4

tiny目标检测算法,步骤一、下载当前目标检测领域通用数据集tt100k数据集与LISA数据集,使用这两个数据集可保证算法检测效果与该领域公开的通用数据集保持一致,验证算法实际效果;对下载的数据进行增强,包括翻转、裁剪、加噪、旋转操作;增强后生成的数据不仅可以增加数据集包含的图片数量,且因为增强后的图像与数据集中的原始图像相比更复杂,在保留原始图像特征点的情况下对图片风格、大小进行了改变,图像的模糊程度增加,使增强后的图像更具多样性,与实际情况更接近,可以提升训练后网络的鲁棒性;tt100k数据集的下载地址是:http://cg.cs.tsinghua.edu.cn/traffic

sign/;LISA数据集的下载地址是:http://cvrr.ucsd.edu/LISA/lisa

traffic

sign

dataset.html;tt100k的全称是Tsinghua

Tencent 100K,是清华

腾讯互联网创新技术联合实验室提
供的一个可用来识别的道路交通标志通用数据集;TT100K数据集中图像的分辨率为2048
×
2048,共有221种标志类别,大体分为三类:警告标志、禁令标志和指示标志;该数据集覆盖了不同天气条件和不同光照下的交通标志图像,其中训练集包含6105张图像,测试集包含3071张图像;由于原始图像分辨率较大,因此在本发明实验中对原图像进行了裁剪处理,裁剪后的图像尺度为608
×
608;由于数据集中各个类别之间的数据量存在严重不平衡的问题,因此本发明实验只选择了标注数据量较多的45类交通标志进行识别,并将测试集、验证集与训练集按照6:2:2的比例划分,对每张图像进行翻转、裁剪、加噪、旋转操作;LISA的全称是Laboratory for Intelligent&Safe Automobiles,是由美国LISA实验室提供的一个可用来识别的道路交通标志通用数据集;通过驾驶车辆拍摄视频,从视频中提取带有交通标志的某一片段,再依据此片段最多提取30帧,对每一帧的视频图片进行标注;每一个交通标志的标注包含Tag、Position、Occluded、On side rode四部分信息;采集图片的过程是在视频中提取的,车辆行驶过程有一定速度而非静止,因此出现模糊,也使得基于该数据集的交通标志识别算法对真实场景的适用性更强;美国LISA数据集中包含了47个类别,但各类别之间标注数量严重失衡,因此为保证数据可用性,本发明实验将选取其中四类标注数量较多的类别进行训练测试;将测试集、验证集与训练集按照6∶2∶2的比例划分,并对每张图像进行翻转、裁剪、加噪、旋转操作。3.根据权利要求书1所述的一种三尺度特征的YOLOv4

tiny目标检测算法,步骤二、使用标准YOLOv4

tiny网络训练与检测交通标志;使用标准YOLOv4

tiny网络对基于步骤一的两个交通标志数据集分别进行训练,下载标准YOLOv4

tiny网络并进行编译,标准YOLOv4

tiny网络下载地址:https://github.com/AlexeyAB/darknet,为两个交通标志数据集tt100k与LISA分别更改cfg文件夹中tt100k.data与LISA.data文件中的训练集、验证集、测试集目录为下载数据集的地址,并指定类别数量与类别名称;根据精度要求设定迭代次数(epoch)为20000,根据本次实验数据集加载tt100k.data或LISA.dat...

【专利技术属性】
技术研发人员:王兰美王立哲王桂宝廖桂生王新宽孙长征
申请(专利权)人:陕西理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1