基于双向注意力机制增强YOLOV5的目标检测方法技术

技术编号:32910629 阅读:53 留言:0更新日期:2022-04-07 12:01
本发明专利技术属于机器视觉领域,公开了基于双向注意力机制的YOLOV5的目标检测方法,将数据集按比例分为训练数据集和测试数据集;对训练数据集的图片归一化为固定大小的图片;将归一化后的图片先输入到增加输出层的骨干网络,再经过双向注意力机制模块后,在使用改进的损失函数计算的YOLOv5网络中训练和测试;将归一化后的实时数据图片输入到改进后的YOLOv5网络中,输出目标检测结果。本发明专利技术提高了对目标的检测能力,解决网络对特征差异不敏感的问题,解决训练过程目标框回归不稳定的问题,保证了anchor框和目标框之间的长宽比的一致性。anchor框和目标框之间的长宽比的一致性。anchor框和目标框之间的长宽比的一致性。

【技术实现步骤摘要】
基于双向注意力机制增强YOLO V5的目标检测方法


[0001]本专利技术属于机器视觉、目标识别
,尤其涉及基于双向注意力机制增强YOLO V5的目标检测方法。

技术介绍

[0002]近年来,基于深度学习的目标检测算法在检测效果方面取得了很大的突破,同传统方法相比检测性能有着质的飞跃。深度学习目标检测算法根据设计思想的不同可以分成两大类,分别是一阶段方法(One

stage),与二阶段方法(Two

stage)算法,二阶段方法算法将检测过程分成两大部,首先生成待检测区域,然后基于此进行目标检测。随后出现的Fast

RCNN、Mask

RCNN与Faster

RCNN,使检测精度不断提高,但速度相对较慢。一阶段方法算法直接产生物体的类别概率和位置坐标,单次检测就得到最终的检测结果,典型的算法有YOLO、SSD、DSSD,性能最为突出的就是YOLO V5,其核心思想是将目标检测看做回归问题求解,通过图片的全部像素点直接得到检测框,检测速度快是其最大特点,缺点在于检测小目标物体时会出现漏检误检的问题,并不完全适用于小目标检测。

技术实现思路

[0003]有鉴于此,本专利技术提出了一种改进的基于双向注意力机制增强YOLO V5目标检测算法,通过改进算法的网络结构、加入双向注意力机制和浅层特征输出层,以及优化模型损失函数的方法,使改进后的算法更加适用于小目标检测。
[0004]针对网络结构加强对低层网络特征图的检测。一般来说,在卷积神经网络中生成的低层网络特征图主要用来反映待检测目标物体的细节特征,低层特征图主要用来检测小目标物体;而高层特征图主要反映的是抽象的语义信息,如轮廓、大体特征等,因此主要用来检测大目标物体。因此对于船舶相比较于海面的小物体更多的低层信息有利于目标的检测。因此在原网络结构的基础上额外引入这一层的输出特征图,并与上一个尺度中经过上采样的特征图进行拼接,增加一个输出尺度特征图用于小目标检测,提高对小目标的检测能力。
[0005]本专利技术公开的基于双向注意力机制增强YOLO V5的目标检测方法,所述方法应用于基于双向注意力机制增强YOLOv5网络,所述基于双向注意力机制增强YOLOv5网络在YOLOv5网络的骨干网络增加输出层和双向注意力机制模块,所述方法包括以下步骤:
[0006]将数据集按比例分为训练数据集和测试数据集;
[0007]对训练数据集的图片归一化为固定大小的图片,并输入到改进后的YOLOv5网络中;
[0008]将归一化后的图片先输入到增加输出层的骨干网络,再经过双向注意力机制模块后,在使用改进的损失函数计算的YOLOv5网络中训练和测试;
[0009]将归一化后的实时数据图片输入到改进后的YOLOv5网络中,输出目标检测结果。
[0010]进一步的,所述改进的损失函数如下:
[0011][0012]其中:A为预测框,B为真实框;A
ctr
为预测框中心点坐标,B
ctr
为真实框中心点坐标,ρ(.)是欧式距离计算;C为A、B最小包围框的对角线长度,IoU为交并比损失函数;
[0013][0014][0015]w
gt
和h
gt
分别表示真实框的宽和高;w和h分别表示预测框的宽和高。
[0016]进一步的,所述基于双向注意力机制增强YOLOv5网络在YOLOv5网络的Backbone部分的第一个残差组件CSP后引出浅层特征,在骨干网络提取特征后在Neck部分中对原网络增加一层输出层;每个输出层都是由上个输出层的输出特征图经过上采样与残差网络后与Backbone引出的特征相融合,因此每个输出层都会有存在上个输出层的特征信息,再与Backbone网络中原始特征融合获取丰富的图像信息。
[0017]进一步的,所述基于双向注意力机制增强YOLOv5网络在YOLOv5网络的Backbone部分中,在最后一个残差组件CSP后增加双向注意力特征加强模块,特征图经过ResNet网络得到的两张特征图分别经过空间注意力机制与通道注意力机制得到两张不同的特征图,再将两张处理后的特征图融合得到最终的输出特征图,以增强特征的表达,加快模型的收敛速度。
[0018]进一步的,所述空间注意力机制模块空间上的每个点都看做一个长度为C的向量,通过1
×
1的卷积压缩提取出长度为C/8代表Key的向量,通过1
×
1的卷积压缩提取出长度为C/8代表Query的向量,将所述Key和Query相乘得到的值为表相似度,得到的(H
×
W)
×
(H
×
W)的矩阵为空间上每个点与点之间所包含信息的相似度。
[0019]进一步的,对于空间上每个点的得到的H
×
W的向量通过激活函数softmax使得其总和大小为1,得到的(H
×
W)
×
(H
×
W)的矩阵为通过注意力机制得到的权重,将这个权重与提取的特征图相乘,再加回输入的特征图得到输出。
[0020]进一步的,对于所述通道注意力机制,Key和Query直接由输入的特征图得到,相乘后得到通道与通道之间的相似度,每一行再减去每个通道和自己的相似度。
[0021]进一步的,通过激活函数softmax使得相似度总和大小为1,得到注意力权重,将所述注意力权重与输入的特征图相乘,再整体乘上一个可学习的系数得到输出。
[0022]进一步的,所述数据集为voc2007。
[0023]本专利技术的有益效果如下:
[0024]在原网络结构的基础上额外引入这一层的输出特征图,并与上一个尺度中经过上采样的特征图进行拼接,增加一个输出尺度特征图用于目标细节检测,提高对目标的检测能力。
[0025]在YOLOv5算法上引入双向注意力特征加强模块,解决网络对特征差异不敏感的问题。
[0026]使用更加符合回归机制的DIoU,解决训练过程目标框回归不稳定的问题。
[0027]在DIoU的基础上改进使用了CIoU,保证了anchor框和目标框之间的长宽比的一致
性。
附图说明
[0028]图1本专利技术的改进YOLO V5的目标检测算法的整体流程图;
[0029]图2本专利技术的改进YOLO V5的目标检测算法的Backbone部分网络结构图;
[0030]图3本专利技术的改进YOLO V5的目标检测算法的其余部分网络结构图;
[0031]图4本专利技术的双向注意力机制网络图;
[0032]图5原YOLO V5算法检测摩托车和自行车目标的结果;
[0033]图6本专利技术改进YOLO V5算法检测摩托车和自行车目标的结果;
[0034]图7原YOLO V5算法检测动物目标的结果;
[0035]图8本专利技术改进本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于双向注意力机制增强YOLO V5的目标检测方法,其特征在于,所述方法应用于基于双向注意力机制增强YOLOv5网络,所述基于双向注意力机制增强YOLOv5网络在YOLOv5网络的骨干网络增加输出层和双向注意力机制模块,所述方法包括以下步骤:将数据集按比例分为训练数据集和测试数据集;对训练数据集的图片归一化为固定大小的图片;将归一化后的图片先输入到增加输出层的骨干网络,再经过双向注意力机制模块后,在使用改进的损失函数计算的YOLOv5网络中训练和测试;将归一化后的实时数据图片输入到训练好的基于双向注意力机制增强YOLOv5网络中,输出目标检测结果。2.根据权利要求1所述的基于双向注意力机制增强YOLO V5的目标检测方法,其特征在于,所述改进的损失函数如下:其中:A为预测框,B为真实框;A
ctr
为预测框中心点坐标,B
ctr
为真实框中心点坐标,ρ(.)是欧式距离计算;C为A、B最小包围框的对角线长度,IoU为交并比损失函数;是欧式距离计算;C为A、B最小包围框的对角线长度,IoU为交并比损失函数;w
gt
和h
gt
分别表示真实框的宽和高;w和h分别表示预测框的宽和高。3.根据权利要求1所述的基于双向注意力机制增强YOLO V5的目标检测方法,其特征在于,所述基于双向注意力机制增强YOLOv5网络在YOLOv5网络的Backbone部分的第一个残差组件CSP后引出浅层特征,在骨干网络提取特征后在Neck部分中对原网络增加第一输出层,所述第一输出层输出特征大小为160
×
160
×
255。4.根据权利要求1所述的基于双向注意力机制增强YOLO V5的目标检测方法,其特征在于,所述基于双向注意力机制增强YOLOv5网络在YOLOv5网络的Backbone部分中,在最后一个残差组件CSP后增加双向注意力特征加强模块,特征图经...

【专利技术属性】
技术研发人员:张媛倪鹏杨金龙刘佳朱志鑫
申请(专利权)人:江苏省特种设备安全监督检验研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1