当前位置: 首页 > 专利查询>三峡大学专利>正文

基于YOLOv3网络具有旋转适应能力的单阶段目标检测方法技术

技术编号:27847148 阅读:16 留言:0更新日期:2021-03-30 12:58
基于YOLOv3网络具有旋转适应能力的单阶段目标检测方法,在原始YOLOv3网络模型基础上,对YOLOv3网络模型输出层特征信息进行扩展,增加目标完整性预测、目标倾斜程度类别预测、目标最小外接矩形边界框位置预测,实现精准的目标定位。本发明专利技术提供一种基于YOLOv3网络具有旋转适应能力的单阶段目标检测方法,直接使用YOLOv3目标框作为不完整目标的检测框,所提方法为端到端的卷积神经网络,不仅在速度上具有较大的优势,同时还提升了采用矩形框定位方法的精准程度。方法的精准程度。方法的精准程度。

【技术实现步骤摘要】
基于YOLOv3网络具有旋转适应能力的单阶段目标检测方法


[0001]本专利技术涉及目标检测
,具体涉及一种基于YOLOv3网络具有旋转适应能力的单阶段目标检测方法。

技术介绍

[0002]近年来,基于卷积神经网络(CNN)的目标检测算法取得了突破性的进展,其应用场景非常广泛。目前,较为流行的通用目标检测算法按照处理步骤主要分为两大类,一类是基于候选区域的两阶段算法,另一类是端到端的单步检测算法。
[0003]基于候选区域的两阶段算法需要先产生目标候选框,再对候选框中目标的类别和位置进行预测,这类算法的典型代表为R

CNN系列算法。如文献[1]Girshick R,Donahue J,Darrell T,et al.Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[C]IEEE Conference on Computer Vision&Pattern Recognition.2014.中记载的技术方案。R

CNN是第一个成功将深度学习应用于目标检测上的算法,该算法使用滑动窗口的思想,采用选择性搜索算法提取候选区域,然后利用卷积神经网络获取每个候选区域的特征向量并使用支持向量机(SVM)进行分类,最后通过回归的方式调整目标边界框的大小,得到目标检测结果。
[0004]选择性搜索算法如文献[2]Uijlings,Jasper&;amp;Sande,K.&Gevers,T.&Smeulders,Arnold.(2013).Selective Search for Object Recognition.International Journal of Computer Vision.104.154

171.10.1007/s11263

013

0620

5.中记载的技术方案。R

CNN在检测精度上表现良好,但其时间和空间消耗较大,运行速度较慢。针对R

CNN速度上的缺陷,Fast R

CNN被提出。
[0005]如文献[3]Girshick,R.,Fast R

CNN.Computer Science

Computer Vision and Pattern Recognition.2015.中记载的技术方案。Fast R

CNN主要进行了两个方面的改进:1)采用一个CNN对全图进行特征提取;2)将提取候选区域后面的分类与回归模块合并训练,有效降低了模型的时间和空间的消耗。Fast R

CNN在提升模型整体运行速度的同时提高了目标检测准确率,但由于其候选框提取算法使用的是选择性搜索算法,仍然耗时较多。文献[4]Ren S,Girshick R,Girshick R,et al.Faster R

CNN:Towards Real

Time Object Detection with Region Proposal Networks[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2017,39(6):1137

1149.中记载的Faster R

CNN的主要贡献在于它的实时性,它使用区域生成网络替代选择性搜索算法,大大缩减了生成候选区域的时间,具有较高的实用价值。
[0006]典型的单步检测算法有文献[5]Liu W,Anguelov D,Erhan D,et al.SSD:Single Shot MultiBox Detector[J].2015.记载的SSD;文献[6]RedmonJ,Divvala S,Girshick R,et al.You Only Look Once:Unified,Real

Time Object Detection[J].2015.记载的YOLO系列等。与两阶段算法不同的是,这类算法仅仅通过一个卷积神经网络提取图像特征并利用回归的方式直接预测目标的类别和位置信息,因此速度上具有较大的优势。YOLO是
第一个成功的单步检测算法,检测速度快,但由于它直接通过回归的方式预测目标的位置信息,得到的目标边界框位置不准确,导致检测精度并不高。为了获取更精准的目标位置信息,SSD结合回归的思想及锚框机制,对整幅图像各个位置上的多尺度特征进行处理,从而得到目标类别及位置信息。SSD在检测速度上优于Faster RCNN,精度上优于YOLO,但SSD的先验框需要依据经验手动设置,无法训练得到,而且其对于小目标的召回率高。
[0007]文献[7]Redmon J,Farhadi A.[IEEE 2017IEEE Conference on Computer Vision and Pattern Recognition(CVPR)

Honolulu,HI(2017.7.21

2017.7.26)]2017IEEE Conference on Computer Vision and Pattern Recognition(CVPR)

YOLO9000:Better,Faster,Stronger[J].2017:6517

6525.记载的YOLOv2在YOLO的基础上引入了大量改进策略,如批归一化操作、锚框机制、新的特征提取网络、多尺度训练等,有效提升了目标检测的精度与速度,但是对于重叠目标分类问题,v2还是无法很好地解决。文献[8]Redmon J,Farhadi A.YOLOv3:An Incremental Improvement[J].2018.记载的YOLOv3补齐了以往YOLO版本的短板,主要通过使用更好的基础网络提取特征,并使用类似于特征金字塔的模块实现多尺度预测,实现了速度与精度的良好折中,尤其加强了对小目标的检测性能。
[0008]已有的通用目标算法在各种应用场景下的精度与速度都达到较好的性能,但它们都是基于垂直矩形框来定位目标区域的。为了进一步提升目标检测的精准性,已有部分研究人员提出了倾斜矩形框检测这一概念。
[0009]文献[9]朱煜,方观寿,郑兵兵,韩飞.基于旋转框精细定位的遥感目标检测方法研究[J/OL].自动化学报:1

11[2020

11

14].https://doi.org/10.16383/j.aas.c200261.提出了一种两阶段的旋转框检测网络,该网络粗调阶段得到旋转框,精调阶段优化旋转框的定位本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于YOLOv3网络具有旋转适应能力的单阶段目标检测方法,其特征在于:在原始YOLOv3网络模型基础上,对YOLOv3网络模型输出层特征信息进行扩展,增加目标完整性预测、目标倾斜程度类别预测、目标最小外接矩形边界框位置预测,实现精准的目标定位。2.根据权利要求1所述基于YOLOv3网络具有旋转适应能力的单阶段目标检测方法,其特征在于:所述YOLOv3网络模型输出层特征通道数filter的如公式(1)所示:filter=bNum*(ncls+ncoord+nconf)
ꢀꢀꢀ
(1)其中:bNum代表每个网格单元预测的边界框数目,即每个尺度的锚框负责预测一个边界框;ncls为模型训练时设定的类别个数;ncoord表示模型预测的边界框的位置信息数目,即边界框中心点(x,y)和宽w高h;nconf为模型预测的边界框的置信度。3.根据权利要求1所述基于YOLOv3网络具有旋转适应能力的单阶段目标检测方法,其特征在于:所述YOLOv3网络模型,在训练时,网络为每个标记框选取与之交并比IOU最大的锚框,并学习标记框对于锚框的偏移值,从而得到模型权重;检测时,网络以置信度最大的锚框为基准,通过预测目标框相对于该锚框的偏移值,并结合回归公式(2)、公式(3)、公式(4)、公式(5)得到目标边界框位置;b
x
=σ(t
x
)+c
x
ꢀꢀꢀ
(2)b
y
=σ(t
y
)+c
y
ꢀꢀꢀ
(3)(3)其中:b
x
、b
y
为目标边界框中心点位置;b
w
、b
h
分别为目标边界框宽高,t
x
、t
y
分别是网络预测的目标边界框中心点位置偏移量;t
w
、t
h
分别是网络预测的目标边界框宽高偏移量;c
x
、c
y
为目标边界框中心点所在的网格单元左上角坐标,p
w
、p
h
为锚框的宽高。4.根据权利要求1所述基于YOLOv3网络具有旋转适应能力的单阶段目标检测方法,其特征在于:所述YOLOv3网络模型输出层特征信息包括目标边界框的中心点坐标(x,y)、宽w、高h、置信度s、类别c信息。5.根据权利要求1所述基于YOLOv3网络具有旋转适应能力的单阶段目标检测方法,其特征在于:所述目标完整性预测,指的是判断目标在图像中是否完整,若目标只有部分在图像中,则目标不完整,标签f取值为0,后面的特征信息失效,直接使用原始YOLOv3网络的目标边界框做目标最小外接矩形框输出;否则目标完整,标签f取值为1,后续特征信息均有效。6.根据权利要求1所述基于YOLOv3网络具有旋转适应能力的单阶段目标检测方法,其特征在于:所述目标倾斜程度类别预测,指的是引入二进制编码的方式,对目标倾斜状态进行编码,4种倾斜状态使用2位二进制数编码,倾斜类别标签分别为00、01、10、11。7.根据权利要求1所述基于YOLOv3网络具有旋转适应能力的单阶段目标检测方法,其特征在于:所述目标最小外接矩形边界框位置预测,包括:k1、k2、k3、k4的取值在0

1之间,分别表示占垂直矩形框所在边的比例,且k1=k3、k2=k4;当目标最小外接矩形框为垂直矩形框时,若其宽大于高,类型标签取00,且k1=1、k2=0;否则类型标签取10,k1=0、k2=1;
当类型标签为00时,目标最小外接矩形框顶点S1、S2、S3、S4的坐标计算公式见公式(6)、公式(7)、公式(8)、公式(9);(x
s1
,y
s1
)=((b
x

b
w
/2+k1*b
w
),(b
y

b
h
/2)) (6)(x
s2
,y
s2
)=((b
x
+b
w
/2),(b
y
+b
h
/2

k2*b
h
)) (7)(x
s3
,y
s3
)=((b
x
+b
w
/2

k3*b
w
),(b
y
+b
h
/2)) (8)(x
s4
,y
s4
)=((b
x

b
w
/2),(b
y

b
h
/2+k4*b
h
)) (9)当类别标签为01时,目标最小外接矩形框顶点S1、S2、S3、S4的坐标计算公式见公式(15)、公式(16)、公式(17)、公式(18);(x
s1
,y
s1
)=((b
x
+b
w
/2),(b
y
+b
h
/2

k1*b
h
))(15);(x
s2
,y
s2
)=((b
x
...

【专利技术属性】
技术研发人员:徐光柱万秋波匡婉雷帮军石勇涛吴正平
申请(专利权)人:三峡大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1