当前位置: 首页 > 专利查询>吉林大学专利>正文

基于粗掩码平滑标签监督的任意角度目标检测方法技术

技术编号:35740259 阅读:21 留言:0更新日期:2022-11-26 18:43
基于粗掩码平滑标签监督的任意角度目标检测方法属人工智能深度学习和计算及视觉目标检测与分割技术领域,本发明专利技术使用GLSMask

【技术实现步骤摘要】
基于粗掩码平滑标签监督的任意角度目标检测方法


[0001]本专利技术属人工智能深度学习和计算及视觉目标检测与分割
,具体涉及一种基于粗掩码平滑标签监督的任意角度目标检测方法。

技术介绍

[0002]随着遥感成像技术的不断发展,遥感图像被广泛应用于军事战略、城市规划、公安侦查、交通管制等的大领域,从不同层次和方向服务着人们的生产生活、社会的稳定以及国家的安全。按照影响记录的电磁波段的不同,遥感影像可以划分为紫外、可见光、近红外、热红外、微波图像和多波段、超多波段几大类。可见光遥感图像虽受光照和云雾等因素的影响较大,但在天气晴朗和海况较好的条件下,它更能反映目标形态,易于人眼辨别。因此,近年来基于可见光遥感图像的目标检测方法的研究备受关注。由于可见光遥感图像中存在较多非水平、大长宽比的目标,如舰船、车辆、港口、飞机等,常见的水平检测框无法有效地对这类目标进行准确的定位。因此,在可见光遥感图像中常用四边形的四个角点坐标来表征一个目标的任意方向的检测框。因此,如何有效回归具有任意方向非水平检测框成为可见光遥感图像目标检测领域的首要问题。针对这一问题,研究人员已经提出了许多解决方案,目前较为有效的方案大致有如下几类:1、基于角度参数回归的五参数方法;2、基于四个角点坐标回归的八参数法;3、基于角度分类的方法;4、基于中心点及向量预测的方法;5、基于旋转感兴趣区域的方法。目前,任意角度的非水平目标检测的方法逐渐走向成熟,然而由于角度的周期性以及角点或向量的顺序,边界问题使得大部分模型在角度边界的情况下,出现性能不稳定或者难以训练的问题。

技术实现思路

[0003]本专利技术的目的在于提供一种基于粗掩码平滑标签监督的任意角度目标检测方法。该方法的主体结构以Cascade Mask R

CNN为基础,主要包括Backbone骨干网络部分、Neck特征金字塔网络部分、RPN区域建议网络部分、BBOX头部网络部分以及GLSMask头部网络部分。在训练网络之前,对数据进行了适应性的增强以及增广,并且设置了相应的网络超参数配置。在训练的过程中,通过对每部分输出计算相应的损失函数,并将求导得到的梯度反向传播进行梯度下降参数更新,以让模型学习得到相应的检测功能。
[0004]本专利技术的基于粗掩码平滑标签监督的任意角度目标检测方法,包括下列步骤:
[0005]1.1获取数据集及预处理,包括下列步骤:
[0006]1.1.1根据DOTA数据集官方标签标准,即每个目标包含类别,横坐标1,纵坐标1,横坐标2,纵坐标2,横坐标3,纵坐标3,横坐标4,纵坐标4的形式,对所需要处理的可见光遥感图像数据集进行目标检测框标签。将可见光遥感图像数据集按照7:2:1的比例进行训练集、验证集和测试集的划分。若存在训练数据有限的情况,可以通过随机采样的方式,在DOTA官方数据集中进行采样,并将可见光遥感图像数据集填充至DOTA数据集相当的规模;
[0007]1.1.2对步骤1.1.1获取的具有检测框标签的可见光遥感图像数据集进行增强预
处理,包括随机翻转、随机角度旋转、随机裁剪、高斯模糊、高斯噪声、对比度增强、色彩抖动以及亮度增强,以增强数据集的特征多样性和规模;其中,涉及图像坐标位置变换的增强方案,需要以相同的偏置对目标检测框标签进行相同的变换;
[0008]1.2构建GLSMask

RCNN网络
[0009]GLSMask

RCNN网络的各项参数设置,包括下列步骤:
[0010]1.2.1构建Backbone骨干特征提取网络:Backbone骨干网络用于对输入图像进行特征提取,该部分的总体结构为ResNet101,包括下列步骤:
[0011]1.2.1.1ResNet101是一种深层的卷积神经网络,其特点是引入残差结构,形成残差网络,在模型正向及反向传播的过程中,具有跳跃连接的信息传播通路,能有效避免深层神经网络常见的梯度消失和梯度爆炸的现象,使模型的深度得以加深而进行高效的特征提取;
[0012]1.2.1.2残差网络的最基本结构是残差块,残差块分为两路分支,包括主路径和残差边;残差网络通过堆叠残差块结构,能对输入的RGB图像进行处理,最终得到通道数为2048,下采样率为32的深层特征;
[0013]1.2.1.3主路径包括三重卷积操作,顺序结构为卷积核大小为1
×
1的卷积层、批标准化层、ReLU激活函数、卷积核大小为3
×
3的卷积层、批标准化层、ReLU激活函数层、卷积核大小为1
×
1的卷积层、批标准化层以及ReLU激活函数层;
[0014]1.2.1.4残差边是从主路径的输入到输出之间跳跃连接的加和结构,残差网络对输入图像进行了5次下采样,均通过调整残差块第一层卷积层的步长为2,并在残差边加入步长为2的卷积层完成;
[0015]1.2.2构建Neck特征金字塔特征融合结构:使用特征金字塔FPN进行特征融合,包括下列步骤:
[0016]1.2.2.1FPN总体上是对ResNet101在提取特征的过程中所产生的各层中间特征进行上采样,并与对应的上一层特征进行融合,以达到对输入图像不同层级尺度的特征的有效融合;
[0017]1.2.2.2FPN将ResNet101中第二层级至第五层级的特征作为输入;在对每一层级的处理中,分为上采样和融合两个操作阶段;上采样操作首先对深层特征图进行卷积核尺寸为1
×
1的卷积操作,以缩减特征图的通道数,再通过双线性插值算法对特征图尺寸进行放大;融合操作首先对上采样得到的特征图和上一层级的特征图,以逐像素加和的方式进行简单融合,再对融合结果利用卷积核大小为3
×
3的卷积操作,进一步完善深浅层特征的融合;
[0018]1.2.2.3第五层级的骨干网络特征图直接通过FPN中的卷积核为1
×
1的卷积层和卷积核为3
×
3的卷积层得到第四层级的FPN特征图;第五层级的FPN特征图,由第四层级的FPN特征图经过最差池化下采样得到;
[0019]1.2.2.4FPN网络的输出总共包括五个层级,每个层级拥有不同的特征图尺寸,并且通道数均为256;
[0020]1.2.3区域建议网络RPN:继承Mask

RCNN模型中的区域建议网络,作用是依据输入特征图,生成目标的感兴趣区域位置建议,包括下列步骤:
[0021]1.2.3.1区域建议网络的输入特征为FPN的各层级输出特征;在结构上,RPN由一个
卷积核尺寸为3
×
3的卷积层,以及并行的两个卷积核大小为1
×
1的卷积层组成;
[0022]1.2.3.2RPN的两部分输出的通道数分别为18和36,含义为每个输入特征像素位置,匹配9个预设的不同长宽比和尺寸的锚定框,为每个锚定框输出2个分别代表前景和背景的概率的预测分数,以及4个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于粗掩码平滑标签监督的任意角度目标检测方法,其特征在于包括下列步骤:1.1获取数据集及预处理,包括下列步骤:1.1.1根据DOTA数据集官方标签标准,即每个目标包含类别,横坐标1,纵坐标1,横坐标2,纵坐标2,横坐标3,纵坐标3,横坐标4,纵坐标4的形式,对所需要处理的可见光遥感图像数据集进行目标检测框标签;将可见光遥感图像数据集按照7:2:1的比例进行训练集、验证集和测试集的划分;若存在训练数据有限的情况,可以通过随机采样的方式,在DOTA官方数据集中进行采样,并将可见光遥感图像数据集填充至DOTA数据集相当的规模;1.1.2对步骤1.1.1获取的具有检测框标签的可见光遥感图像数据集进行增强预处理,包括随机翻转、随机角度旋转、随机裁剪、高斯模糊、高斯噪声、对比度增强、色彩抖动以及亮度增强,以增强数据集的特征多样性和规模;其中,涉及图像坐标位置变换的增强方案,需要以相同的偏置对目标检测框标签进行相同的变换;1.2构建GLSMask

RCNN网络GLSMask

RCNN网络的各项参数设置,包括下列步骤:1.2.1构建Backbone骨干特征提取网络:Backbone骨干网络用于对输入图像进行特征提取,该部分的总体结构为ResNet101,包括下列步骤:1.2.1.1 ResNet101是一种深层的卷积神经网络,其特点是引入残差结构,形成残差网络,在模型正向及反向传播的过程中,具有跳跃连接的信息传播通路,能有效避免深层神经网络常见的梯度消失和梯度爆炸的现象,使模型的深度得以加深而进行高效的特征提取;1.2.1.2残差网络的最基本结构是残差块,残差块分为两路分支,包括主路径和残差边;残差网络通过堆叠残差块结构,能对输入的RGB图像进行处理,最终得到通道数为2048,下采样率为32的深层特征;1.2.1.3主路径包括三重卷积操作,顺序结构为卷积核大小为1
×
1的卷积层、批标准化层、ReLU激活函数、卷积核大小为3
×
3的卷积层、批标准化层、ReLU激活函数层、卷积核大小为1
×
1的卷积层、批标准化层以及ReLU激活函数层;1.2.1.4残差边是从主路径的输入到输出之间跳跃连接的加和结构,残差网络对输入图像进行了5次下采样,均通过调整残差块第一层卷积层的步长为2,并在残差边加入步长为2的卷积层完成;1.2.2构建Neck特征金字塔特征融合结构:使用特征金字塔FPN进行特征融合,包括下列步骤:1.2.2.1FPN总体上是对ResNet101在提取特征的过程中所产生的各层中间特征进行上采样,并与对应的上一层特征进行融合,以达到对输入图像不同层级尺度的特征的有效融合;1.2.2.2 FPN将ResNet101中第二层级至第五层级的特征作为输入;在对每一层级的处理中,分为上采样和融合两个操作阶段;上采样操作首先对深层特征图进行卷积核尺寸为1
×
1的卷积操作,以缩减特征图的通道数,再通过双线性插值算法对特征图尺寸进行放大;融合操作首先对上采样得到的特征图和上一层级的特征图,以逐像素加和的方式进行简单融合,再对融合结果利用卷积核大小为3
×
3的卷积操作,进一步完善深浅层特征的融合;1.2.2.3第五层级的骨干网络特征图直接通过FPN中的卷积核为1
×
1的卷积层和卷积核为3
×
3的卷积层得到第四层级的FPN特征图;第五层级的FPN特征图,由第四层级的FPN特
征图经过最差池化下采样得到;1.2.2.4 FPN网络的输出总共包括五个层级,每个层级拥有不同的特征图尺寸,并且通道数均为256;1.2.3区域建议网络RPN:继承Mask

RCNN模型中的区域建议网络,作用是依据输入特征图,生成目标的感兴趣区域位置建议,包括下列步骤:1.2.3.1区域建议网络的输入特征为FPN的各层级输出特征;在结构上,RPN由一个卷积核尺寸为3
×
3的卷积层,以及并行的两个卷积核大小为1
×
1的卷积层组成;1.2.3.2 RPN的两部分输出的通道数分别为18和36,含义为每个输入特征像素位置,匹配9个预设的不同长宽比和尺寸的锚定框,为每个锚定框输出2个分别代表前景和背景的概率的预测分数,以及4个分别代表锚定框调整至建议框的偏置参数:x,y,h,w;1.2.3.3按照前景的分数选取2000建议框,并进行非极大值抑制处理,得到最终的建议框参数;1.2.3.4根据建议框参数对FPN的各层输出特征进行截取,即可得到目标的感兴趣区域位置建议;1.2.4 ROIAlign:对RPN生成的不同尺寸的感兴趣区域特征,利用双线性插值算法进行下采样,得到空间尺寸统一为7
×
7和14
×
14的感兴趣区域特征;1.2.5 BBOX头部网络:BBOX头部网络根据输入的感兴趣区域特征为目标输出类别及检测框参数的预测;该部分包括下列步骤:1.2.5.1 BBOX头部网络的输入特征是尺寸为7
×
7的感兴趣区域特征;1.2.5.2 BBOX头部网络的顺序结构为卷积核尺寸为3
×
3的卷积层、卷积核尺寸为1
×
1的卷积层以及并行的分类器和回归器;分类器由全局平局池化层和BBOX类别全连接层组成;回归器由全局平均池化层和BBOX参数回归全连接层组成;1.2...

【专利技术属性】
技术研发人员:王世刚梁业成赵岩陈玫玫韦健
申请(专利权)人:吉林大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1