一种基于并联交互架构模型实现多维度特征融合的目标检测方法技术

技术编号:36564053 阅读:17 留言:0更新日期:2023-02-04 17:19
本发明专利技术公开了一种基于并联交互架构模型实现多维度特征融合的目标检测方法,包括以下步骤:数据获取与处理,搭建模型训练环境、将数据集中的数据送入搭建好的模型中训练以及最终模型的验证与检测,本发明专利技术解决了传统目标检测任务中收敛速度慢、训练耗时长等难题,提高了目标检测任务的检测精度和检测速度。了目标检测任务的检测精度和检测速度。了目标检测任务的检测精度和检测速度。

【技术实现步骤摘要】
一种基于并联交互架构模型实现多维度特征融合的目标检测方法


[0001]本专利技术属于计算机视觉中的目标检测领域,具体提出一种基于并联交互架构模型实现特征融合的目标检测方法。

技术介绍

[0002]目标检测是计算机视觉领域长久以来不可忽视的一项基本任务,它的主要目的是预测图像中实例的位置和类别。作为包括实例分割和目标跟踪在内诸多视觉任务的基础,目标检测在图像视觉领域有着非常重要的研究意义。而随着近年来自动驾驶和工业缺陷检测等实用领域热度的上升,工业界对目标检测的关注也越来越多。目标检测的核心挑战是如何使检测网络从输入特征中充分学习到图像的空间信息和语义信息,以及如何由这些信息精准地定位和分类实例。目标检测器需要强大的特征融合能力和足够的空间敏感度,传统的深度学习检测模型大多基于卷积神经网络(CNN)。CNN利用卷积操作充分融合图像中的局部特征,灵敏的局部空间感知能力使CNN成为最适合目标检测任务的网络之一;但同时CNN具有一定局限性,它在全局空间上的特征融合能力有所欠缺。基于CNN的传统目标检测模型通常根据如何定位物体分为anchor

based和anchor

free;前者利用anchor来预测潜在物体,而后者通常基于中心点检测物体。Anchor

based模型又根据检测步骤可分为one

stage和two

stage;前者的经典模型有YOLO系列、SSD、RetinaNet等,后者则以R

CNN系列作为代表。二阶段的方法第一步先寻找潜在目标区域然后第二步对这些区域计算类别得分,即先定位再分类;而单阶段的方法直接一步生成检测框预测物体的类别和位置。基于CNN的模型主要有两个关键问题:如何对anchor和groundtruth标签分配和怎样使模型从特征中有效地学习到关键语义信息。为了解决这两个问题而设计的模型也具有比较明显的缺点,比如都需要在一定的先验条件下进行人工设计知识,而实际上针对不同的检测方法设计这些先验诸如合适的锚点和阈值是很困难的任务。另一方面,由于卷积核的尺寸限制,CNN的全局特征交互能力较弱。
[0003]近年来,随着视觉Transformer(ViT)的出现、DEtectionTRansformer(DETR)及其变体掀起了将Transformer应用于目标检测的热潮。这些新的物体检测范式舍弃了传统的CNN,取而代之的是精心设计的多层编码和解码架构;其中的编码器用来融合特征,而解码器用object query来解耦特征中的丰富语义。与CNN相比,ViT更加强调空间上全局间的语义关联,它通过全局self

attention机制整合全局空间特征。DETR把物体检测看作集合预测的任务。一定数量的object query在训练过程中与groundtruth相匹配。这个过程省去了传统模型的标签分配;而在推理过程中,网络根据object query直接预测对象。此外在定位物体方面,DETR使用positional embedding增强模型的位置感知灵敏度,然而,DETR类探测器存在网络收敛速度慢、算力依赖高等问题。

技术实现思路

[0004]本专利技术为解决上述问题,结合了深度学习其它领域的最新思想,提出了一种基于并联交互架构模型实现特征融合,旨在为模型提供先进的特征融合能力。首先在特征提取方式方面,本专利技术引入了不同于传统CNN的3D特征空间窗口采样,充分提取了局部和全局的空间特征;随后本专利技术提出了多维度特征融合网络CFFN,能够让模型在空间和通道维度深度地融合图像特征,从而更好的让模型学习到语义信息,进而实现更好的检测效果、达到更高的检测精度。
[0005]为达到上述目的,本专利技术提出以下技术方案:一种基于并联交互架构模型实现多维度特征融合的目标检测方法,该方法包括以下步骤:
[0006]步骤1:准备模型训练所需COCO2017数据集;在服务器中配置COCO2017数据集,按照要求格式放入训练文件夹;
[0007]步骤2:在mmdetection框架下搭建模型,配置训练所需PyTorch深度学习环境;
[0008]步骤3:设置好训练超参数,将数据集输入到并联交互架构端到端目标检测模型中进行训练;
[0009]步骤4:模型将输入图像送入ResNet50中进行特征提取,输出多尺度特征图feature map,同时由多尺度特征图构建3D特征采样空间;
[0010]步骤5:生成一组包含内容向量和位置向量的预测向量object queries。对每个object query而言,object query通过前馈神经网络生成采样偏移,以其位置向量作为初始坐标,结合采样偏移生成模型初始采样点;
[0011]步骤6:以初始采样点和其在采样空间上的八个邻点构成一个局部采样窗口,对窗口内的点进行插值,得到窗口特征,接着铺平窗口;
[0012]步骤7:得到的特征矩阵送入特征融合网络CFFN,CFFN由一个单向并联交互结构(PSUI)和一个组间自注意力层构成,这层实现对特征在空间和通道维度上的充分融合;
[0013]步骤8:充分融合后的特征送入AdaptiveMixing解码层进行特征解耦;
[0014]步骤9:解码层的最终输出依次通过两个前馈神经网络FFN分别更新object query的内容向量和位置向量,其内容向量和位置向量再经过两个FFN预测待检测目标的类别与位置;
[0015]步骤10:模型训练完毕后,可以验证其精度,也可以用训练好的模型文件根据输入的测试图片生成检测框,检测出测试图片中待检测物体的类别和位置。其中,步骤4中,模型用经典CNN骨干网络ResNet50对输入的图像进行特征预提取,得到四个不同尺度的特征图。若输入的图像维度为则输出多尺度特征图分别为则输出多尺度特征图分别为构建3D特征空间时,各个尺度特征图的通道数归一到值d
feat
。步骤5中,预测向量object query由内容向量和位置向量两部分组成,其中内容向量为object query的坐标(x,y,z,r)。
[0016]步骤6、如图2所示,在特征采样空间中取来自步骤5中的初始采样点的八个邻点和初始采样点本身构成局部采样窗口,接着对窗口内的采样点进行插值得到采样特征矩阵x∈R
G*W*P*C
(以一个objectquery为例)。其中G代表采样分组,W,P分别代表采样窗口数和采样窗口内点数,C代特征通道数。公式如下:
[0017][0018]上述公式中,S为局部窗口的尺寸,i为局部窗口内的采样点,Coordinate指采样点坐标,Interpolation则为插值操作。
[0019]步骤7中CFFN包含单向可交互并联结构(PSUI)和组间自注意力,其中PSUI由左右两条支路以及连接它们的一条自右向左单向交互网络组成,PSUI的细节如图3所示为:
[0020](1)左边的支路进行窗本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于并联交互架构模型实现多维度特征融合的目标检测方法,其特征在于,包括以下步骤:步骤1:准备模型训练所需COCO2017数据集;在服务器中配置COCO2017数据集,按照要求格式放入训练文件夹;步骤2:在mmdetection框架下搭建模型,配置训练所需PyTorch深度学习环境;步骤3:设置好训练超参数,将数据集输入到并联交互架构端到端目标检测模型中进行训练;步骤4:模型将输入图像送入ResNet50中进行特征提取,输出多尺度特征图feature map,接着由多尺度特征图构建3D特征采样空间;步骤5:生成一组包含内容向量和位置向量的预测向量object queries,对每个object query而言,object query通过前馈神经网络生成采样偏移,以其位置向量作为初始坐标,结合采样偏移生成模型初始采样点;步骤6:以初始采样点和其在采样空间的八个邻点构成一个局部采样窗口,对窗口内的点进行插值,得到窗口特征,接着铺平窗口;步骤7:得到的特征矩阵送入特征融合网络CFFN,CFFN由一个单向并联交互结构(PSUI)和一个组间自注意力层构成,这层实现对特征在空间和通道维度上的充分融合;步骤8:充分融合后的特征送入AdaptiveMixing解码层进行特征解耦;步骤9:解码层的最终输出依次通过两个前馈神经网络FFN分别更新object query的内容向量和位置向量,其内容向量和位置向量再经过两个FFN预测待检测目标的类别与位置;步骤10:模型训练完毕后,可以验证其精度,也可以用训练好的模型文件根据输入的测试图片生成检测框,检测出测试图片中待检测物体的类别和位置。2.根据权利要求1所述的一种基于并联交互架构模型实现多维度特征融合的目标检测方法,其特征在于,所述步骤4:本目标检测模型用经典CNN骨干网络ResNet50对输入的图像进行特征预提取,得到四个不同尺度的特征图,若输入的图像维度为则输出多尺度特征图分别为出多尺度特征图分别为其中此外在构建3D特征空间时,各个尺度特征图的通道数归一到统一值d
feat
,上述D
i
为第i层特征图的特征通道数,H0、W0为输入图像高度与宽度。3.根据权利要求1所述的一种基于并联交互架构模型实现多维度特征融合的目标检测方法,其特征在于,所述步骤5:预测向量object query由内容向量和位置向量两部分组成,其中内容向量表示object query的初始坐标(x,y,z,r),其中r为长宽比。4.根据权利要求1所述的一种基于并联交互架构模型实现多维度特征融合的目标检测方法,其特征在于,所述步骤6:在特征采样空间中取来自步骤5中的初始采样点的八个邻点和初始采样点本身...

【专利技术属性】
技术研发人员:杜松林谢昊
申请(专利权)人:东南大学深圳研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1