一种基于深度学习的视频图像小目标检测方法技术

技术编号:28872928 阅读:33 留言:0更新日期:2021-06-15 23:06
本发明专利技术公开了一种基于深度学习的视频图像小目标检测方法。主要用于在视频图像中检测小目标,构建了一种层次化尺度敏感的深度卷积神经网络模型,它摒弃了锚框机制和区域提议机制,采用了类似多任务学习的三分支并行检测架构。利用小、中、大三个尺度的目标在不同深度的基础卷积特征中的表达差异性,产生三种对应不同尺度性质的融合特征,使用三个并行分支在这三种融合特征上分别检测三个尺度范围的目标。使用层次化多尺度训练机制使得三个并行检测分支互相独立、互不干扰地运行,极大提高了对小目标的检测能力,并能稳定地在目标尺度范围变化复杂的场景下使用。其对偶方向矢量机制来预测倾斜框的姿态,有效提升了对小目标的检测性能。

【技术实现步骤摘要】
一种基于深度学习的视频图像小目标检测方法
本专利技术涉及计算机视觉和视频图像智能分析领域,具体涉及一种基于深度学习的视频图像小目标检测方法。
技术介绍
随着深度学习技术在计算机视觉领域的迅猛发展,其对目标检测的能力越来越强。目标检测任务中,有些目标的像素面积非常小,如小于30×30像素,一般被称为小目标。小目标检测是一项非常具有挑战性的任务。但在实际应用中,小目标检测具有非常广泛的需求,例如无人机航拍影像中车辆的检测、遥感影像中篮球场的检测、显微图像中细胞的检测等。随着无人机、遥感卫星、显微成像技术的快速发展,高精度的小目标检测技术已成为越来越迫切的需求。通常,目标检测技术是在视频图像中用一组方框将目标标示出来。传统的方法都是首先手工设计特征,然后通过提取的手工特征构造模板得到特征向量,最后使用AdaBoost或者SVM训练分类器。这样构建的目标检测器往往性能很差,因为采集数据时对光照条件、气象条件和拍摄姿态的影响非常敏感,成像效果差别非常大,手工设计的特征鲁棒性非常低,使得目标检测的精度较低,而面对小目标检测时,其误检率更高、检出率更低。近年来,深度神经网络的应用在目标检测领域取得了非常惊人的成果。与传统方法相比,基于深度卷积神经网络目标检测算法在通用目标检测任务上的性能提高了60%之多,并且仍在不断上升。然而,小目标检测仍然面临许多困难和挑战。在同一幅图像中,就同一种目标来说,有的目标像素面积可能非常大,而有的目标可能很小,且可能呈现为纤细的长条形,如船舶,它们的尺度变化范围非常广。小目标通常占据很少的像素面积,在图像上显现为一小团像素块,朝向可以为任意方向,容易混杂在背景信息中,也给小目标检测带来了巨大困难。总的来说,小目标检测面临面积小、尺度多变和方向多变等问题。本专利技术针对小目标检测的难题,专利技术了一种基于深度学习的小目标检测方法,解决视频图像小目标检测的多尺度、多方向等难题。
技术实现思路
为解决上述
技术介绍
中存在的问题,本专利技术实例提出一种基于深度学习的小目标检测方法,包含一种层次化尺度敏感的小目标检测网络设计架构,和一种能增强卷积网络尺度敏感性的多尺度训练机制。本专利技术的技术方案包含以下步骤:步骤S1,制作训练样本构建数据集,所述数据集中图片为包含待检测类别目标的影像,且目标具有不同的尺度,需包含大尺度(如大于90×90像素),小尺度(如小于30×30像素),以及中尺度(介于小尺度和大尺度之间),对图像中的目标使用倾斜框标注。步骤S2,构建神经网络检测模型,该模型分为三部分:基础特征提取模块,特征融合模块、方框检测模块。其中,在基础特征提取模块之后,网络分成了三个分支,每个分支包含独立的特征融合模块和方框检测模块,三个分支分别检测大、中、小三个尺度的目标。步骤S3,构建层次化多尺度训练机制,使用S1构建的数据集对步骤S2构建的检测模型进行训练。该训练机制使S2所构建的模型中各尺度分支互相独立、互不影像地预测各自尺度范围内的目标。步骤S4,利用步骤S3训练好的模型在视频图像中检测目标。进一步地,上述步骤S1具体如下。步骤S1-1,在视频图像数据系统中,选择不同场景的含有待检测目标的场景,收集M张样本图像。步骤S1-2,使用标注软件将M张图像中的全部待检测目标以倾斜矩形框的方式标注出来,得到M张图像对应的标签数据。进一步地,上述步骤S2所述神经网络模型包括基础特征提取模块、特征融合模块和方框检测模块3个组成部分。本专利技术所设计地神经网络架构如图1所示,具体如下。步骤S2-1,基础特征提取模块由深度卷积网络以残差堆叠的方式构成。本专利技术使用Resnet50作为基础特征提取模块的网络结构。第1层和第2层是conv1,第3至11层是conv2_x,第12至23层是conv3_x,第24至41层是conv4_x,第41至50层是conv5_x。输入图像的分辨率为H×W,则conv2_x至conv5_x输出的基础卷积特征的分辨率分别为和分别称为C2、C3、C4和C5。选择这4个基础卷积特征构成基础特征金字塔,作为基础特征提取模块的输出。步骤S2-2,特征融合模块分为三个分支,每个分支选取特定的基础特征融合得到单层特征,如图3所示。小尺度分支选取C3、C4、C5以自顶向下的方式融合得到P3,再经过3层转置卷积得到F3,F3的分辨率为H×W;中尺度分支选取C2、C3、C4以自底向上的方式融合得到P4,再经过2层转置卷积得到F4,F4的分辨率为大尺度分支选取C3、C4、C5以自底向上的方式融合得到P5,再经过2层转置卷积得到F5,F5的分辨率为步骤S2-3,方框检测模块接收特征融合模块输出的融合特征,检测每个分支范围内的待检测目标。每个分支的方框检测网络结构相同。但是它们的参数不同。检测模块接收融合特征后,分别输入4个卷积网络,输出4个张量。每个卷积网络都由两个卷积层构成,每层的卷积核都为3×3,步长为1,第一层的卷积核数量都为256,第二层的卷积核数量则不尽相同。第一个网络输出的张量表示目标的中心点热力图,通道数为C,C为所预测的目标类别;第二个网络输出的张量表示目标的中心点量化补偿,通道数为2;第三个网络输出的张量表示目标的方框宽高值,通道数2×C;第四个网络输出的张量表示目标的方框姿态,通道数为4。经过后处理,中心点量化补偿、方框宽高值和方框姿态张量会转换为向量,向量的长度表示可以预测目标的最大数量。从中心点热力图可以提取所预测目标的中心点坐标和类别。中心偏移向量会修正中心点坐标使其更为精确,再结合方框的宽高值和方框姿态就能获得倾斜矩形框的坐标。步骤S2-4,每个尺度分支预测各自尺度范围内的目标,在训练时,模型计算过程到此结束;在测试时,还要使用后处理过程将三个尺度分支的预测结果合并,使用非极大值抑制算法去除重复的预测框。进一步地,步骤3是本专利技术提出的层次化多尺度训练机制。该训练机制可以使步骤2所构建的模型中各尺度分支互相独立、互不影像地预测各自尺度范围内的目标,具体过程如下所述。将训练数据的标注分为三组,分表为小尺度、中尺度、大尺度的目标的标注。小尺度检测分支输入的融合特征分辨率为H×W,小尺度目标训练标签的坐标保持不变;中尺度分支的分辨率为中尺度目标训练标签的坐标缩小为大尺度分支的分辨率为大尺度目标训练标签的坐标缩小为每个分支中,中心点热力图使用改进的focalloss监督训练;中心点偏移补偿使用L1损失函数训练;方框的尺寸,既宽度和高度,也是使用L1损失函数训练;方框的姿态,具体来说就是对偶方向矢量,使用L1损失和几何损失共同监督训练。将所列4项加权求和得到每个分支的损失函数。最后,将三个分支的损失函数加总求和,便得到整个模型总的损失函数。进一步地,以步骤3方式训练步骤2构建的神经网络,得到收敛的检测模型。使用该检测模型和适当的后处理过程即可在测试图像中检测待检测的目标,具体过程如下。步骤4-1,将待检测图像输入到模型中,则三个检测分支分别预测三个尺度范围内的目标本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的视频图像小目标检测方法,包含以下步骤:/n步骤S1,制作训练样本构建数据集,所述数据集中的目标具有不同尺度,且框出该目标;/n步骤S2,构建神经网络检测模型,该模型分为三部分:基础特征提取模块,特征融合模块、方框检测模块,其中,在基础特征提取模块之后,网络分成了三个分支,每个分支包含独立的特征融合模块和方框检测模块,三个分支分别检测不同尺度的目标;/n步骤S3,构建层次化多尺度训练机制,使用S1构建的数据集对步骤S2构建的检测模型进行训练,该训练机制使S2所构建的模型中各尺度分支互相独立、互不影像地预测各自尺度范围内的目标;/n步骤S4,利用步骤S3训练好的模型在视频图像中检测目标,并将三个尺度的检测结果。/n

【技术特征摘要】
1.一种基于深度学习的视频图像小目标检测方法,包含以下步骤:
步骤S1,制作训练样本构建数据集,所述数据集中的目标具有不同尺度,且框出该目标;
步骤S2,构建神经网络检测模型,该模型分为三部分:基础特征提取模块,特征融合模块、方框检测模块,其中,在基础特征提取模块之后,网络分成了三个分支,每个分支包含独立的特征融合模块和方框检测模块,三个分支分别检测不同尺度的目标;
步骤S3,构建层次化多尺度训练机制,使用S1构建的数据集对步骤S2构建的检测模型进行训练,该训练机制使S2所构建的模型中各尺度分支互相独立、互不影像地预测各自尺度范围内的目标;
步骤S4,利用步骤S3训练好的模型在视频图像中检测目标,并将三个尺度的检测结果。


2.根据权利要求1所述的方法,其特征在于:所述步骤S1中不同尺度包括大中小三种尺度,其中大尺度为目标像素大于90×90;小尺度为目标像素小于30×30,中尺度介于小尺度和大尺度之间;目标以倾斜矩形框的方式标注出来。


3.根据权利要求1所述的方法,其特征在于:步骤S2构建的神经网络检测模型具体如下:
步骤S2-1,基础特征提取模块由深度卷积网络以残差堆叠的方式构成,使用深度卷积网络作为基础特征提取模块的网络结构;依次选择经过四次池化操作的卷积输出作为特征层;选择这4个基础卷积特征构成基础特征金字塔,作为基础特征提取模块的输出;
步骤S2-2,特征融合模块分为三个分支,每个分支选取特定的基础特征融合得到单层特征;若S2-1中四次池化后的分辨率分别为C2、C3、C4和C5,则小尺度分支选取C3、C4、C5以自顶向下的方式融合,再经过3层转置卷积;中尺度分支选取C2、C3、C4以自底向上的方式融合,再经过2层转置卷积;大尺度分支选取C3、C4、C5以自底向上的方式融合,再经过2层转置卷积;
步骤S2-3,方框检测模块接收特征融合模块输出的融合特征,检测每个分支范围内的待检测目标;检测模块接收融合特征后,分别输入4个卷积网络,输出4个张量;第一个网络输出的张量表示目标的中心点热力图;第二个网络输出的张量表示目标的中心点量化补偿;第三个网络输出的张量表示目标的方框宽高值;第四个网络输出的张量表示目标的方框姿态;融合方框的宽高值和方框姿态得到倾斜矩形框的坐标;
步骤S2-4,每个尺度分支预测各自尺度范围内的目标,在训练时,模型计算过程到此结束;在测试时,将三个尺度分支的预测结果合并,使用非极大值抑制算法去除重复的预测框。


4.根据权利要求3所述的方法,其特征在于:自顶向下融合过程为,首先基础特征经过1×1卷积得到中间特征,从最深层的中间特征开始,分辨率放大2倍与下一层的中间特征逐元素相加,由深至浅渐次传递,在最浅层经过3×3卷积得到融合特征。而自底向上融合过程为,首先基础特征也要经过1×1卷积得到中...

【专利技术属性】
技术研发人员:邱雁成邹勤
申请(专利权)人:北湾科技武汉有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1