一种基于交并比损失函数的目标检测方法及系统技术方案

技术编号:39714090 阅读:8 留言:0更新日期:2023-12-17 23:22
本发明专利技术提供了一种基于交并比损失函数的目标检测方法及系统,包括:对输入图像提取语义特征;通过图像候选框生成器对提取的语义特征生成目标候选框;将生成的候选框与真值计算交并比;通过最大化交并比的方式用梯度下降法更新网络参数,输出物体准确的检测框

【技术实现步骤摘要】
一种基于交并比损失函数的目标检测方法及系统


[0001]本专利技术涉及目标检测领域,具体地,涉及一种基于交并比损失函数的目标检测方法及系统


技术介绍

[0002]目标检测是计算机视觉任务中尤为重要的一部分,广泛运用在人脸识别

医学图像

行人检测

自动驾驶等领域

主流的目标检测网络可以被分为一阶段目标检测网络和二阶段目标检测网络两个部分

其中,一阶段网络不生成候选框,直接通过输入图像得到输出的目标种类和位置

二阶段网络首先通过候选框生成网络生成若干数量的候选框,再对候选框进行分类和位置回归,最后通过非极大值抑制算法得到最后的检测框的位置和类别

二阶段主流的网络包括
2016

Ross Girshick
等提出的
Faster R

CNN
网络,
2018

Zhaowei Cai
等提出的级联的
Cascade R

CNN
网络

[0003]二阶段目标检测网络主要由特征提取网络

候选框生成网络

分类和定位网络三个部分组成

其中,特征提取网络主要由卷积网络或者
Transformer
网络组成
。2015
年,
Kaiming He
等提出了
ResNet
网络
。2017
年,
Kaiming He
等提出了
ResNext
网络
。2021
年,
Hu
等提出了
Swin Transformer
网络

这些网络均为主流的目标检测中的特征提取网络

[0004]在目标检测中,网络需要学习到检测框的类别和位置信息

为了学习到以上信息,主要通过最小化损失函数来实现

一般的目标检测损失函数由两部分组成:
[0005]Loss

λ1L
obj
+(1

λ1)L
pos
[0006]其中
L
obj
为候选框分类的损失函数,
L
pos
为候选框定位的损失函数

λ1为调整分类损失函数和位置损失函数的权重因子

候选框分类损失函数由交叉熵损失函数组成:
[0007][0008][0009]其中,
N
cls
为候选框的样本数,
p
i
为真实的真值框标注,
p
i
为1代表为前景,
p
i
为0代表为后景,为生成的候选框为前景的概率值

[0010]候选框定位的损失函数为:
[0011][0012][0013]其中
N
reg
为正样本数量,为生成的候选框为前景的概率值,
t
i
为真值框的坐标,为预测的候选框的坐标值
。smooth
L1
函数为:
[0014][0015]对候选框的前后景判断用交叉熵损失函数并用
smooth
L1
损失函数对目标框的位置进行回归作为主流的损失函数,广泛运用于目标检测网络框架中

然而,在实际运用中,依然容易出现检测框位置不准确的问题

一方面,网络生成的候选框的位置相对比较粗糙,造成后续网络生成检测框时位置不够准确

另一方面,网络对于候选框位置的学习并没有使其与真值框重合程度最大作为目的,而是间接回归了坐标值,造成网络对目标框的位置回归不够精细


技术实现思路

[0016]针对现有技术中的缺陷,本专利技术的目的是提供一种基于交并比损失函数的目标检测方法和系统

[0017]根据本专利技术的一个方面,提供一种基于交并比损失函数的目标检测方法,包括:
[0018]对输入图像提取语义特征;
[0019]通过图像候选框生成器将所述语义特征生成目标候选框;
[0020]将所述目标候选框与真值计算交并比;
[0021]通过最大化所述交并比的方式,用梯度下降法更新网络参数,输出最终的目标候选框

[0022]优选地,采用深度为
101
的残差网络提取图像的语义特征

[0023]优选地,所述图像候选框生成器在所述语义特征图的每一个点生成包含多种尺度大小的

多种长宽比的多个候选框

[0024]优选地,所述多种尺度为
1282、2562、5122
,所述多种长宽比为
1∶1、1∶2、2∶1

{1282

2562

5122}
×
{1∶1

1∶2

2∶1}
共形成9个候选框

[0025]优选地,通过计算所有所述候选框与所有真值框的交并比,选择交并比最高的作为对应的真值框

[0026]优选地,所述通过最大化所述交并比的方式,用梯度下降法更新网络参数,输出最终的目标候选框,包括:
[0027]构建总损失函数,所述总损失函数为
smooth
L1
损失函数

交叉熵损失函数和交并比损失函数的和;
[0028]最小化所述总损失函数,并通过梯度下降法更新用于提取语义特征和生成目标候选框的网络的权重参数;
[0029]用更新所述权重参数后的提取语义特征和生成目标候选框的网络作用于待测图像,输出最终目标候选框

[0030]优选地,所述总损失函数为
L

L
loc
+L
cls
+L
iou

[0031]L
loc

smooth
L1
损失函数,其计算公式为:
[0032]x
为候选框与真实框之间的数值差异;
[0033]L
cls
为交叉熵损失函数,其计算公式为
L
cls



i p
i log(q
i
)
,其中
p
i
为真实标注,如果类别为正样本,则为1,反之为
0.q
i
为检本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于交并比损失函数的目标检测方法,其特征在于,包括:对输入图像提取语义特征;通过图像候选框生成器将所述语义特征生成目标候选框;将所述目标候选框与真值计算交并比;通过最大化所述交并比的方式,用梯度下降法更新网络参数,输出最终的目标候选框
。2.
根据权利要求1所述的一种基于交并比损失函数的目标检测方法,其特征在于,采用深度为
101
的残差网络提取图像的语义特征
。3.
根据权利要求1所述的一种基于交并比损失函数的目标检测方法,其特征在于,所述图像候选框生成器在所述语义特征图的每一个点生成包含多种尺度大小的

多种长宽比的多个候选框
。4.
根据权利要求3所述的一种基于交并比损失函数的目标检测方法,其特征在于,所述多种尺度为
1282、2562、5122
,所述多种长宽比为
1:1、1:2、2:1

{1282,2562,5122}
×
{1:1,1:2,2:1}
共形成9个候选框
。5.
根据权利要求1所述的一种基于交并比损失函数的目标检测方法,其特征在于,通过计算所有所述候选框与所有真值框的交并比,选择交并比最高的作为对应的真值框
。6.
根据权利要求1所述的一种基于交并比损失函数的目标检测方法,其特征在于,所述通过最大化所述交并比的方式,用梯度下降法更新网络参数,输出最终的目标候选框,包括:构建总损失函数,所述总损失函数为
smooth
L1
损失函数

交叉熵损失函数和交并比损失函数的和;最小化所述总损失函数,并通过梯度下降法更新用于提取语义特征和生成目标候选框的网络的权重参数;用更新所述权重参数后的提取语义特征和生成目标候选框的网络作用于待测图像,输出最终目标候选框
。7.
根据权利要求6所述的一种基于交并比损失函数的目标检测方法,其...

【专利技术属性】
技术研发人员:乔宇张希文
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1