一种基于语义关系的多尺度无锚框目标检测方法技术

技术编号:38812751 阅读:11 留言:0更新日期:2023-09-15 19:51
本发明专利技术涉及目标检测技术领域,具体涉及一种基于语义关系的多尺度无锚框目标检测方法,包括以下步骤:首先进行原始图片目标特征提取,再目标间语义关系构建,最后通过目标分类、中心度计算和位置回归,输出检测结果;本发明专利技术不同于现有方法由于锚框数量大而需要大量的计算资源,摒弃了传统anchor

【技术实现步骤摘要】
truth中心的指定范围内,否则将其从正样本候选点的集合内剔除;
[0015]步骤6:通过关系学习模块Relation Module建模正样本点所回归的目标间的关系,得到语义上的权重,提高受遮挡和小目标物体的检测精度;
[0016]步骤7:将所有正样本分类结果输出,回归结果与中心度分数结合,应用在训练的损失函数中。
[0017]可选的,所述COCO图像数据集为coco 2014数据集,包括80个类别,具有单个实例分割的标注。
[0018]可选的,在通过ResNet

50网络进行输入图像数据集的目标特征提取的过程中,使用的特征提取的主干网络为ResNet50,抽取C3~C5特征,分别下采样8、16、32倍。
[0019]可选的,步骤3中判断特征图上某点是否是正样本点的方法具体为:
[0020]对于第i层的某一个位置点(x,y),通过以下公式将其映射回原图像的位置,判断是否落在ground truth的边框值内:
[0021][0022]其中,s
i
表示第i层相对于输入图像的下采样步长,而[]表示向下取整,目的是为了将像素点对齐到中心。
[0023]可选的,步骤4中剔除正样本点中位置较偏远的各特征点的过程,包括下列步骤:
[0024]步骤4.1:对于各正样本候选点,使用以下公式,将其回归到ground truth边框的四条距离l,r,t,b:
[0025]对于某点(x,y)和其对应的groundtruthbox(x1,y1,x2,y2),
>[0026]l=x

x1[0027]t=y

y1[0028]r=x2‑
x
[0029]b=y2‑
y
[0030]步骤4.2:判断四条距离是否在规定的区间内,对于第i层的样本点,其4条距离的限制范围为:
[0031]m
i
‑1≤max(l,r,t,b)≤m
i
[0032]其中m
i
‑1,m
i
为该层设置的距离上下限,目的是让不同层的特征去负责不同尺度的物体。
[0033]可选的,为防止面积大的目标存在更多的正样本点,从而导致训练过程聚焦在大面积目标上,首先通过random

k方法随机选取k个正样本点,步骤4中剔除正样本点中位置较偏远的各特征点的过程,包括下列步骤:
[0034]步骤4.1:对于各正样本候选点,使用以下公式,将其回归到ground truth边框的四条距离l,r,t,b:
[0035]对于某点(x,y)和其对应的groundtruthbox(x1,y1,x2,y2),
[0036]l=x

x1[0037]t=y

y1[0038]r=x2‑
x
[0039]b=y2‑
y
[0040]步骤4.2:判断四条距离是否在规定的区间内,对于第i层的样本点,其4条距离的限制范围为:
[0041]m
i
‑1≤max(l,r,t,b)≤m
i
[0042]其中m
i
‑1,m
i
为该层设置的距离上下限,目的是让不同层的特征去负责不同尺度的物体。
[0043]可选的,所述关系学习模块Relation Module参考自注意力机制,公式表示如下:
[0044][0045]其中,f
R
(n)表示某个样本点所对应目标的与其他目标的语义关系特征,ω
mn
表示该目标在语义特征上的权重,W
V
表示线性变化操作,表示某目标的外观特征;
[0046]ω
mn
的具体定义如下:
[0047][0048]公式中分别第m个物体对第n个物体在外观上的语义权重,以及第m个物体对第n个物体在几何位置上的语义权重,具体定义如下:
[0049][0050][0051]公式中的W
K
,W
Q
分别表示f(n)在k,q方向上的线性变换,通过1*1的ConV层实现,除以的目的是消除维度影响,分别为目标m与目标n在几何位置上的特征,由其到groundtruth的四条边:l,r,t,b决定。
[0052]可选的,将所有正样本分类结果输出的分类分支通过4个卷积块,其结构为3*3的ConV

>GN(Group Normalization)

>ReLu,最后通过1个3*3的ConV层输出通道数映射到物体类别数;分类过程采用Focal Loss作为损失函数,回归分支采用的结构与分类分支相同,最后卷积输出通道数为4,包括回归的4个量:l,r,t,b,并采用改进的SIoU loss作为损失函数,中心度分支则采用BCE loss。
[0053]三个分支的损失函数的具体定义依次为:
[0054]分类分支视为二分类问题,采用Focal Loss:
[0055]foacl loss(pt)=

(1

p
t
)
γ
log(p
t
)
ꢀꢀꢀ
(13)
[0056]其中p
t
表示预测为该类别的概率,γ表示调制因子,防止易区分样本数量过多,从而使整个训练过程能够更多聚焦在难区分样本上。
[0057]回归分支,采用基础的IoU Loss:
[0058]IoU Loss=1

IoU
ꢀꢀꢀ
(14)
[0059][0060]其中A,B分别表示回归的边框和ground truth的边框。
[0061]中心度采用BCE Loss:
[0062]BCE loss(p
t
,y)=

y*log(p
t
)

(1

y)log(1

p
t
)
ꢀꢀꢀ
(16)
[0063]其中p
t
表示预测值,y表示实际值。
[0064]本专利技术提供了一种基于语义关系的多尺度无锚框目标检测方法,包括以下步骤:首先进行原始图片目标特征提取,再目标间语义关系构建,最后通过目标分类、中心度计算和位置回归,输出检测结果;本专利技术不同于现有方法由于锚框数量大而需要大量的计算资源,摒弃了传统anchor

based方法需要预先根据目标尺寸设计各种超参数的复杂过程,减轻了计算资源的开销,更加易于算法模型的落地,且训练时间更短。进一步的,由于关系模块的引入,借鉴了自注意力机制,提高了小目标乃至是受遮挡物体的检测精度,一定程度上提高了方法的泛化能力。
附图说明<本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于语义关系的多尺度无锚框目标检测方法,其特征在于,包括下列步骤:步骤1:传入COCO图像数据集进行训练;步骤2:通过ResNet

50网络进行输入图像数据集的目标特征提取;步骤3:使用密集预测的方法,并连接特征金字塔网络,将各层特征图上的每一个点映射回原图,通过判断其是否落在groundtruth的边框值内,将样本点分为负样本点与正样本候选点;步骤4:对于各正样本候选点,采用random

k样本分布策略,从中随机选择若干个数量的正样本,并将其回归到ground truth边框的四条边,得到其到ground truth边框的四条距离l,r,t,b;判断其长度是否在规定的区间内,否则将其从正样本候选点的集合内剔除;步骤5:对正样本候选点再进行中心度计算,判断其映射回原图后是否落在ground truth中心的指定范围内,否则将其从正样本候选点的集合内剔除;步骤6:通过关系学习模块Relation Module建模正样本点所回归的目标间的关系,得到语义上的权重,提高受遮挡和小目标物体的检测精度;步骤7:将所有正样本分类结果输出,回归结果与中心度分数结合,应用在训练的损失函数中。2.如权利要求1所述的基于语义关系的多尺度无锚框目标检测方法,其特征在于,所述COCO图像数据集为coco 2014数据集,包括80个类别,具有单个实例分割的标注。3.如权利要求2所述的基于语义关系的多尺度无锚框目标检测方法,其特征在于,在通过ResNet

50网络进行输入图像数据集的目标特征提取的过程中,使用的特征提取的主干网络为ResNet50,抽取C3~C5特征,分别下采样8、16、32倍。4.如权利要求3所述的基于语义关系的多尺度无锚框目标检测方法,其特征在于,步骤3中判断特征图上某点是否是正样本点的方法具体为:对于第i层的某一个位置点(x,y),通过以下公式将其映射回原图像的位置,判断是否落在ground truth的边框值内:其中,s
i
表示第i层相对于输入图像的下采样步长,而[]表示向下取整,目的是为了将像素点对齐到中心。5.如权利要求4所述的基于语义关系的多尺度无锚框目标检测方法,其特征在于,步骤4中为防止面积大的目标存在更多的正样本点,从而导致训练过程聚焦在大面积目标上,首先通过random

k方法随机选取k个正样本点,而剔除正样本点中位置较偏远的各特征点的过程,包括下列步骤:步骤4.1:对于各正样本候选点,使用以下公式,将其回归到ground truth边框的四条距离l,r,t,b:对于某点(x,y)和其对应的groundt...

【专利技术属性】
技术研发人员:蓝如师李航杨睿罗笑南
申请(专利权)人:南宁桂电电子科技研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1