当前位置: 首页 > 专利查询>武汉大学专利>正文

一种基于边界框关键点距离的目标检测方法技术

技术编号:27198884 阅读:23 留言:0更新日期:2021-01-31 12:02
本发明专利技术公开了一种基于边界框关键点距离的目标检测方法。在计算机视觉领域目标检测的研究中,正负样本分类和边界框回归损失是重中之重,关乎了目标检测内容物的定位精度和识别精度。目前目标检测方法中基于交并比的正负样本分类和框回归损失的研究虽然卓有成效,但仍然面临着诸多挑战。因此,本发明专利技术基于边界框关键点之间的距离发明专利技术了关键点交并比定义方法,针对正负样本分类不准确问题,该方法更加准确的描述边界框之间的差距。针对目前回归损失计算效率低,准确度差等问题,依据关键点交并比,设计一个新的回归损失函数。本发明专利技术所公开的方法能适用于各种类型的目标检测网络,对目标检测框的定位框取准确度和检测精度都有一定程度的提高。度的提高。度的提高。

【技术实现步骤摘要】
一种基于边界框关键点距离的目标检测方法


[0001]本专利技术属于计算机视觉目标检测
,特别是涉及一种基于边界框关键点距离的目标检测方法。

技术介绍

[0002]目标检测是计算机视觉技术中一个重要的研究与应用领域。目标检测技术利用图像作为最主要的视觉线索之一,被广泛地应用于图像以及视频内容物识别领域的诸多视觉任务中。开发高精度的、可实时检测的目标检测算法成为图像及视频分析领域的一个重要突破点。当前,运用真实框作为训练目标检测模型的基准,将生成的锚框同真实框之间的大小与距离差距用交并比表示成数值,并对量化后的交并比进行排序,从而将诸多预测框分类成为正负样本,以供后续更加精确的得出最接近真实框的预测框。在这个过程中,交并比的作用十分突出,不同定义方式的交并比对正负样本的分类以及边界框回归的准确性影响重大。
[0003]目前主流的交并比定义方式根据其实现的方式进行区分,可以概括为以下几种主要类型:
[0004]交并比函数(IOU)。交并比函数就是计算两个边界框交集和并集之比。在计算机视觉目标检测任务中,一般约定0.5为交并比的额定阈值,用来判断预测的边界框是否正确。当交并比大于等于0.5时,就说预测框对目标物的定位检测正确;如果预测框和真实框完美重叠,那么交并比就是1,因为此时交集就等于并集。所以交并比是衡量定位精确度的一种方式,只需要统计算法正确检测和定位目标内容物的次数,就可以用这样的定义判断目标定位是否准确。将交并比作为损失函数引入训练过程,可以更加准确的挑选出与真实框更接近的预测框,从而提高目标检测的精度。
[0005]广义交并比(GIOU)。在实际使用的过程中,交并比在优化框回归上存在一些缺陷。在轴对称的情况下,交并比可以直接当做回归损失,然而,当边界框不相交(即交并比的分子——交集为0)时,交并比的数量值恒为0,无法发挥度量的作用。因此广义交并比在交并比的基础上进行了新的定义,即:广义交并比就是在交并比的基础上添加一个惩罚项。这个惩罚项带来的作用是当交并比失效的时候,惩罚项可以很好的起到辅助度量的作用,使得广义交并比在整体上是具有度量价值和优化框回归的作用的。广义交并比的惩罚项是先找到两个边界框的最大覆盖框,用最大覆盖框与两框不相交的部分的面积作为分子,最大覆盖框面积作为分母,比值得到该惩罚项。
[0006]距离交并比(DIOU)。关键点交并比和广义交并比一样,都是在交并比(IOU)的基础上添加一个惩罚项,不同之处在于惩罚项的作用形式不同。由上述可知,广义交并比仍然通过边界框相交面积来定义交并比从而得到一个分类标准,而距离交并比首次提出使用中心点距离和两个边界框的最大覆盖矩形的对角线之比作为惩罚项,用距离的优化使得边界框回归的速度得到了极大的提高。同时还将边界框的宽高比也考虑存在内,设置了由两个超参数之积组成的二级惩罚项,使得预测框从位置,宽高比,相交区域三个方面同时向真实框
靠近,能够得到更加精确的位置预测模型。
[0007]交并比的定义方式是目标检测中位置精确度的实现基础。交并比的定义对正负样本分类的作用最为关键,但现存的三种交并比定义方式都基于最原始的交并比进行拼叠而成,在实际运用中还是最原始的更易于被接受。其原因在于,上述方法均存在不少缺陷,但最原始的交并比相对较为简便:(1)普通交并比在两个边界框不相交的时候就会失去度量的作用,在模型训练过程中失效,造成框回归无法进一步优化的缺陷。(2)广义交并比仅仅解决了不相交边界框回归失效,但是加入了更多的回归步骤,使得模型计算量增大且收敛很慢,带来的模型精度提升也并不明显。(3)距离交并比首先使用中心点作为回归基准解决了广义交并比模型收敛慢的缺陷,但是距离交并比本身经验性的设置了两个超参数,降低了模型的泛化能力,且更改了梯度下降参数,在有些情况下会带来较大的误差。

技术实现思路

[0008]针对现有交并比所存在的缺点,采用了本专利技术基于边界框关键点之间的距离提供了一种新的交并比定义方法运用于正负样本检测和回归损失函数,专门用于解决当前存在的问题。
[0009]针对正负样本分类不准确问题,本专利技术设计了新的交并比定义,更加准确的描述边界框之间的差距,对正负样本分类的数值量化参考十分有效。
[0010]针对目前回归损失计算效率低,准确度差等问题,本专利技术将新设计的更加有效的交并比作为基础,设计出一个新的回归损失,将目标检测准确度影响因素赋予重要的权重,可以使目标检测模型的精度得到很大的提高。
[0011]本专利技术方法能有效的处理了现存交并比下模型收敛速度慢,精确度不高的问题。
[0012]为实现上述目的,按照本专利技术的一个方面,提供了一种基于边界框关键点之间的距离而设计的关键点交并比定义方法。本方法用于深度学习神经网络训练过程,多数情况下用于目标检测网络的训练过程。
[0013]本专利技术提出了一种基于边界框关键点距离的目标检测方法,其特征在于,包括以下步骤:
[0014]步骤1:对原始图像通过人工标记检测目标物真实框得到标注完备的目标检测数据集;
[0015]步骤2:构建目标检测网络;
[0016]步骤3:将标注完备的目标检测数据集样本图像通过目标检测网络预测,得到标注完备的目标检测数据集样本图像中目标检测物体的预测框;
[0017]步骤4:利用标注完备的目标检测数据集样本图像中真实框的顶点坐标与预测框的顶点坐标构建最小覆盖矩形的横坐标最大值以及最小值、构建最小覆盖矩形的纵坐标最大值以及最小值,进一步得到最小覆盖矩形的顶点坐标;
[0018]步骤5:依次计算标注完备的目标检测数据集样本图像中预测框与真实框的中心点欧式平方距离、预测框与真实框对应顶点的欧式平方距离、最小覆盖矩形的对角线长度的欧式平方距离,进一步计算关键点交并比;
[0019]步骤6:结合关键点交并比以及样本阈值,将目标检测数据集中样本图像划分为正样本或负样本,进一步构建目标检测网络损失函数模型,结合正样本、负样本训练,得到优
化后目标检测网络。
[0020]作为优选,步骤1所述标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的顶点坐标依次为:
[0021]A
k
=(a
k,x
,a
k,y
),B
k
=(b
k,x
,b
k,y
),C
k
=(c
k,x
,c
k,y
),D
k
=(d
k,x
,d
k,y
);
[0022]其中,k∈[1,L],L为标注完备的目标检测数据集中样本图像的数量,(a
k,x
,a
k,y
)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的左上角顶点坐标,(b
k,x
,b
k,y
)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于边界框关键点距离的目标检测方法,其特征在于,包括以下步骤:步骤1:对原始图像通过人工标记检测目标物真实框得到标注完备的目标检测数据集;步骤2:构建目标检测网络;步骤3:将标注完备的目标检测数据集样本图像通过目标检测网络预测,得到标注完备的目标检测数据集样本图像中目标检测物体的预测框;步骤4:利用标注完备的目标检测数据集样本图像中真实框的顶点坐标与预测框的顶点坐标构建最小覆盖矩形的横坐标最大值以及最小值、构建最小覆盖矩形的纵坐标最大值以及最小值,进一步得到最小覆盖矩形的顶点坐标;步骤5:依次计算标注完备的目标检测数据集样本图像中预测框与真实框的中心点欧式平方距离、预测框与真实框对应顶点的欧式平方距离、最小覆盖矩形的对角线长度的欧式平方距离,进一步计算关键点交并比;步骤6:结合关键点交并比以及样本阈值,将目标检测数据集中样本图像划分为正样本或负样本,进一步构建目标检测网络损失函数模型,结合正样本、负样本训练,得到优化后目标检测网络。2.根据权利要求1所述的基于边界框关键点距离的目标检测方法,其特征在于:步骤1所述标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的顶点坐标依次为:A
k
=(a
k,x
,a
k,y
),B
k
=(b
k,x
,b
k,y
),C
k
=(c
k,x
,c
k,y
),D
k
=(d
k,x
,d
k,y
);其中,k∈[1,L],L为标注完备的目标检测数据集中样本图像的数量,(a
k,x
,a
k,y
)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的左上角顶点坐标,(b
k,x
,b
k,y
)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的右上角顶点坐标,(c
k,x
,c
k,y
)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的左下角顶点坐标,(d
k,x
,d
k,y
)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的右下角顶点坐标;步骤1所述标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的中心点坐标为:H
k
=(h
k,x
,h
k,y
)h
k,x
=|a
k,x-d
k,x
|/2h
k,y
=|a
k,y-b
k,x
|/2其中,k∈[1,L],L为标注完备的目标检测数据集中样本图像的数量,(h
k,x
,h
k,y
)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的中心点坐标;步骤1所述标注完备的目标检测数据集为:train={data1,data2,...,data
L
}其中,L为标注完备的目标检测数据集中样本图像的数量,data
k
为标注完备的目标检测数据集中第k个样本图像,k∈[1,L],data
k
(i,j)为标注完备的目标检测数据集中第k个样本图像中第i行第j列的像素值,i∈[1,M],j∈[1,N],M为样本图像中行的数量,N为样本图像中列的数量;步骤1所述每个样本图像真实框内目标类别为:type
k
;type
k
为标注完备的目标检测数据集中第k个样本图像检测框内目标类别,k∈[1,L],L
为标注完备的目标检测数据集中样本图像的数量;步骤1所述神经网络训练数据集为:{data
k
,type
k
},k∈[1,L]。3.根据权利要求1所述的基于边界框关键点距离的目标检测方法,其特征在于:步骤2所述目标检测网络为SSD目标检测网络;所述SSD目标检测网络包括:基础网络层、特征提取层、分类检测网络层依次级联构成;所述基础网络层由第一区块、第二区块、...、第K区块依次级联构成;K=5;所述特征提取层由第K+1区块、第K+2区块、...、第K+M区块依次级联构成;M=2;所述分类检测网络层由第K+M+1区块、第K+M+2区块、...、第K+M+N区块依次级联构成;N=4;所述第u个区块由多个卷积层、一个池化层构成,u∈[1,K+M+N];所述第u个区块中卷积层的数量为L
u
,u∈[1,K+M+N],v∈[1,L
u
];所述第u个区块中待寻优的权重向量为w
u
,u∈[1,K+M+N];所述第u个区块中待寻优的偏执向量为b
u
,u∈[1,K+M+N];第u个区块中第v(v∈[1,L
u
])个卷积层即为一个最小的神经网络单元,令该卷积层的卷积核参数为n
u,v
*n
u,v
*m
u,v
,则该卷积层公式可表达为:conv
u,v
=Conv(n
u,v
*n
u,v
*m
u,v
,n
u,v-1
*n
u,v-1
*m
u,v-1
),u∈[1,K+M+N],v∈[1,L
u
]其中,conv
u,v
表示第u个区块中第v层卷积的计算,conv表示卷积计算,n表示卷积核大小,通常由卷积层深度加深而逐渐对半缩小,m表示通道数目;所述池化层利用一个p*q的矩阵窗口在张量上进行扫描,得到张量上对应格子的值为G[h,g],将每个矩阵中的通过池化值表示张量上整个p*q个像素的值;所述池化层的公式定义为:其中,avgpool
u,v
表示在第u个区块的该池化操作,h表示p*q的矩阵窗口在图片张量上对应的像素窗口的行数,g表示p*q的矩阵窗口在图片张量上对应的像素窗口的列数。4.根据权利要求1所述的基于边界框关键点距离的目标检测方法,其特征在于:步骤3所述标注完备的目标检测数据集中第k个样本图像中目标检测物体的预测框顶点坐标依次表示为:A
k

=(a

k,x
,a

k,y
),B
k

=(b

k,x
,b

k,y
),C
k

=(c

k,x
,c

k,y
),D
k

=(d

k,x
,d

k,y
);其中,k∈[1,L],L为标注完备的目标检测数据集中样本图像的数量,(a

k,x
,a

k,y
)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的左上角顶点坐标,(b

k,x
,b

k,y
)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的右上角顶点坐标,(c

k,x
,c

k,y
)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的左下角顶点坐标,(d

k,x
,d

k,y
)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的右下角顶点坐标;步骤3所述标注完备的目标检测数据集中第k个样本图像中目标检测物体的预测框的中心点坐标为:H
k

=(h

k,x
,h

k,y
)
h

k,x
=|a

k,x-d

k,x
|/2h

k,y
=|a

k,y

b

k,y
|/2其中,k∈[1,L],L为标注完备的目标检测数据集中样本图像的数量,(h

k,x
,h

k,y
)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的中心点坐标。5.根据权利要求1所述的基于边界框关键点距离的目标检测方法,其特征在于:步骤4中所述最小覆盖矩形的横坐标最大值为:x
k,max
=max{a
k,x
,d
k,x
,a

k,x
,d

k,y
}步骤4中所述最小覆盖矩形的横坐标最小值为:x
k,min
=min{a
k,x
,d
k,x
,a

k,x
,d

k,y
}其中,k∈[1,L],L为标注完备的目标检测数据集中样本图像的数量,x
k,max
为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的横坐标最大值,x
k,min
为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的横坐标最小值,(a
k,x
,a
k,y
)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的左上角顶点坐标,(a

k,x
,a

k,y
)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的左上角顶点坐标,(d
k,x
...

【专利技术属性】
技术研发人员:涂志刚汤佳欣
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1