一种基于边界框关键点距离的目标检测方法技术

技术编号：27198884 阅读：29 留言：0更新日期：2021-01-31 12:02

本发明专利技术公开了一种基于边界框关键点距离的目标检测方法。在计算机视觉领域目标检测的研究中，正负样本分类和边界框回归损失是重中之重，关乎了目标检测内容物的定位精度和识别精度。目前目标检测方法中基于交并比的正负样本分类和框回归损失的研究虽然卓有成效，但仍然面临着诸多挑战。因此，本发明专利技术基于边界框关键点之间的距离发明专利技术了关键点交并比定义方法，针对正负样本分类不准确问题，该方法更加准确的描述边界框之间的差距。针对目前回归损失计算效率低，准确度差等问题，依据关键点交并比，设计一个新的回归损失函数。本发明专利技术所公开的方法能适用于各种类型的目标检测网络，对目标检测框的定位框取准确度和检测精度都有一定程度的提高。度的提高。度的提高。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于边界框关键点距离的目标检测方法

[0001]本专利技术属于计算机视觉目标检测
，特别是涉及一种基于边界框关键点距离的目标检测方法。

技术介绍

[0002]目标检测是计算机视觉技术中一个重要的研究与应用领域。目标检测技术利用图像作为最主要的视觉线索之一，被广泛地应用于图像以及视频内容物识别领域的诸多视觉任务中。开发高精度的、可实时检测的目标检测算法成为图像及视频分析领域的一个重要突破点。当前，运用真实框作为训练目标检测模型的基准，将生成的锚框同真实框之间的大小与距离差距用交并比表示成数值，并对量化后的交并比进行排序，从而将诸多预测框分类成为正负样本，以供后续更加精确的得出最接近真实框的预测框。在这个过程中，交并比的作用十分突出，不同定义方式的交并比对正负样本的分类以及边界框回归的准确性影响重大。
[0003]目前主流的交并比定义方式根据其实现的方式进行区分，可以概括为以下几种主要类型：
[0004]交并比函数(IOU)。交并比函数就是计算两个边界框交集和并集之比。在计算机视觉目标检测任务中，一般约定0.5为交并比的额定阈值，用来判断预测的边界框是否正确。当交并比大于等于0.5时，就说预测框对目标物的定位检测正确；如果预测框和真实框完美重叠，那么交并比就是1，因为此时交集就等于并集。所以交并比是衡量定位精确度的一种方式，只需要统计算法正确检测和定位目标内容物的次数，就可以用这样的定义判断目标定位是否准确。将交并比作为损失函数引入训练过程，可以更加准确的挑选出与真实框更接近的预测框，从而提高目...

【技术保护点】

【技术特征摘要】
1.一种基于边界框关键点距离的目标检测方法，其特征在于，包括以下步骤：步骤1：对原始图像通过人工标记检测目标物真实框得到标注完备的目标检测数据集；步骤2：构建目标检测网络；步骤3：将标注完备的目标检测数据集样本图像通过目标检测网络预测，得到标注完备的目标检测数据集样本图像中目标检测物体的预测框；步骤4：利用标注完备的目标检测数据集样本图像中真实框的顶点坐标与预测框的顶点坐标构建最小覆盖矩形的横坐标最大值以及最小值、构建最小覆盖矩形的纵坐标最大值以及最小值，进一步得到最小覆盖矩形的顶点坐标；步骤5：依次计算标注完备的目标检测数据集样本图像中预测框与真实框的中心点欧式平方距离、预测框与真实框对应顶点的欧式平方距离、最小覆盖矩形的对角线长度的欧式平方距离，进一步计算关键点交并比；步骤6：结合关键点交并比以及样本阈值，将目标检测数据集中样本图像划分为正样本或负样本，进一步构建目标检测网络损失函数模型，结合正样本、负样本训练，得到优化后目标检测网络。2.根据权利要求1所述的基于边界框关键点距离的目标检测方法，其特征在于：步骤1所述标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的顶点坐标依次为：A
k
＝(a
k,x
,a
k,y
),B
k
＝(b
k,x
,b
k,y
),C
k
＝(c
k,x
,c
k,y
),D
k
＝(d
k,x
,d
k,y
)；其中，k∈[1,L]，L为标注完备的目标检测数据集中样本图像的数量，(a
k,x
,a
k,y
)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的左上角顶点坐标，(b
k,x
,b
k,y
)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的右上角顶点坐标，(c
k,x
,c
k,y
)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的左下角顶点坐标，(d
k,x
,d
k,y
)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的右下角顶点坐标；步骤1所述标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的中心点坐标为：H
k
＝(h
k,x
,h
k,y
)h
k,x
＝|a
k,x-d
k,x
|/2h
k,y
＝|a
k,y-b
k,x
|/2其中，k∈[1,L]，L为标注完备的目标检测数据集中样本图像的数量,(h
k,x
,h
k,y
)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的中心点坐标；步骤1所述标注完备的目标检测数据集为：train＝{data1,data2,...,data
L
}其中，L为标注完备的目标检测数据集中样本图像的数量，data
k
为标注完备的目标检测数据集中第k个样本图像，k∈[1,L]，data
k
(i,j)为标注完备的目标检测数据集中第k个样本图像中第i行第j列的像素值，i∈[1,M]，j∈[1,N]，M为样本图像中行的数量，N为样本图像中列的数量；步骤1所述每个样本图像真实框内目标类别为：type
k
；type
k
为标注完备的目标检测数据集中第k个样本图像检测框内目标类别，k∈[1,L]，L
为标注完备的目标检测数据集中样本图像的数量；步骤1所述神经网络训练数据集为：{data
k
,type
k
},k∈[1,L]。3.根据权利要求1所述的基于边界框关键点距离的目标检测方法，其特征在于：步骤2所述目标检测网络为SSD目标检测网络；所述SSD目标检测网络包括：基础网络层、特征提取层、分类检测网络层依次级联构成；所述基础网络层由第一区块、第二区块、...、第K区块依次级联构成；K＝5；所述特征提取层由第K+1区块、第K+2区块、...、第K+M区块依次级联构成；M＝2；所述分类检测网络层由第K+M+1区块、第K+M+2区块、...、第K+M+N区块依次级联构成；N＝4；所述第u个区块由多个卷积层、一个池化层构成,u∈[1,K+M+N]；所述第u个区块中卷积层的数量为L
u
,u∈[1,K+M+N]，v∈[1,L
u
]；所述第u个区块中待寻优的权重向量为w
u
,u∈[1,K+M+N]；所述第u个区块中待寻优的偏执向量为b
u
,u∈[1,K+M+N]；第u个区块中第v(v∈[1,L
u
])个卷积层即为一个最小的神经网络单元，令该卷积层的卷积核参数为n
u,v
*n
u,v
*m
u,v
,则该卷积层公式可表达为：conv
u,v
＝Conv(n
u,v
*n
u,v
*m
u,v
,n
u,v-1
*n
u,v-1
*m
u,v-1
),u∈[1,K+M+N]，v∈[1,L
u
]其中，conv
u,v
表示第u个区块中第v层卷积的计算，conv表示卷积计算，n表示卷积核大小，通常由卷积层深度加深而逐渐对半缩小，m表示通道数目；所述池化层利用一个p*q的矩阵窗口在张量上进行扫描，得到张量上对应格子的值为G[h,g]，将每个矩阵中的通过池化值表示张量上整个p*q个像素的值；所述池化层的公式定义为：其中，avgpool
u,v
表示在第u个区块的该池化操作，h表示p*q的矩阵窗口在图片张量上对应的像素窗口的行数，g表示p*q的矩阵窗口在图片张量上对应的像素窗口的列数。4.根据权利要求1所述的基于边界框关键点距离的目标检测方法，其特征在于：步骤3所述标注完备的目标检测数据集中第k个样本图像中目标检测物体的预测框顶点坐标依次表示为：A
k
’
＝(a
’
k,x
,a
’
k,y
),B
k
’
＝(b
’
k,x
,b
’
k,y
),C
k
’
＝(c
’
k,x
,c
’
k,y
),D
k
’
＝(d
’
k,x
,d
’
k,y
)；其中，k∈[1,L]，L为标注完备的目标检测数据集中样本图像的数量，(a
’
k,x
,a
’
k,y
)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的左上角顶点坐标，(b
’
k,x
,b
’
k,y
)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的右上角顶点坐标，(c
’
k,x
,c
’
k,y
)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的左下角顶点坐标，(d
’
k,x
,d
’
k,y
)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的右下角顶点坐标；步骤3所述标注完备的目标检测数据集中第k个样本图像中目标检测物体的预测框的中心点坐标为：H
k
’
＝(h
’
k,x
,h
’
k,y
)
h
’
k,x
＝|a
’
k,x-d
’
k,x
|/2h
’
k,y
＝|a
’
k,y
–
b
’
k,y
|/2其中，k∈[1,L]，L为标注完备的目标检测数据集中样本图像的数量,(h
’
k,x
,h
’
k,y
)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的中心点坐标。5.根据权利要求1所述的基于边界框关键点距离的目标检测方法，其特征在于：步骤4中所述最小覆盖矩形的横坐标最大值为：x
k,max
＝max{a
k,x
，d
k,x
，a
’
k,x
，d
’
k,y
}步骤4中所述最小覆盖矩形的横坐标最小值为：x
k,min
＝min{a
k,x
，d
k,x
，a
’
k,x
，d
’
k,y
}其中，k∈[1,L]，L为标注完备的目标检测数据集中样本图像的数量，x
k,max
为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的横坐标最大值，x
k,min
为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的横坐标最小值，(a
k,x
,a
k,y
)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的左上角顶点坐标，(a
’
k,x
,a
’
k,y
)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的左上角顶点坐标，(d
k,x
...

【专利技术属性】
技术研发人员：涂志刚，汤佳欣，
申请(专利权)人：武汉大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人