一种基于图卷积的目标检测后处理方法及装置制造方法及图纸

技术编号:33125312 阅读:19 留言:0更新日期:2022-04-17 00:34
本发明专利技术公开了一种基于图卷积的目标检测后处理方法及装置,该方法具体包括如下步骤:步骤1,训练阶段:训练得到图卷积神经网络模型;(1)筛选出最佳匹配的预测框;(2)使用图卷积预测最佳匹配的矩形框集合;步骤2,预测阶段:对于每张检测图片,将目标检测模型预测出的且经过类别得分阈值过滤后的矩形框集合记为B,将B构造为图,使用训练好的图卷积神经网络模型,如果其预测类别为1的得分大于预先设定的阈值,则保留该结点对应的矩形框,所有保留的矩形框集合即是最终的输出结果。通过使用图卷积操作替代操作,不需要预先设置的阈值,利用了矩形框自身的特征信息,以及矩形框的上下文信息,可以很大程度提升目标检测模型的后处理性能。处理性能。

【技术实现步骤摘要】
一种基于图卷积的目标检测后处理方法及装置


[0001]本专利技术涉及图像识别研究领域,尤其是目标检测领域和深度学习领域,具体涉及一种基于图卷积的目标检测后处理方法及装置。

技术介绍

[0002]目标检测模型的后处理阶段包含两个步骤,首先滤除类别得分低于阈值的预测结果,之后使用操作过滤重叠的矩形框,得到最终的目标检测预测结果。由于操作只使用了矩形框的位置信息,很容易受到预先设置阈值的影响,如果阈值过大,容易导致在同一个目标上输出多个矩形框,降低了准确率,如果阈值过小,容易导致相邻的两个目标只输出一个矩形框,降低了召回率。

技术实现思路

[0003]为了克服现有技术的不足,本专利技术提供了一种基于图卷积的目标检测后处理方法及装置,可以很大程度提升目标检测模型的后处理性能。技术方案如下:
[0004]本专利技术提供了一种基于图卷积的目标检测后处理方法,该方法具体包括如下步骤:
[0005]步骤1,训练阶段:训练得到图卷积神经网络模型;
[0006](1)筛选出最佳匹配的预测框;
[0007]对于每张训练图片,将目标检测模型预测出的且经过类别得分阈值过滤后的矩形框集合记为B={b1,b2,

,b
n
},将图片中所有真实目标的矩形框集合记为G={g1,g2,

,g
m
}。
[0008]使用集合B和集合G构造带权重的二分图,集合B中顶点b
i
和集合G中顶点gi之间连线的权重定义为:b
i
和g
j
之间的IoU(b
i
,g
j
)值,i∈{1,2,
……
n},j∈{1,2,
……
m}。
[0009][0010]使用KM算法求解出最佳匹配,使得匹配结果的权重值最大,最佳匹配结果中,属于集合B中的元素集合记为B'={b'1,b'2,

,b'
r
},r≤m。
[0011](2)使用图卷积预测最佳匹配的矩形框集合B';
[0012]对于每张训练图片,将目标检测模型预测出的且经过类别得分阈值过滤后的矩形框集合记为B={b1,b2,

,b
n
},集合B自身也可以构造成图记为图P,图P中的结点集合记为V={v1,v2,

,v
n
},集合V元素的数量和集合B元素的数量一致,且对于集合V中的任意元素v
i
,其初始特征向量为目标检测模型预测矩形框b
i
的对应特征向量。图P中所有结点组成特征矩阵H,H∈R
n
×
p
,其中n为结点的数量,p为目标检测模型预测矩形框位置的特征向量的维度。
[0013]图P中的结点两两互相连接,构成图P的边的集合E={e1,e2,

,e
k
},其中k=n2;描
述图P的邻接矩阵A,A∈R
n
×
n
,邻接矩阵A中的元素代表结点和结点之间的边,其取值为矩形框和矩形框之间的IoU值:
[0014][0015]定义多层图卷积神经网络,网络的层数记为L,每层图卷积的操作定义为H
l+1
=σ(AH
l
W
l
),H
l
为第l层的特征矩阵,W
l
为第l层的权重矩阵,σ为激活函数,
[0016]图P经过多层图卷积操作之后,得到图P',对于图P'中的每个结点v'
i
,如果其对应的矩形框b
i
∈B',其类别设置为1,表示该结点对应的矩形框需要保留,否则其类别设置为0,表示该结点对应的矩形框不需要保留;对图G'中的每个结点,使用softmax函数,计算cross

entropy损失,使用优化函数,训练图卷积神经网络模型,直至模型收敛,得到训练好的图卷积神经网络模型。
[0017]步骤2,预测阶段
[0018]对于每张检测图片,将目标检测模型预测出的且经过类别得分阈值过滤后的矩形框集合记为B={b1,b2,

,b
n
},将B构造为图,记为图P1,其构造方式和步骤1(2)中构造方式相同;使用训练好的图卷积神经网络模型,对于图P1进行前向推导,得到图P'1;对于图G'1中的任意结点v'
i
,如果其预测类别为1的得分大于预先设定的阈值,则保留该结点对应的矩形框b
i
,所有保留的矩形框集合即是最终的输出结果。
[0019]优选的,所述激活函数采用ReLU函数。
[0020]优选的,所述优化函数,使用SGD优化函数或Adam优化函数。
[0021]与现有技术相比,上述技术方案中的一个技术方案具有如下有益效果:通过使用图卷积操作替代操作,不需要预先设置的阈值,利用了矩形框自身的特征信息,以及矩形框的上下文信息,可以很大程度提升目标检测模型的后处理性能。
具体实施方式
[0022]为了阐明本专利技术的技术方案和工作原理,下面将对本公开实施方式做进一步的详细描述。上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
[0023]本申请的说明书和权利要求书中的术语“步骤1”、“步骤2”、“步骤3”等类似描述是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里描述的那些以外的顺序实施。
[0024]第一方面:本公开实施例提供了一种基于图卷积的目标检测后处理方法,基于深度卷积神经网络的目标检测模型,图片经过backbone模块、neck模块和head模块的依次处理,输出模型预测出的类别和位置,位置以矩形框的形式描述,使用图卷积处理输出的矩形框集合,得到最终的位置结果;
[0025]该方法具体包括如下步骤:
[0026]步骤1,训练阶段:训练得到图卷积神经网络模型;
[0027](1)筛选出最佳匹配的预测框;
[0028]对于每张训练图片,将目标检测模型预测出的且经过类别得分阈值过滤后的矩形框集合记为B={b1,b2,

,b
n
},将图片中所有真实目标的矩形框集合记为G={g1,g2,

,g
m
}。
[0029]使用集合B和集合G构造带权重的二分图,集合B中顶点b
i
和集合G中顶点g
i
之间连线的权重定义为:b
i
和g
j
之间的IoU值,i∈{1,2,
……
n},j∈{1,2,
……
m}。
[0030][0031]使用KM算法(本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图卷积的目标检测后处理方法,其特征在于,该方法具体包括如下步骤:步骤1,训练阶段:训练得到图卷积神经网络模型;(1)筛选出最佳匹配的预测框;对于每张训练图片,将目标检测模型预测出的且经过类别得分阈值过滤后的矩形框集合记为B={b1,b2,

,b
n
},将图片中所有真实目标的矩形框集合记为G={g1,g2,

,g
m
};使用集合B和集合G构造带权重的二分图,集合B中顶点b
i
和集合G中顶点g
i
之间连线的权重定义为:b
i
和g
j
之间的IoU(b
i
,g
j
)值,i∈{1,2,
……
n},j∈{1,2,
……
m};使用KM算法求解出最佳匹配,使得匹配结果的权重值最大,最佳匹配结果中,属于集合B中的元素集合记为B'={b'1,b'2,

,b'
r
},r≤m;(2)使用图卷积预测最佳匹配的矩形框集合B';对于每张训练图片,将目标检测模型预测出的且经过类别得分阈值过滤后的矩形框集合记为B={b1,b2,

,b
n
},集合B自身也可以构造成图记为图P,图P中的结点集合记为V={v1,v2,

,v
n
},集合V元素的数量和集合B元素的数量一致,且对于集合V中的任意元素v
i
,其初始特征向量为目标检测模型预测矩形框b
i
的对应特征向量;图P中所有结点组成特征矩阵H,H∈R
n
×
p
,其中n为结点的数量,p为目标检测模型预测矩形框位置的特征向量的维度;图P中的结点两两互相连接,构成图P的边的集合E={e1,e2,

,e
k
...

【专利技术属性】
技术研发人员:李军
申请(专利权)人:南京视察者智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1