一种对象检测框的确定方法、装置、存储介质及电子装置制造方法及图纸

技术编号:34786766 阅读:30 留言:0更新日期:2022-09-03 19:48
本发明专利技术实施例提供了一种对象检测框的确定方法、装置、存储介质及电子装置,其中,该方法包括:利用目标网络模型中包括的多个目标老师模型对目标图像进行处理,以确定每个目标老师模型输出的目标图像特征,其中,每个目标老师模型输出的目标图像特征不同;融合每个目标老师模型输出的目标图像特征,以得到第一融合特征;将第一融合特征输入至目标网络模型中包括的目标学生模型中,以确定目标图像中包括的对象的目标检测框。通过本发明专利技术,解决了相关技术中存在的确定对象的检测框准确率低的问题,达到提高确定对象的检测框的准确率的效果。达到提高确定对象的检测框的准确率的效果。达到提高确定对象的检测框的准确率的效果。

【技术实现步骤摘要】
一种对象检测框的确定方法、装置、存储介质及电子装置


[0001]本专利技术实施例涉及通信领域,具体而言,涉及一种对象检测框的确定方法、装置、存储介质及电子装置。

技术介绍

[0002]近年来深度学习快速发展,基于卷积神经网络(CNN)的模型结构已经在视觉领域取得了显著的成果,出现了多样的视觉任务,其中目标检测是最常见的视觉任务之一,目标检测利用边界框绘制出目标的位置并标注出类别信息,解决了同一图像的多目标定位和识别的问题。
[0003]为了满足实际生活和工业生产的需求,目标检测模型依然面临参数量大,推理速度慢和难以部署到边缘设备等问题。针对此类问题和挑战,提出了模型量化、模型剪枝和知识蒸馏等模型优化方法,其中模型量化是一种将浮点计算转化为低比特定点计算的技术,可以有效的降低模型计算复杂度。模型剪枝通过剔除模型结构中的冗余连接,能够有效的降低模型复杂度和模型参数量。知识蒸馏通过引入老师模型,监督诱导学生模型学习老师模型的特征分布,实现了知识迁移,增强了学生网络性能和泛化能力。
[0004]然而,模型量化和模型剪枝处理之后的模型通常需要定制化的硬件来适配加速,训练和部署过程复杂,知识蒸馏是一种高效的端到端学习模型优化方法,学生模型学习老师模型的特征分布,增强了学生模型的性能和泛化能力。然而,以往关于知识蒸馏的研究大多专注于分类,目标检测方面的知识蒸馏方法研究很少。检测相对于分类做知识蒸馏的难点:(1)检测需要更加关注局部特征和信息,不像分类只关注全局信息,因此检测需要关注每个像素点,这样带来的问题就是前景和背景的不平衡,前景目标像素点较少,背景的像素点很多。(2)不同的像素点之间是有联系而不是独立的,因此检测知识蒸馏也要学习这种像素点之间的关联性。
[0005]目标检测利用边界框绘制出目标的位置并标注出类别信息,解决了同一图像的多目标定位和识别的问题。为了满足实际生活和工业生产的需求,目标检测模型面临参数量大,推理速度慢和难以部署到边缘设备等问题。针对此类问题和挑战,提出了知识蒸馏等模型优化方法。知识蒸馏通过引入老师模型,监督诱导学生模型学习老师模型的特征分布,实现了知识迁移,增强了学生网络性能和泛化能力。
[0006]在相关技术中,通常是一个老师模型对应一个学生模型,单一老师模型的离散特征容易造成的误差,导致学生模型最终输出的检测框不准确。
[0007]由此可知,相关技术中存在确定对象的检测框准确率低的问题。
[0008]针对相关技术中存在的上述问题,目前尚未提出有效的解决方案。

技术实现思路

[0009]本专利技术实施例提供了一种对象检测框的确定方法、装置、存储介质及电子装置,以至少解决相关技术中存在的确定对象的检测框准确率低的问题。
[0010]根据本专利技术的一个实施例,提供了一种对象检测框的确定方法,包括:利用目标网络模型中包括的多个目标老师模型对目标图像进行处理,以确定每个所述目标老师模型输出的目标图像特征,其中,所述每个所述目标老师模型输出的所述目标图像特征不同;融合每个所述目标老师模型输出的目标图像特征,以得到第一融合特征;将所述第一融合特征输入至所述目标网络模型中包括的目标学生模型中,以确定所述目标图像中包括的对象的目标检测框。
[0011]根据本专利技术的另一个实施例,提供了一种对象检测框的确定装置,包括:处理模块,用于利用目标网络模型中包括的多个目标老师模型对目标图像进行处理,以确定每个所述目标老师模型输出的目标图像特征,其中,所述每个所述目标老师模型输出的所述目标图像特征不同;融合模块,用于融合每个所述目标老师模型输出的目标图像特征,以得到第一融合特征;确定模块,用于将所述第一融合特征输入至所述目标网络模型中包括的目标学生模型中,以确定所述目标图像中包括的对象的目标检测框。
[0012]根据本专利技术的又一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现上述任一项中所述的方法的步骤。
[0013]根据本专利技术的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
[0014]通过本专利技术,利用目标网络模型中包括的多个目标老师模型对目标图像进行处理,以确定每个目标老师模型输出的目标图像特征,融合每个目标老师模型输出的目标图像特征,得到第一融合特征,将第一融合特征输入值目标网络模型中包括的目标学生模型中,以确定目标图像中包括的对象的目标检测框。由于可以通过多个目标老师模型对目标图像进行处理,得到多个目标老师模型确定的目标图像特征,再将多个目标图像特征进行融合,使得得到的第一融合特征更具备代表性,再利用目标学生模型分析第一融合特征,得到目标检测框,因此,可以解决相关技术中存在的确定对象的检测框准确率低的问题,达到提高确定对象的检测框的准确率的效果。
附图说明
[0015]图1是本专利技术实施例的一种对象检测框的确定方法的移动终端的硬件结构框图;图2是根据本专利技术实施例的对象检测框的确定方法的流程图;图3是根据本专利技术示例性实施例的对象的目标检测框示意图;图4是根据本专利技术示例性实施例的对象检测框的确定方法流程示意图;图5是根据本专利技术示例性实施例的非局部模块结构示意图;图6是根据本专利技术示例性实施例的通过均值池化得到注意力特征图;图7是根据本专利技术示例性实施例的初始学生模型学习的特征图;图8是相关技术中确定的对象检测框示意图;图9是根据本专利技术示例性实施例的确定的对象检测框示意图;图10是根据本专利技术实施例的对象检测框的确定装置的结构框图。
具体实施方式
[0016]下文中将参考附图并结合实施例来详细说明本专利技术的实施例。
[0017]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
[0018]本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本专利技术实施例的一种对象检测框的确定方法的移动终端的硬件结构框图。如图1所示,移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,其中,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
[0019]存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本专利技术实施例中的对象检测框的确定方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种对象检测框的确定方法,其特征在于,包括:利用目标网络模型中包括的多个目标老师模型对目标图像进行处理,以确定每个所述目标老师模型输出的目标图像特征,其中,所述每个所述目标老师模型输出的所述目标图像特征不同;融合每个所述目标老师模型输出的目标图像特征,以得到第一融合特征;将所述第一融合特征输入至所述目标网络模型中包括的目标学生模型中,以确定所述目标图像中包括的对象的目标检测框;所述目标网络模型是通过如下方式训练得到的:获取多组训练数据,其中,多组所述训练数据中的每组所述训练数据均包括训练图像以及所述训练图像中的对象的标签检测框的第一位置信息;通过多组所述训练数据训练初始网络模型中包括的多个初始老师模型,得到多个所述目标老师模型;基于所述目标老师模型输出的所述训练图像的训练特征训练所述初始网络模型中包括的初始学生模型,以得到所述目标学生模型;将训练完成的包括所述目标学生模型以及多个所述目标老师模型的初始网络模型确定为所述目标网络模型;基于所述目标老师模型输出的所述训练图像的训练特征训练所述初始网络模型中包括的初始学生模型,以得到所述目标学生模型包括:重复执行以下操作,直到所述初始网络模型的第二损失值小于第二预定损失值:将每组所述训练数据中包括的训练图像输入至每个所述目标老师模型,以得到每个所述目标老师模型按照不同的采样倍率提取到的所述训练图像的不同层级的第二训练特征;将每个所述目标老师模型提取到的同一层级的所述第二训练特征进行融合,得到不同层级的第三融合特征;将输入至所述目标老师模型中的所述训练图像输入至所述初始学生模型,以得到所述初始学生模型按照不同的采样倍率提取到的所述训练图像的不同层级的第三训练特征;将不同层级的所述第三融合特征输入至初始学生模型中,以确定相同层级的所述第三融合特征与所述第三训练特征的训练误差;基于所述训练误差确定所述初始网络模型的所述第二损失值;在所述第二损失值大于第二预定损失值的情况下,基于所述第二损失值更新所述初始学生模型的网络参数。2.根据权利要求1所述的方法,其特征在于,通过多组所述训练数据训练初始网络模型中包括的多个初始老师模型,得到多个所述目标老师模型包括:重复执行以下操作,直到所述初始网络模型的第一损失值小于第一预定损失值:将每组所述训练数据中包括的训练图像输入至每个所述初始老师模型,以得到每个所述初始老师模型按照不同的采样倍率提取到的所述训练图像的不同层级的第一训练特征;将每个所述初始老师模型提取到的同一层级的所述第一训练特征进行融合,得到不同层级的第二融合特征;基于所述第二融合特征确定所述训练图像的预测检测框的第二位置信息;基于所述第一位置信息以及所述第二位置信息确定所述第一损失值;在所述第一损失值大于第一预定损失值的情况下,更新每个所述初始老师模型的第一网络参数。3.根据权利要求1所述的方法,其特征在于,将不同层级的所述第三融合特征输入至初始学生模型中,以确定相同层级的所述第三融合特征与所述第三训练特征的训练误差包括:确定所述第三融合特征与所述第三训练特征之间的空间注意力误差;
确定所述第三融合特征与所述第三训练特征之间的通道注意力误差;确定所述第三融合特征与所述第三训练特征之间的关联性误差;将所述空间注意力误差、所述通...

【专利技术属性】
技术研发人员:倪华健安超杨德城林亦宁赵之健姚唐仁
申请(专利权)人:杭州闪马智擎科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1