System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及目标检测,具体涉及一种基于双提示的小模型目标检测蒸馏方法。
技术介绍
1、目标检测作为计算机视觉领域的经典任务,其核心目标是识别图像或视频中的物体,确定它们的类别,并通过最小包围框的形式精确标定物体的位置。这项技术在自动驾驶、监控系统、机器人视觉、医学图像分析、航空航天等多个领域有着广泛的应用。然而,将这些大型且计算密集型的模型应用于现实世界时,面临着一系列挑战,包括模型的体积、推理速度以及资源的有限性。这些挑战限制了这些强大模型在实际场景中的部署和应用。
2、知识蒸馏技术是解决上述问题的一个重要方法。知识蒸馏,即以一个训练好的大模型作为教师模型,一个待训练的小模型作为学生模型,在训练过程中,教师模型的检测结果对学生模型的检测结果进行监督,使“知识”从大模型蒸馏到小模型,从而提升小模型的性能。然而,现有的知识蒸馏方法大都停留在了教师模型和学生模型大小相似的场景,少数方法研究了教师模型很大的情况,但是,如何将知识蒸馏到更小、更快的轻量级模型中,很少被讨论,而现有蒸馏方法对轻量级模型的性能提升,也十分有限。
技术实现思路
1、为解决上述技术问题,本专利技术提供一种基于双提示的小模型目标检测蒸馏方法,能够将大模型的知识有效地传递到小模型中,实现小模型更明显的性能提升。
2、为解决上述技术问题,本专利技术采用如下技术方案:
3、一种基于双提示的小模型目标检测蒸馏方法,通过知识蒸馏过程,将教师模型中的知识传递至学生模型,在测试过程中,将图像输
4、步骤一,主干网络阶段包括外部提示蒸馏操作和内部提示蒸馏操作;具体包括以下步骤:
5、s11,外部提示蒸馏操作包括:通过教师模型的主干网络输出的教师特征ft,来初始化教师外部提示e,通过多头自注意力机制进行交互来避免信息重复;以动量更新的方式对教师外部提示e进行更新;同时,对学生模型的主干网络输出的学生特征fs进行初始化操作,然后与更新后的教师外部提示进行多头交叉注意力交互,将得到的交互特征以残差的方式加回到学生模型主干网络输出的学生特征fs中;
6、s12,内部提示蒸馏操作包括:初始化可学习的学生内部提示,与学生模型的主干网络输出的学生特征fs相乘,然后进行sigmoid操作,得到学生特征的掩码,所述掩码再与学生特征fs做点积,以残差的形式加回到学生特征中,实现对学生特征进行更新;将更新后的学生特征fs1再经过一层convlora操作,得到主干网络阶段最终的学生特征
7、步骤二,颈部网络阶段包括特征蒸馏操作;
8、其中,特征蒸馏操作包括:将主干网络阶段最终的学生特征经过一层投影层,使学生特征的通道数与教师特征ft的通道数相同,然后计算学生特征和教师特征ft的皮尔逊相似度,用计算得到的结果作为特征蒸馏监督损失,对学生模型的参数进行更新;
9、步骤三,在测试阶段,将图像输入至完成知识蒸馏过程的学生模型,检测出图像中的物体以及物体的类别;在测试阶段中,保留内部提示蒸馏操作,以及知识蒸馏过程得到的外部教师提示;在测试过程中外部教师提示用于直接和学生特征进行多头交叉注意力机制交互。
10、进一步地,步骤s11中,所述通过教师模型的主干网络输出的教师特征ft,来初始化教师外部提示,通过多头自注意力机制进行交互来避免信息重复,具体包括:
11、引入一组可学习的外部教师提示e∈rt×c,用于存储教师模型预测的特征区域;t表示外部教师提示的长度,c表示教师特征ft的通道数;外部教师提示e在知识蒸馏前随机初始化,并将在知识蒸馏过程中更新;为了防止外部教师提示e存储重复信息,不同的外部教师提示会通过自注意力层进行传递:
12、
13、其中,wm和w′m表示可学习的权重,m为注意力头数,attn表示注意力机制,q、k和v分别表示注意力机制中的查询、键和值。
14、进一步地,步骤s11中,所述以动量更新的方式对教师外部提示进行更新,具体包括:
15、通过对教师特征进行初始化,来获得对教师外部提示进行更新所需的键和值:对教师特征ft在通道数上进行标准化,并选取前n个像素作为候选特征;此外,由于待检测对象的目标特征与待检测对象的类别相关,将这些候选特征与待检测对象的类别感知嵌入相结合,这种类别感知嵌入是通过目标特征的一位有效类别向量来编码的;对教师特征进行初始化的过程记作init;
16、知识蒸馏过程中教师外部提示的更新过程如下:
17、
18、其中β为动量更新系数,wm和w′m表示可学习的权重,m为注意力头数,attn表示注意力机制,q、k和v分别表示注意力机制中的查询、键和值。
19、进一步地,步骤s11中,所述对学生模型的主干网络输出的学生特征fs进行初始化操作,然后与更新后的教师外部提示进行多头交叉注意力交互,将得到的交互特征以残差的方式加回到学生模型主干网络输出的学生特征fs中,具体包括:
20、
21、wm和w′m表示可学习的权重,m为注意力头数,attn表示注意力机制,q、k和v分别表示注意力机制中的查询、键和值;init(fs)表示对学生特征fs进行初始化操作。
22、进一步地,步骤s12具体包括:
23、引入可学习的学生内部提示作为学生模型的内部知识基础;学生内部提示e描述了n个自定义特征的依赖性,通过计算学生内部提示e和学生特征在空间通道上的相似性,并进行sigmoid操作,得到学生特征的掩码共有n个通道:
24、
25、其中,σ表示sigmoid函数;基于掩码使用dice系数来指导学生内部提示的学习:
26、
27、其中,和分别表示第i个通道和第j个通道上的掩码,m为注意力头数,为dice损失监督函数,为学生内部提示的惩罚项,ρdice表示dice系数;
28、将学生特征fs中的关键信息与掩码相匹配,对学生特征进行更新,得到更新后的学生特征fs1:
29、
30、将更新后的学生特征fs1再经过一层convlora操作,得到主干网络阶段最终的学生特征
31、进一步地,步骤二具体包括:
32、所述颈部网络采用特征金字塔;特征蒸馏操作在像素级别增强学生特征和教师特征ft特征相似性,特征蒸馏监督损失为:
33、
34、其中,h、w和c分别表示教师特征ft的高度、宽度和通道数,学生特征的高度、宽度和通道数与教师特征ft相同;f表示一个投影层,用于将学生特征的通道数调整至与教师特征ft相同;掩码是一个过滤机制,通过指定不同的掩码来为知识蒸馏选择有意义的区域。
35、与现有技术相比,本专利技术的有益技术本文档来自技高网...
【技术保护点】
1.一种基于双提示的小模型目标检测蒸馏方法,其特征在于,通过知识蒸馏过程,将教师模型中的知识传递至学生模型,在测试过程中,将图像输入至完成知识蒸馏过程的学生模型,检测出图像中的物体以及物体的类别;教师模型和学生模型均包括主干网络和颈部网络,知识蒸馏过程包括主干网络阶段和颈部网络阶段;目标检测蒸馏方法具体包括以下步骤:
2.根据权利要求1所述的基于双提示的小模型目标检测蒸馏方法,其特征在于,步骤S11中,所述通过教师模型的主干网络输出的教师特征FT,来初始化教师外部提示,通过多头自注意力机制进行交互来避免信息重复,具体包括:
3.根据权利要求1所述的基于双提示的小模型目标检测蒸馏方法,其特征在于,步骤S11中,所述以动量更新的方式对教师外部提示进行更新,具体包括:
4.根据权利要求1所述的基于双提示的小模型目标检测蒸馏方法,其特征在于,步骤S11中,所述对学生模型的主干网络输出的学生特征FS进行初始化操作,然后与更新后的教师外部提示进行多头交叉注意力交互,将得到的交互特征以残差的方式加回到学生模型主干网络输出的学生特征FS中,具体包括:
< ...【技术特征摘要】
1.一种基于双提示的小模型目标检测蒸馏方法,其特征在于,通过知识蒸馏过程,将教师模型中的知识传递至学生模型,在测试过程中,将图像输入至完成知识蒸馏过程的学生模型,检测出图像中的物体以及物体的类别;教师模型和学生模型均包括主干网络和颈部网络,知识蒸馏过程包括主干网络阶段和颈部网络阶段;目标检测蒸馏方法具体包括以下步骤:
2.根据权利要求1所述的基于双提示的小模型目标检测蒸馏方法,其特征在于,步骤s11中,所述通过教师模型的主干网络输出的教师特征ft,来初始化教师外部提示,通过多头自注意力机制进行交互来避免信息重复,具体包括:
3.根据权利要求1所述的基于双提示的小模型...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。