System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于图像分类模型优化,尤其是涉及一种基于温度自适应的矢量匹配知识蒸馏方法及系统。
技术介绍
1、随着现代图像识别分类技术的不断发展,过去几十年见证了深度学习在计算机视觉任务中的繁荣。通用模型经过众多数据集的训练,准确率通常是验证模型优劣的最重要标准。在模型的准确率不断提高的过程中,其占用的内存也在逐渐增大,为了应对这一挑战,引入了知识蒸馏来减少模型的容量。
2、但是目前的图像分类相关算法及其相关应用面临两大问题:一、对数据量庞大的数据集进行标注需要耗费大量的人力、物力;并且由于愿意将数据集公开的公司少之又少,因此图像分类模型大多面临着缺少数据集无法有效验证的情况。二、随着模型性能的不断提高,模型的复杂程度日益提高,在某些硬件配置较低的设备上无法部署,不能满足实际的应用所需。
3、对于上述现状,考虑如何采用矢量匹配的方法来优化模型来降低模型内存损耗的同时提高模型准确率,成为本领域需要亟需解决的技术问题。基于此,本专利技术提出了一种基于温度自适应的矢量匹配知识蒸馏方法及系统,其能够显著提高小体量模型的性能,极大地降低模型的内存占用。
技术实现思路
1、针对现有技术的上述现状,本专利技术提出了一种基于温度自适应的矢量匹配知识蒸馏方法及系统。
2、本专利技术采取如下技术方案:
3、一种基于自适应温度的矢量匹配知识蒸馏方法,其包括以下步骤:
4、s1:将图像输入给定的教师模型与学生模型,教师模型与学生模型中的神经网络分别对
5、s2:提取教师模型与学生模型概率分布的矢量特征并引入余弦距离损失、交叉熵损失和kl散度损失计算总损失。
6、作为优选,步骤s1中,在学生模型与教师模型的概率分布p(znk)和p(vnk)上利用余弦时间表的周期变化特征对不同蒸馏阶段的蒸馏温度进行周期性控制,来使得学生模型能够拟合多样化温度下教师模型的概率分布特征,以此来让学生模型在概率分布的平滑性方面逼近教师模型,公式表示为:
7、
8、其中,m表示训练轮次,tm表示蒸馏温度,zn表示学生模型输出的logit,vn表示教师模型输出的logit,k表示标签,c表示分类的种类数量。
9、作为优选,自适应温度机制将余弦时间表引入温度调节机制,温度变化趋势表示为:
10、
11、其中,m表示训练轮次,tmax和tmin分别表示最高蒸馏温度和最低蒸馏温度,α表示权重系数。
12、作为优选,为教师模型与学生模型的概率分布引入矢量特征,使得教师模型与学生模型在矢量层面进行对齐。
13、作为优选,矢量特征匹配知识蒸馏包括将矢量特征引入教师模型与学生模型,在引入矢量特征时采用余弦相似度和余弦距离算法,在输出层中通过余弦距离作为损失函数来缩小教师模型与学生模型的特征差距:
14、
15、其中,cos表示余弦相似度,lcos表示余弦距离损失。
16、作为优选,kl散度将相对熵引入学生模型和教师模型的蒸馏过程,来作为学生模型和教师模型之间的似然比最大化过程,其公式可以表示为:
17、
18、其中,c表示总共包含的样本数量,lkl表示kl散度损失,vnk表示教师的归一化输出特征。
19、作为优选,交叉熵将不确定度引入学生模型的训练过程,来缩小学生模型在训练对应目标的差距,其公式可以表示为:
20、
21、其中,lce表示交叉熵损失,c表示总共包含的样本数量,znk表示学生的归一化输出特征,gt表示真实标签,n表示第n个样本,k表示标签。
22、作为优选,结合矢量匹配损失、kl散度和交叉熵损失,利用损失函数重新规划蒸馏模型的蒸馏策略。其公式可以表示为:
23、lsum=βlkl+γlce+λlcos
24、其中,β、γ和λ表示对应的权重系数。通过不同权重反映每个蒸馏损失在知识蒸馏中的重要性。该策略的主体思想是使教师模型与学生模型的输出表现尽可能地接近,让学生模型模仿教师模型的各种输出特性。
25、本专利技术还公开了一种基于自适应温度的矢量匹配知识蒸馏系统,基于上述方法,包括如下模块:
26、自适应温度蒸馏模块:将图像输入给定的教师模型与学生模型,教师模型与学生模型中的神经网络分别对图像进行若干卷积处理,再通过全链接层处理,分别得到模型输出的逻辑回归logit,学生模型与教师模型的logit分别通过softmax函数提取概率分布特征,在提取概率分布特征后引入自适应温度机制,进行温度蒸馏;
27、总损失计算模块:提取教师模型与学生模型概率分布的矢量特征并引入余弦距离损失、交叉熵损失和kl散度损失计算总损失。
28、与现有技术相比,本专利技术具有以下有益效果:
29、(1)本专利技术一种基于温度自适应的矢量匹配知识蒸馏方法及系统,在原有的知识蒸馏体系下充分考虑了学生模型与教师模型的概率分布特性,将二者的矢量特征进行提取,扩展了知识蒸馏的特征体系,解决了知识蒸馏全局池化导致的类别不统一问题,大大降低了因为单一数据过度不匹配导致的蒸馏误差增大问题。
30、(2)本专利技术一种基于温度自适应的矢量匹配知识蒸馏方法及系统,通过引入温度自适应机制,使蒸馏过程中能够提取到多温度的知识,解决了学生模型在训练过程中只接收单一温度知识的缺陷,大大提高了蒸馏性能。
本文档来自技高网...【技术保护点】
1.一种基于自适应温度的矢量匹配知识蒸馏方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于自适应温度的矢量匹配知识蒸馏方法,其特征在于,步骤S1中,在学生模型与教师模型的概率分布P(Znk)和P(Vnk)上利用余弦时间表的周期变化特征对不同蒸馏阶段的蒸馏温度进行周期性控制,使得学生模型能够拟合多样化温度下教师模型的概率分布特征,以此使学生模型在概率分布的平滑性方面逼近教师模型,公式表示为:
3.根据权利要求2所述的一种基于自适应温度的矢量匹配知识蒸馏方法,其特征在于,步骤S1中,所述的自适应温度机制将余弦时间表引入温度调节机制,温度变化趋势表示为:
4.根据权利要求3所述的一种基于自适应温度的矢量匹配知识蒸馏方法,其特征在于,步骤S2中,为教师模型与学生模型的概率分布引入矢量特征,使得教师模型与学生模型在矢量层面进行对齐。
5.根据权利要求4所述的一种基于自适应温度的矢量匹配知识蒸馏方法,其特征在于,在引入矢量特征时采用余弦相似度和余弦距离算法,在输出层中通过余弦距离作为损失函数来缩小教师模型与学生模型的特征差距:<
...【技术特征摘要】
1.一种基于自适应温度的矢量匹配知识蒸馏方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于自适应温度的矢量匹配知识蒸馏方法,其特征在于,步骤s1中,在学生模型与教师模型的概率分布p(znk)和p(vnk)上利用余弦时间表的周期变化特征对不同蒸馏阶段的蒸馏温度进行周期性控制,使得学生模型能够拟合多样化温度下教师模型的概率分布特征,以此使学生模型在概率分布的平滑性方面逼近教师模型,公式表示为:
3.根据权利要求2所述的一种基于自适应温度的矢量匹配知识蒸馏方法,其特征在于,步骤s1中,所述的自适应温度机制将余弦时间表引入温度调节机制,温度变化趋势表示为:
4.根据权利要求3所述的一种基于自适应温度的矢量匹配知识蒸馏方法,其特征在于,步骤s2中,为教师模型与学生模型的概率分布引入矢量特征,使得教师模型与学生模型在矢量层面进行对齐。
5.根据权利要求4所述的一种基于自适...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。