【技术实现步骤摘要】
基于可微分topk的可微分模型缩放方法及系统
[0001]本申请实施例涉及神经网络
,特别涉及一种基于可微分
topk
的可微分模型缩放方法及系统
。
技术介绍
[0002]随着大模型展现出强大的能力,对模型进行缩放成为了一个增强模型性能的重要方法
。
网络结构搜索能够自动化地对模型进行缩放,是模型缩放的一种重要方法
。
[0003]现有的网络结构搜索算法可分为随机搜索算法与基于梯度的搜索算法两大类
。
对于随机搜索算法,其优点在于能够对各种不同的搜索空间进行处理,但是搜索效率低
。
对于基于梯度的搜索算法,虽然能够在一定程度上提高了搜索效率,但是在将网络结构超参数进行可微分建模时,仍然存在挑战
。
具体来说,现有的基于梯度的算法要么不能对结构超参数直接进行建模,要么直接建模后无法微分,而需要对梯度进行估计
。
这两点都导致性能下降
。
技术实现思路
[0004]本申请实施例提供一种基于可微分
topk
的可微分模型缩放方法及系统,解决网络结构搜索算法中的优化效率低下
。
[0005]为解决上述技术问题,第一方面,本申请实施例提供一种基于可微分
topk
的可微分模型缩放方法,包括以下步骤:首先,构建可微分
topk
算子;然后,基于可微分
topk
算子,采用可学习参数对神经网络的宽度与深 ...
【技术保护点】
【技术特征摘要】
1.
一种基于可微分
topk
的可微分模型缩放方法,其特征在于,包括以下步骤:构建可微分
topk
算子;基于所述可微分
topk
算子,采用可学习参数对神经网络的宽度与深度进行建模和搜索,得到搜索结果;基于资源损失函数和所述搜索结果,约束最终网络的资源消耗量
。2.
根据权利要求1所述的基于可微分
topk
的可微分模型缩放方法,其特征在于,构建可微分
topk
算子,包括:对元素的重要性进行评估;对元素的重要性进行标准化处理;基于可学习剪枝比例和标准化处理后的元素重要性,生成软掩码
。3.
根据权利要求2所述的基于可微分
topk
的可微分模型缩放方法,其特征在于,采用泰勒重要性对元素的重要性进行评估;元素的重要性的计算公式如下所示:其中,
c
i
表示第
i
个元素的重要性;
t
表示训练的迭代步数;
decay
是衰减系数,
m
i
是
c
i
对应的软掩码;
g
i
是
m
i
的梯度,将
m
i
的梯度作为对元素的重要性进行评估的指标
。4.
根据权利要求2所述的基于可微分
topk
的可微分模型缩放方法,其特征在于,所述对元素的重要性进行标准化处理,所述标准化处理是使重要性变为位于0和1之间的均匀分布;标准化处理的公式如下所示:其中,
c
′
i
表示第
i
个元素的重要性;
c
′
i
的值表示第
i
个元素的重要性超过了
c
′
i
*100
%的元素
。5.
根据权利要求2所述的基于可微分
topk
的可微分模型缩放方法,其特征在于,生成软掩码的计算公式如下式所示:其中,
Sigmoid
表示
Sigmoid
函数;
λ
表示控制软掩码
m
i
接近0或1的程度;其中,
λ
越大,
m
i
越接近0或者
1。6.
根据权利要求1所述的基于可微分
topk
的可微分模型缩放方法,其特征在于,所述采用可...
【专利技术属性】
技术研发人员:刘凯,王若辉,高剑飞,陈恺,
申请(专利权)人:上海人工智能创新中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。