基于可微分制造技术

技术编号:39751867 阅读:11 留言:0更新日期:2023-12-17 23:50
本申请涉及神经网络技术领域,特别涉及一种基于可微分

【技术实现步骤摘要】
基于可微分topk的可微分模型缩放方法及系统


[0001]本申请实施例涉及神经网络
,特别涉及一种基于可微分
topk
的可微分模型缩放方法及系统


技术介绍

[0002]随着大模型展现出强大的能力,对模型进行缩放成为了一个增强模型性能的重要方法

网络结构搜索能够自动化地对模型进行缩放,是模型缩放的一种重要方法

[0003]现有的网络结构搜索算法可分为随机搜索算法与基于梯度的搜索算法两大类

对于随机搜索算法,其优点在于能够对各种不同的搜索空间进行处理,但是搜索效率低

对于基于梯度的搜索算法,虽然能够在一定程度上提高了搜索效率,但是在将网络结构超参数进行可微分建模时,仍然存在挑战

具体来说,现有的基于梯度的算法要么不能对结构超参数直接进行建模,要么直接建模后无法微分,而需要对梯度进行估计

这两点都导致性能下降


技术实现思路

[0004]本申请实施例提供一种基于可微分
topk
的可微分模型缩放方法及系统,解决网络结构搜索算法中的优化效率低下

[0005]为解决上述技术问题,第一方面,本申请实施例提供一种基于可微分
topk
的可微分模型缩放方法,包括以下步骤:首先,构建可微分
topk
算子;然后,基于可微分
topk
算子,采用可学习参数对神经网络的宽度与深度进行建模和搜索,得到搜索结果;最后,基于资源损失函数和搜索结果,约束最终网络的资源消耗量

[0006]在一些示例性实施例中,构建可微分
topk
算子,包括:对元素的重要性进行评估;对元素的重要性进行标准化处理;基于可学习剪枝比例和标准化处理后的元素重要性,生成软掩码

[0007]在一些示例性实施例中,采用泰勒重要性对元素的重要性进行评估;元素的重要性的计算公式如下所示:
[0008][0009]其中,
c
i
表示第
i
个元素的重要性;
t
表示训练的迭代步数;
decay
是衰减系数,
m
i

c
i
对应的软掩码;
g
i

m
i
的梯度,将
m
i
的梯度作为对元素的重要性进行评估的指标

[0010]在一些示例性实施例中,对元素的重要性进行标准化处理,标准化处理是使重要性变为位于0和1之间的均匀分布;标准化处理的公式如下所示:
[0011][0012]其中,
c

i
表示第
i
个元素的重要性;
c

i
的值表示第
i
个元素的重要性超过了
c

i
*100
%的元素

[0013]在一些示例性实施例中,生成软掩码的计算公式如下式所示:
[0014][0015]其中,
Sigmoid
表示
Sigmoid
函数;
λ
表示控制软掩码
m
i
接近0或1的程度;其中,
λ
越大,
m
i
越接近0或者
1。
[0016]在一些示例性实施例中,采用可学习参数对模型的宽度与深度进行建模和搜索,包括:基于可微分
topk
算子,对于不同宽度

不同深度的网络分别进行建模;对于宽度,将软掩码与对应的特征相乘,从而能够模拟剪枝后的模型;对于深度,采用残差连接的神经网络,将软掩码与残差块相乘,当软掩码趋近于0时,将与所述软掩码对应的残差块剪掉,使深度降低

[0017]在一些示例性实施例中,最终网络的资源消耗量的计算公式如下所示:
[0018]loss

loss
task
+
λ
resource
×
loss
resource
ꢀꢀꢀꢀ
(4)
[0019]其中,
loss
task
代表任务原有的损失;
loss
resource
代表资源损失;
λ
表示控制软掩码
m
i
接近0或1的程度

[0020]第二方面,本申请实施例还提供了一种基于可微分
topk
的可微分模型缩放系统,包括:依次连接的可微分
topk
算子模块

建模与搜索模块以及计算模块;其中,可微分
topk
算子模块用于构建可微分
topk
算子;建模与搜索模块用于根据所述可微分
topk
算子,采用可学习参数对神经网络的宽度与深度进行建模和搜索,得到搜索结果;计算模块用于根据资源损失函数和搜索结果,约束最终网络的资源消耗量

[0021]在一些示例性实施例中,可微分
topk
算子模块包括评估单元

标准化处理单元以及软掩码生成单元;其中,评估单元用于对元素的重要性进行评估;标准化处理单元用于对元素的重要性进行标准化处理;软掩码生成单元用于根据可学习剪枝比例和标准化处理后的元素重要性,生成软掩码

[0022]在一些示例性实施例中,评估单元采用泰勒重要性对元素的重要性进行评估;标准化处理单元通过对元素的重要性进行标准化处理,使重要性变为位于0和1之间的均匀分布;建模与搜索模块基于可微分
topk
算子,通过输入可学习剪枝比例和标准化处理后的元素重要性,生成软掩码,来对神经网络的宽度与深度进行建模和搜索

[0023]本申请实施例提供的技术方案至少具有以下优点:
[0024]本申请实施例提供一种基于可微分
topk
的可微分模型缩放方法及系统,该方法包括以下步骤:首先,构建可微分
topk
算子;然后,基于可微分
topk
算子,采用可学习参数对神经网络的宽度与深度进行建模和搜索,得到搜索结果;最后,基于资源损失函数和搜索结果,约束最终网络的资源消耗量

[0025]本申请提供一种基于可微分
topk
的可微分模型缩放方法及系统,使用可微分
topk
来对模型的深度与宽度进行建模和搜索

本申请提出一种可微分
topk
算子,该
topk
算子仅需要一个可学习参数对结构本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于可微分
topk
的可微分模型缩放方法,其特征在于,包括以下步骤:构建可微分
topk
算子;基于所述可微分
topk
算子,采用可学习参数对神经网络的宽度与深度进行建模和搜索,得到搜索结果;基于资源损失函数和所述搜索结果,约束最终网络的资源消耗量
。2.
根据权利要求1所述的基于可微分
topk
的可微分模型缩放方法,其特征在于,构建可微分
topk
算子,包括:对元素的重要性进行评估;对元素的重要性进行标准化处理;基于可学习剪枝比例和标准化处理后的元素重要性,生成软掩码
。3.
根据权利要求2所述的基于可微分
topk
的可微分模型缩放方法,其特征在于,采用泰勒重要性对元素的重要性进行评估;元素的重要性的计算公式如下所示:其中,
c
i
表示第
i
个元素的重要性;
t
表示训练的迭代步数;
decay
是衰减系数,
m
i

c
i
对应的软掩码;
g
i

m
i
的梯度,将
m
i
的梯度作为对元素的重要性进行评估的指标
。4.
根据权利要求2所述的基于可微分
topk
的可微分模型缩放方法,其特征在于,所述对元素的重要性进行标准化处理,所述标准化处理是使重要性变为位于0和1之间的均匀分布;标准化处理的公式如下所示:其中,
c

i
表示第
i
个元素的重要性;
c

i
的值表示第
i
个元素的重要性超过了
c

i
*100
%的元素
。5.
根据权利要求2所述的基于可微分
topk
的可微分模型缩放方法,其特征在于,生成软掩码的计算公式如下式所示:其中,
Sigmoid
表示
Sigmoid
函数;
λ
表示控制软掩码
m
i
接近0或1的程度;其中,
λ
越大,
m
i
越接近0或者
1。6.
根据权利要求1所述的基于可微分
topk
的可微分模型缩放方法,其特征在于,所述采用可...

【专利技术属性】
技术研发人员:刘凯王若辉高剑飞陈恺
申请(专利权)人:上海人工智能创新中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1