当前位置: 首页 > 专利查询>清华大学专利>正文

一种模型结构的确定方法及相关装置制造方法及图纸

技术编号:37983620 阅读:9 留言:0更新日期:2023-06-30 09:58
一种模型结构的确定方法,应用于人工智能技术领域。在该方法中,在预训练模型中增加多个候选网络结构来得到第一模型后,通过预先设定性能约束条件来约束第一模型的网络结构搜索过程,能够得到第一模型中每个候选网络结构的选择概率,且保证基于该选择概率所选出来的需新增的网络结构满足性能约束条件。这样一来,在基于各个候选网络结构的选择概率来选择在预训练模型中实际需要增加的网络结构时,则能够选择到性能消耗量合适的网络结构,使得通过增加网络结构所得到的第二模型所消耗的性能资源满足设备要求。能资源满足设备要求。能资源满足设备要求。

【技术实现步骤摘要】
一种模型结构的确定方法及相关装置


[0001]本申请涉及人工智能(ArtificialIntelligence,AI)
,尤其涉及一种模型结构的确定方法及相关装置。

技术介绍

[0002]目前,在人工智能
中,在基于预训练语言模型来解决自然语言处理(Natural Language Process,NLP)任务时,使用该NLP任务的训练样本对预训练语言模型进行全参微调是一种有效的方法。然而,随着预训练语言模型的模型参数量越来越大,在有许多NLP任务待解决的情况下,针对每个NLP任务都需要执行一次全参微调,且都需要保存一份完整的全参微调后的模型参数。
[0003]因此,模型参数高效调整(以下简称参数高效)的方法应运而生。在参数高效方法中,针对每个待解决的NLP任务,保持预训练语言模型的参数不变,只微调在预训练语言模型上增加的少量参数。这些参数高效方法,在NLP任务上取得了和全参微调相近的效果,并且在处理多个NLP任务时,实现了多个NLP任务共享预训练语言模型参数,且每个NLP任务只需要保存少量微调后的新增的参数。
[0004]然而,在目前的参数高效方法中,需要微调的参数量(即新增的参数量)在整个预训练语言模型中的占比还是比较高,导致预训练语言模型中需要针对各个NLP任务进行微调和保存的参数量较多,需要消耗处理设备较多的性能资源。

技术实现思路

[0005]本申请提供了一种模型结构的确定方法及相关装置,能够使得确定得到的模型所消耗的性能资源满足设备要求,降低模型在应用过程中所消耗的性能资源。
[0006]本申请第一方面提供一种模型结构的确定方法,应用于确定人工智能
中的神经网络模型的结构。该方法具体包括:首先获取第一模型,该第一模型是在预训练模型中增加多个候选网络结构得到的。其中,在预训练模型中增加候选网络结构是指在预训练模型的某一个位置上插入候选网络结构,从而使得候选网络结构成为预训练模型中的一部分。
[0007]然后,基于性能约束条件,确定第一模型中每个候选网络结构的选择概率。其中,第一模型的性能消耗增量满足性能约束条件,性能消耗增量与每个候选网络结构的选择概率以及每个候选网络结构的性能消耗量相关。
[0008]简单来说,性能约束条件是要求第一模型的性能消耗增量在一定范围内,而第一模型的性能消耗增量又是与每个候选网络结构的选择概率和性能消耗量相关。由于每个候选网络结构的性能消耗量是固定的,因此实际上就是基于性能约束条件来约束每个候选网络结构的选择概率,从而使得最终选择到的候选网络结构能够满足要求。
[0009]其次,根据每个候选网络结构的选择概率,从多个候选网络结构中选择至少一个候选网络结构。一般来说,候选网络结构的选择概率越大,则越倾向于选择该候选网络结
构。
[0010]最后,在预训练模型中增加至少一个候选网络结构,得到第二模型。具体地,在选择得到至少一个候选网络结构之后,参考每个候选网络结构在第一模型中所增加的位置,在预训练模型中相同的位置上增加该至少一个候选网络结构,从而得到第二模型。
[0011]本方案中,在预训练模型中增加多个候选网络结构来得到第一模型后,通过预先设定性能约束条件来约束第一模型的网络结构搜索过程,能够得到第一模型中每个候选网络结构的选择概率,且保证基于该选择概率所选出来的需新增的网络结构满足性能约束条件。这样一来,在基于各个候选网络结构的选择概率来选择在预训练模型中实际需要增加的网络结构时,则能够选择到性能消耗量合适的网络结构,使得通过增加网络结构所得到的第二模型所消耗的性能资源满足设备要求。
[0012]在一种可能的实现方式中,每个候选网络结构的性能消耗量与每个候选网络结构的目标参数相关,目标参数包括以下的一个或多个参数:网络结构参数量、网络结构计算量和网络结构计算耗时。
[0013]也就是说,候选网络结构的性能消耗量可以是与一个参数相关,也可以是与多个参数相关。例如,在候选网络结构的性能消耗量仅与网络结构参数量相关的情况下,候选网络结构的网络结构参数量越大,则候选网络结构的性能消耗量越大,即在预训练模型中增加该候选网络结构对处理设备的存储资源的消耗量越大。
[0014]又例如,在候选网络结构的性能消耗量与多种参数(例如网络结构参数量、网络结构计算量以及网络结构计算耗时)相关时,候选网络结构的性能消耗量则可以是采用该候选网络结构对应的多种参数的加权求和结果来表示。
[0015]在一种可能的实现方式中,上述的性能约束条件为第一模型的性能消耗增量不高于预设增量。
[0016]由于每个候选网络结构的性能消耗量是确定的,因此每个候选网络结构的选择概率越大,则第一模型的性能消耗增量则越大。这样一来,在设定第一模型的性能消耗增量不高于预设增量作为性能约束条件的情况下,则需要为第一模型中的每个候选网络结构赋予合适的选择概率,进而使得第一模型的性能消耗增量能够满足性能约束条件。
[0017]在一种可能的实现方式中,根据每个候选网络结构的选择概率,从多个候选网络结构中选择至少一个候选网络结构,具体包括:按照选择概率从高到低的顺序,从多个候选网络结构中选择至少一个候选网络结构;其中,至少一个候选网络结构的性能消耗量之和不高于预设增量。
[0018]也就是说,在本方案中,在预训练模型中增加所选择得到的至少一个候选网络结构之后,预训练模型所增加的性能消耗量并不会高于预设增量,保证了增加候选网络结构后的模型能够满足性能约束条件的要求。
[0019]在一种可能的实现方式中,在选择候选网络结构时,也可以是基于每个候选网络结构的选择概率,随机地在多个候选网络结构中进行选择,从而选择得到至少一个候选网络结构。并且,在选择候选网络结构的过程中,也可以是保证选择得到的至少一个候选网络结构的性能消耗量之和不高于预设增量。
[0020]在一种可能的实现方式中,多个候选网络结构中包括多种类型的网络结构,且每种类型的网络结构包括一个或多个候选网络结构。
[0021]即,多个候选网络结构可以分成多个部分,同一部分的候选网络结构属于同一种类型的网络结构,不同部分的候选网络结构属于不同类型的网络结构。例如,假设在预训练模型中增加了100个候选网络结构,该100个候选网络结构中有10个候选网络结构为MLP结构,有40个候选网络结构为包括加法操作的一个模块,以及有50个候选网络结构为包括乘法操作的一个模块。
[0022]本方案中,通过组合各种参数高效方法所采用的网络结构以及各种可能的神经网络结构来作为增加在预训练模型中的多个候选网络结构,能够有效地提高候选网络结构的多样性,从而提高通过增加候选网络结构所得到的模型的性能。
[0023]在一种可能的实现方式中,多个候选网络结构中部分类型不同的候选网络结构部署于第一模型中的相同位置。
[0024]具体而言,对于任意一种类型的候选网络结构而言,这种类型的候选网络结构增加在预训练模型中的位置往往是有一定限制的。即,特定类型的候本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型结构的确定方法,其特征在于,包括:获取第一模型,所述第一模型是在预训练模型中增加多个候选网络结构得到的;基于性能约束条件,确定第一模型中每个候选网络结构的选择概率,其中所述第一模型的性能消耗增量满足所述性能约束条件,所述性能消耗增量与所述每个候选网络结构的选择概率以及所述每个候选网络结构的性能消耗量相关;根据所述每个候选网络结构的选择概率,从所述多个候选网络结构中选择至少一个候选网络结构;在所述预训练模型中增加所述至少一个候选网络结构,得到第二模型。2.根据权利要求1所述的方法,其特征在于,所述每个候选网络结构的性能消耗量与所述每个候选网络结构的目标参数相关,所述目标参数包括以下的一个或多个参数:网络结构参数量、网络结构计算量和网络结构计算耗时。3.根据权利要求1或2所述的方法,其特征在于,所述性能约束条件为所述第一模型的性能消耗增量不高于预设增量。4.根据权利要求1

3任意一项所述的方法,其特征在于,所述根据所述每个候选网络结构的选择概率,从所述多个候选网络结构中选择至少一个候选网络结构,包括:按照选择概率从高到低的顺序,从所述多个候选网络结构中选择所述至少一个候选网络结构;其中,所述至少一个候选网络结构的性能消耗量之和不高于预设增量。5.根据权利要求1

4任意一项所述的方法,其特征在于,所述多个候选网络结构中包括多种类型的网络结构,且每种类型的网络结构包括一个或多个候选网络结构。6.根据权利要求5所述的方法,其特征在于,所述多个候选网络结构中部分类型不同的候选网络结构部署于所述第一模型中的相同位置。7.根据权利要求1

6任意一项所述的方法,其特征在于,在确定第一模型中每个候选网络结构的选择概率的过程中,所述多个候选网络结构的选择概率的调整方向之间具有竞争关系。8.根据权利要求1

7任意一项所述的方法,其特征在于,所述基于性能约束条件,确定第一模型中每个候选网络结构的选择概率,包括:将训练数据输入所述第一模型,并基于所述第一模型的输出构建损失函数;基于所述损失函数和所述性能约束条件,更新所述第一模型中的所述多个候选网络结构的权重参数以及选择概率。9.根据权利要求1

8任意一项所述的方法,其特征在于,所述方法还包括:基于训练数据集,对所述第二模型进行训练,得到训练后的第二模型。10.根据权利要求1

9任意一项所述的方法,其特征在于,所述第二模型用于执行自然语言处理任务。11.一种模型结构的确定装置,其特征在于,包括:获取模块,用于获取第一模型,所述第一模型是在预训练模型中...

【专利技术属性】
技术研发人员:王亚岛王雅圣张震刘知远
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1