一种参数高效的大规模预训练模型迁移方法,涉及大规模预训练模型。基于Transformer的大规模预训练模型,优化用于建立自注意力机制的提示向量,在注意力模块中插入提示学习逼近模块和经过扩展的自注意力模块,以降低提示学习带来的额外计算开销,提升信息扩散的效率。1)将提示学习逼近模块插入到Transformer模型的注意力机制中,并添加任务关联的分类器;2)在下游任务上进行微调,实现参数高效的大规模预训练模型的迁移。不仅实现更加高效的输入序列间关系建立,同时允许额外的提示向量遵循新的模式建立与输入序列的联系。在低成本地实现迁移的同时,尽可能降低带来的额外开销。尽可能降低带来的额外开销。尽可能降低带来的额外开销。
【技术实现步骤摘要】
一种参数高效的大规模预训练模型迁移方法
[0001]本专利技术涉及大规模预训练模型,尤其是涉及一种参数高效的大规模预训练模型迁移方法。
技术介绍
[0002]基于Transformer结构的大规模预训练模型,具有准确率高、适用场景广泛、参数量大等特点。由于预训练任务与实际应用的任务之间存在一定的差异,在将大规模预训练模型应用到具体下游任务时,往往还需要在具体下游任务上进行微调。大规模预训练模型在提升性能的同时,也带来两方面的困难:在微调过程中,大规模预训练模型包含的大量模型参数,显著提高微调的训练成本;在部署过程中,每一个下游任务需要独立保存一套完整的模型参数,显著提高存储开销。
[0003]目前将大规模预训练模型高效地迁移到下游任务的方法有手工提示(HandcraftPrompt)及其衍生算法(Xiang Lisa Li,Percy Liang.Prefix
‑
Tuning:Optimizing Continuous Prompts for Generation.ACL2021;Menglin Jia,Luming Tang,Bor
‑
Chun Chen,Claire Cardie,Serge J.Belongie,Bharath Hariharan,Ser
‑
Nam Lim.Visual Prompt Tuning.ECCV2021)。其主要原理是通过向预训练模型的输入序列添加一个手工设计的前缀,使下游任务的输入符合预训练模型的输入形式,以此实现大规模预训练模型的迁移。由于手工设计的前缀无法自动适应下游任务,浅层提示学习(ShallowPrompt Tuning)通过在模型的输入序列中添加一系列可学习的提示向量,并在下游任务的数据集上进行训练,实现大规模预训练模型的迁移。由于只需要训练和存储可学习的提示向量,此类方法不仅能够实现自适应的下游任务迁移,还能显著降低训练与存储成本。为进一步提升性能,深度提示学习(DeepPromptTuning)分别给予每一层独立的可学习前缀,在有限的参数条件下,进一步提升模型的性能。
[0004]在Transformer结构中,由于计算复杂度与输入序列的长度呈平方增长关系,这极大地制约可添加的自适应前缀的长度。同时,与原大规模与训练相比,上述方法虽然降低训练与存储开销,但是提高了部署时的推理开销。
技术实现思路
[0005]本专利技术的目的在于克服现有技术的不足,提供可显著降低提示学习的额外计算开销,在保持极少量的额外训练、存储参数的同时,实现更加高效推理的一种参数高效的大规模预训练模型迁移方法。
[0006]本专利技术基于Transformer的大规模预训练模型,优化用于建立自注意力机制的提示向量,在注意力模块中插入提示学习逼近模块和经过扩展的自注意力模块,以降低提示学习带来的额外计算开销,提升信息扩散的效率。
[0007]本专利技术所述一种参数高效的大规模预训练模型迁移方法,包括以下步骤:
[0008]1)构建提示学习逼近模块,通过一个低秩的映射模块,将提示特征投影到不同的
子空间当中,与输入特征和原提示特征一起输入到自注意力机制中;其中,经过投影的提示特征将被用于与输入特征计算关系矩阵;
[0009]2)将提示学习逼近模块插入Transformer模型的注意力机制中,并添加任务关联的分类器,构建经过扩展的自注意力模块;
[0010]3)在下游任务上进行微调,冻结所有预训练模型参数,只训练新建的提示学习逼近模块与任务关联的分类器两个部分,实现参数高效训练。
[0011]所述提示学习逼近模块的工作步骤如下:
[0012](1)近似计算提示特征与输入特征的关系矩阵:通过低秩的残差计算提示特征到特定子空间中的映射,显著优化到不同子空间的计算开销,进而实现高效关系矩阵确定;
[0013](2)独立计算提示特征对输入特征的影响:通过激活函数转换,实现独立于原输入
‑
输入关系矩阵的输入
‑
提示关系矩阵计算,以保持新增提示特征计算的独立性,提升与原有预训练模型的并行性;
[0014](3)合并提示特征与输入特征:通过可学习的尺度缩放门,控制提示学习逼近模块的输出尺度,使其符合下一预训练网络结构的输入,以提升模型整体性能。
[0015]本专利技术设计提示学习逼近模块插入基于Transformer的大规模预训练模型的注意力模块中,实现参数高效的大规模预训练模型的迁移。与现有提示学习方法仅通过添加额外可学习向量实现下游任务的迁移相比,本专利技术不仅实现更加高效的输入序列间关系建立,同时允许额外的提示向量遵循新的模式建立与输入序列的联系。本专利技术在低成本地实现迁移的同时,尽可能降低带来的额外开销。
[0016]本专利技术实现在同等可学习参数量下更加高效的推理速度,实现下游任务上更优秀的性能。在具有更佳性能的同时(各个数据集上的性能指标,均越高越好),显著降低下游任务上的计算量(FLOPs),以及在迁移到下游任务过程中需要训练的参数量(Updated Parameter)。本专利技术在基于两个不同种类的大规模预训练模型的三个不同跨模态任务上,本专利技术均取得最佳的效果。与其他提示学习方法相比,取得性能与效率上的显著提升。
附图说明
[0017]图1为本专利技术方法框架图。其中,(a)为提示学习逼近模块,(b)为经过扩展的自注意力模块。
具体实施方式
[0018]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下实施例将结合附图对本专利技术进行作进一步的说明。应当理解,此处所描述的具体实施例仅仅用于解释本专利技术,并不用于限定本专利技术。
[0019]本专利技术实施例包括以下步骤:
[0020]一、构建提示学习逼近模块
[0021]提示学习逼近模块的网络结构如图1中的图(a)所示,通过一个低秩的映射模块,将提示特征投影到不同的子空间当中,与输入特征和原提示特征一起输入到自注意力机制中;其中,经过投影的提示特征将被用于与输入特征计算关系矩阵;
[0022]所述提示学习逼近模块直接将提示向量作为自注意力机制中的v向量,通过低秩
的转换矩阵W
t
=W
i
W2将其转换为用于自注意力机制的k向量;所述提示学习逼近模块的公式为:
[0023]ΔX=α
·
ψ(X(PW1W2+P)
T
)P,
[0024]α=max{X(PW1W2+P)
T
}
[0025]其中,X∈R
n
×
d
表示长度为n,维度数为d的输入序列,P∈R
m
×
d
表示嵌入到v向量空间中的m个提示向量,小矩阵W1∈R
d
×
r
和W2∈R
r
×
d
共同构成秩上限为r的低秩矩阵;为了自适应地通过向量模长调整提本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种参数高效的大规模预训练模型迁移方法,其特征在于包括以下步骤:1)构建提示学习逼近模块,通过一个低秩的映射模块,将提示特征投影到不同的子空间当中,与输入特征和原提示特征一起输入到自注意力机制中;其中,经过投影的提示特征将被用于与输入特征计算关系矩阵;2)将提示学习逼近模块插入Transformer模型的注意力机制中,添加任务关联的分类器,构建经过扩展的自注意力模块;3)在下游任务上进行微调,冻结所有预训练模型参数,只训练新建的提示学习逼近模块与任务关联的分类器两个部分,实现参数高效训练。2.如权利要求1所述一种参数高效的大规模预训练模型迁移方法,其特征在于在步骤1)中,所述提示学习逼近模块将提示向量作为自注意力机制中的v向量,通过低秩的转换矩阵W
t
=W1W2将其转换为用于自注意力机制的k向量;所述提示学习逼近模块的公式为:ΔX=α
·
ψ(X(PW1W2+P)
T
)P,α=max{X(PW1W2+P)
T
}其中,X∈R
n
×
d
表示长度为n,维度数为d的输入序列,P∈R
m
×
d
表示嵌入到v向量空间中的m个提示向量,小矩阵W1∈R
d
×
r
和W2∈R
r
×
d
共同构成秩上限为r的低秩矩阵;为自适应地通过向量模长调整提示向量在信息扩散中的贡献,注意力矩阵通过ReLU函数ψ激活;同时,使用贡献最显著的提示向量与输入向量之间的相关性α作为提示向量在信息扩散过程中整体的权重。3.如权利要求1所述一种参数高效的大规模预训练模型迁移方法,...
【专利技术属性】
技术研发人员:纪荣嵘,周奕毅,吴穹,
申请(专利权)人:厦门大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。