一种参数高效的大规模预训练模型迁移方法技术

技术编号：38836380 阅读：40 留言：0更新日期：2023-09-17 09:53

一种参数高效的大规模预训练模型迁移方法，涉及大规模预训练模型。基于Transformer的大规模预训练模型，优化用于建立自注意力机制的提示向量，在注意力模块中插入提示学习逼近模块和经过扩展的自注意力模块，以降低提示学习带来的额外计算开销，提升信息扩散的效率。1)将提示学习逼近模块插入到Transformer模型的注意力机制中，并添加任务关联的分类器；2)在下游任务上进行微调，实现参数高效的大规模预训练模型的迁移。不仅实现更加高效的输入序列间关系建立，同时允许额外的提示向量遵循新的模式建立与输入序列的联系。在低成本地实现迁移的同时，尽可能降低带来的额外开销。尽可能降低带来的额外开销。尽可能降低带来的额外开销。

全部详细技术资料下载

【技术实现步骤摘要】
一种参数高效的大规模预训练模型迁移方法

[0001]本专利技术涉及大规模预训练模型，尤其是涉及一种参数高效的大规模预训练模型迁移方法。

技术介绍

[0002]基于Transformer结构的大规模预训练模型，具有准确率高、适用场景广泛、参数量大等特点。由于预训练任务与实际应用的任务之间存在一定的差异，在将大规模预训练模型应用到具体下游任务时，往往还需要在具体下游任务上进行微调。大规模预训练模型在提升性能的同时，也带来两方面的困难：在微调过程中，大规模预训练模型包含的大量模型参数，显著提高微调的训练成本；在部署过程中，每一个下游任务需要独立保存一套完整的模型参数，显著提高存储开销。
[0003]目前将大规模预训练模型高效地迁移到下游任务的方法有手工提示(HandcraftPrompt)及其衍生算法(Xiang Lisa Li,Percy Liang.Prefix
‑
Tuning:Optimizing Continuous Prompts for Generation.ACL2021；Menglin Jia,Luming Tang,Bor
‑
Chun Chen,Claire Cardie,Serge J.Belongie,Bharath Hariharan,Ser
‑
Nam Lim.Visual Prompt Tuning.ECCV2021)。其主要原理是通过向预训练模型的输入序列添加一个手工设计的前缀，使下游任务的输入符合预训练模型的输入形式，以此实现大规模...

【技术保护点】

【技术特征摘要】
1.一种参数高效的大规模预训练模型迁移方法，其特征在于包括以下步骤：1)构建提示学习逼近模块，通过一个低秩的映射模块，将提示特征投影到不同的子空间当中，与输入特征和原提示特征一起输入到自注意力机制中；其中，经过投影的提示特征将被用于与输入特征计算关系矩阵；2)将提示学习逼近模块插入Transformer模型的注意力机制中，添加任务关联的分类器，构建经过扩展的自注意力模块；3)在下游任务上进行微调，冻结所有预训练模型参数，只训练新建的提示学习逼近模块与任务关联的分类器两个部分，实现参数高效训练。2.如权利要求1所述一种参数高效的大规模预训练模型迁移方法，其特征在于在步骤1)中，所述提示学习逼近模块将提示向量作为自注意力机制中的v向量，通过低秩的转换矩阵W
t
＝W1W2将其转换为用于自注意力机制的k向量；所述提示学习逼近模块的公式为：ΔX＝α
·
ψ(X(PW1W2+P)
T
)P，α＝max{X(PW1W2+P)
T
}其中，X∈R
n
×
d
表示长度为n，维度数为d的输入序列，P∈R
m
×
d
表示嵌入到v向量空间中的m个提示向量，小矩阵W1∈R
d
×
r
和W2∈R
r
×
d
共同构成秩上限为r的低秩矩阵；为自适应地通过向量模长调整提示向量在信息扩散中的贡献，注意力矩阵通过ReLU函数ψ激活；同时，使用贡献最显著的提示向量与输入向量之间的相关性α作为提示向量在信息扩散过程中整体的权重。3.如权利要求1所述一种参数高效的大规模预训练模型迁移方法，...

【专利技术属性】
技术研发人员：纪荣嵘，周奕毅，吴穹，
申请(专利权)人：厦门大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人