基于记忆力机制的预训练语言模型参数微调方法和装置制造方法及图纸

技术编号:35142099 阅读:162 留言:0更新日期:2022-10-05 10:18
本发明专利技术公开了基于记忆力机制的预训练语言模型参数微调方法,包括:构建微调预训练语言模型,其包括,获取初始BERT模型;分别将记忆力机制模块引入到所述初始BERT模型的全连接前馈网络模块和多头注意机制模块中,获得微调BERT模型,记忆力机制模块包含参数M、K

【技术实现步骤摘要】
基于记忆力机制的预训练语言模型参数微调方法和装置


[0001]本专利技术涉及自然语言处理领域。更具体地说,本专利技术涉及一种基于记忆力机制的预训练语言模型参数微调方法和装置。

技术介绍

[0002]BERT是2018年由Google AI研究院提出的一种预训练语言模型,全称是Bidirectional Encoder Representation from Transformers,即双向Transformer的编码器。Transformer使用全新的自注意力机制动态抽取全局信息,将文本加工为包含上下文信息的词向量表示,拥有强大的特征抽取能力。一经推出,BERT就取得了惊人的成绩。
[0003]在将BERT应用到具体领域中时,需要利用相应场景下的训练语料对BERT的参数进行微调(fine tune),然而受累于其上亿的参数量,更新并存储这些参数的代价是十分昂贵的,这严重掣肘了BERT在实际应用中的部署。

技术实现思路

[0004]本专利技术的目的是提供一种基于记忆力机制的预训练语言模型参数微调方法、装置、电子设备和存储介质,以解决上述问题。
[0005]为了实现本专利技术的目的和其它优点,本专利技术提供了一种基于记忆力机制的预训练语言模型参数微调方法,包括:
[0006]构建微调预训练语言模型,其包括,获取初始BERT模型;分别将记忆力机制模块引入到所述初始BERT模型的全连接前馈网络模块和多头注意机制模块中,获得微调BERT模型,其中,记忆力机制模块中包含参数M、K
P
、V
P
,由N个记忆槽组成,每个记忆槽为d
m
维度的向量,K
P
、V
P
为l个d维度的表征,l为虚拟token的长度,
[0007]获取任务训练数据,将其划分为训练集和验证集,采用所述训练数据对所述微调BERT模型进行训练,训练时,固定所述微调BERT模型中除M、K
P
、V
P
外的全部参数,在训练集上对参数M、K
P
、V
P
进行迭代更新,且当验证集上当前轮次的负对数似然损失函数值相较于训练过程中的最小负对数似然损失函数值,上升超过5%时,停止训练。
[0008]优选的是,所述的基于记忆力机制的预训练语言模型参数微调方法,所述将记忆力机制模块引入所述初始BERT模型的全连接前馈网络模块中,包括:
[0009]获取Transformers模块中的n个d维度的隐藏层状态H,
[0010]利用参数矩阵对H进行线性变换,得到Q
H
,Q
H
=HW
query

[0011]利用参数矩阵和对M进行线性变化得到N个d
m
维度的键值对K
M
=MW
key
,V
M
=MW
value

[0012]计算Q
H
,K
M
,V
M
的多头注意力,并通过线性变化矩阵进行线性变化得到ΔH,
[0013]根据公式H

aH+bΔH,更新隐藏层状态H,其中,a和b是一组超参数系数。
[0014]优选的是,所述的基于记忆力机制的预训练语言模型参数微调方法,所述将记忆力机制模块引入到初始BERT模型的多头注意机制模块中,包括:
[0015]将K
P
、V
P
拼接到多头注意机制模块的键值对K和V中作为新的键值对,head=Attention(qW
Q
,Concat(K
p
,CW
K
),Concat(V
p
,CW
V
)),其中,为一个d维度的查询向量,表示m个d维度的上下文向量,是三个参数矩阵。
[0016]本专利技术还提供了一种基于记忆力机制的预训练语言模型参数微调装置,包括:
[0017]微调预训练语言模型构建单元,其用于构建微调预训练语言模型,包括,获取初始BERT模型;分别将记忆力机制模块引入到所述初始BERT模型的全连接前馈网络模块和多头注意机制模块中,获得微调BERT模型,其中,记忆力机制模块中包含参数M、K
P
、V
P
,由N个记忆槽组成,每个记忆槽为d
m
维度的向量,K
P
、V
P
为l个d维度的表征,l为虚拟token的长度,
[0018]参数微调单元,其用于获取任务训练数据,将其划分为训练集和验证集,采用所述训练数据对所述微调BERT模型进行训练,训练时,固定所述微调BERT模型中除M、K
P
、V
P
外的全部参数,在训练集上对参数M、K
P
、V
P
进行迭代更新,且当验证集上当前轮次的负对数似然损失函数值相较于训练过程中的最小负对数似然损失函数值,上升超过5%时,停止训练。
[0019]优选的是,所述的基于记忆力机制的预训练语言模型参数微调装置,所述将记忆力机制模块引入所述初始BERT模型的全连接前馈网络模块中,包括:
[0020]获取Transformers模块中的n个d维度的隐藏层状态H,
[0021]利用参数矩阵对H进行线性变换,得到Q
H
,Q
H
=HW
query

[0022]利用参数矩阵和对M进行线性变化得到N个d
m
维度的键值对K
M
=MW
key
,V
M
=MW
value

[0023]计算Q
H
,K
M
,V
M
的多头注意力,并通过线性变化矩阵进行线性变化得到ΔH,
[0024][0025]根据公式H

aH+bΔH,更新隐藏层状态H,其中,a和b是一组超参数系数。
[0026]优选的是,所述的基于记忆力机制的预训练语言模型参数微调装置,所述将记忆力机制模块引入到初始BERT模型的多头注意机制模块中,包括:
[0027]将K
P
、V
P
拼接到多头注意机制模块的键值对K和V中作为新的键值对,head=Attention(qW
Q
,Concat(K
p
,CW
K
),Concat(V
p
,CW
V
)),其中,为一个d维度的查询向量,表示m个d维度的上下文向量,是三个参数矩阵。
[0028]本专利技术还提供了一种电子设备,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于记忆力机制的预训练语言模型参数微调方法,其特征在于,包括:构建微调预训练语言模型,其包括,获取初始BERT模型;分别将记忆力机制模块引入到所述初始BERT模型的全连接前馈网络模块和多头注意机制模块中,获得微调BERT模型,其中,记忆力机制模块中包含参数M、K
P
、V
P
,由N个记忆槽组成,每个记忆槽为d
m
维度的向量,K
P
、V
P
为l个d维度的表征,l为虚拟token的长度,获取任务训练数据,将其划分为训练集和验证集,采用所述训练数据对所述微调BERT模型进行训练,训练时,固定所述微调BERT模型中除M、K
P
、V
P
外的全部参数,在训练集上对参数M、K
P
、V
P
进行迭代更新,且当验证集上当前轮次的负对数似然损失函数值相较于训练过程中的最小负对数似然损失函数值,上升超过5%时,停止训练。2.如权利要求1所述的基于记忆力机制的预训练语言模型参数微调方法,其特征在于,所述将记忆力机制模块引入所述初始BERT模型的全连接前馈网络模块中,包括:获取Transformers模块中的n个d维度的隐藏层状态H,利用参数矩阵对H进行线性变换,得到Q
H
,Q
H
=HW
query
;利用参数矩阵和对M进行线性变化得到N个d
m
维度的键值对K
M
=MW
key
,V
M
=MW
value
;计算Q
H
,K
M
,V
M
的多头注意力,并通过线性变化矩阵进行线性变化得到ΔH,根据公式H

aH+bΔH,更新隐藏层状态H,其中,a和b是一组超参数系数。3.如权利要求1所述的基于记忆力机制的预训练语言模型参数微调方法,其特征在于,所述将记忆力机制模块引入到初始BERT模型的多头注意机制模块中,包括:将K
P
、V
P
拼接到多头注意机制模块的键值对K和V中作为新的键值对,head=Attention(qW
Q
,Concat(K
p
,CW
K
),Concat(V
p
,CW
V
)),其中,为一个d维度的查询向量,表示m个d维度的上下文向量,是三个参数矩阵。4.基于记忆力机制的预训练语言模型参数微调装置,其特征在于,包括:微调预训练语言模型构建单元,其用于构建微调预训练语言模型,包括,获取初始BERT模型;分别将记忆力机制模块引入到所述初始BERT模型的全连接前馈网络模块和多头注意机制模块中,获得微调BERT模型,其中,记忆力机制模...

【专利技术属性】
技术研发人员:吴俊杰左源齐旺张志豪李丰志任鹏飞
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1