一种基于对比学习的自然文本编码方法技术

技术编号:37502178 阅读:22 留言:0更新日期:2023-05-07 09:38
本发明专利技术公开了一种基于对比学习的自然文本编码方法,包括以下步骤:对自然文本数据集进行增强处理,通过数据增强获取正样本对;建立对比学习模型,对比学习模型采用预训练模型作为Encoder;进行对比学习模型训练;得到自然文本的编码结果。本发明专利技术通过使用Prompt机制可以使模型更加理解自然文本编码任务,从而获取更好的编码质量;以一种连续的方式对离散的文本数据进行数据增强,保持增强前后的语义一致,从而获取质量更好的正样本对。利用连续的数据增强获取高质量的正样本对,而使用Paraphraser和Bottleneck对正样本对的特征向量进行对齐表示并挖掘更多的信息来进行对比学习以获取更好的性能。学习以获取更好的性能。学习以获取更好的性能。

【技术实现步骤摘要】
一种基于对比学习的自然文本编码方法


[0001]本专利技术属于自然文本编码的
,具体涉及到一种基于对比学习的自然文本编码方法。

技术介绍

[0002]自然文本编码的目的是学习文本的有效表示,在自然语言处理(NLP)的大多数任务中起着关键作用。良好的句子表示不仅提高了下游任务的性能例如文本生成、翻译、问答等,而且有利于模型的稳定训练。由于基于对比学习的图像表示的成功,研究人员已经使用对比学习来完成自然文本编码的任务,虽然对比学习已经应用于自然文本编码,但与计算机视觉任务相比仍处于萌芽阶段。具体而言,有监督的句子嵌入方法与无监督的自然文本编码在性能上仍存在很大差距。此外现有的基于对比学习的自然文本编码存在两个不足之处:(1)几乎所有方法都直接使用计算机视觉的对比框架,由于图像数据与文本数据的差异,可能无法有效挖掘文本数据的语义信息;图像和文本数据差异具体表现为:1)文本数据是离散的,同时也是稀疏的;2)图像数据中任意两个相邻像素之间的信息是连续的,而句子中任意两个相邻单词之间的信息不一定是连续的。(2)现有方法大多是离散的数据增强,离散的数据增强可能会破坏自然文本数据的原始语义,使得对比学习无法获取可判别的特征。

技术实现思路

[0003]针对现有技术存在的不足,本专利技术提出了一种基于对比学习的自然文本编码方法,解决了现有数据增强而造成原始语义扭曲及现有方法利用计算机视觉对比框架造成对比学习训练低效,进而影响编码后自然文本质量低等问题。
[0004]为了解决上述技术问题,本专利技术通过以下方式来实现:
[0005]一种基于对比学习的自然文本编码方法,包括以下步骤:
[0006]S1、对自然文本数据集进行增强处理,通过数据增强获取正样本对;
[0007]S2、建立对比学习模型,对比学习模型采用预训练模型作为Encoder;
[0008]S3、进行对比学习模型训练;
[0009]S4、得到自然文本的编码结果。
[0010]进一步地,所述步骤S1包括如下分步骤:
[0011]S11、使用Prompt机制和自然文本构建模板,所构建的模板如下公式所示:
[0012]Template=
ꢀ“
The meaning of [X] is [MASK]”ꢀ
(1)
[0013]其中,[X]表示所要编码的自然文本,[MASK]表示[MASK]token;
[0014]S12、将自然文本向量化的编码器作为预训练模型的Embedding层,其过程如下公式所示:
[0015]W
i
=E(S
i
)
ꢀꢀꢀ
(2)
[0016]其中,W
i
为自然文本S
i
通过预训练模型词嵌入层E(
·
)得到的词向量;
[0017]S13、使用概率从高斯白噪声(GWN)、随机置零(RZS)、反傅里叶变换(IFFT)和随机背景噪声(RBN)中选择噪声与词向量进行融合,其融合过程如下公式所示:
[0018]W
aug
=ρ(A
gwm
(W
i
),A
rzs
(W
i
),A
ifft
(W
i
),A
rbn
(W
i
);p1,p2,p3,p4)
ꢀꢀꢀ
(3)
[0019]其中,W
aug
为融合后的词向量,ρ(
·
)为以概率p1,p2,p3,p4的选择函数来分别从斯白噪声A
gwn
(W
i
)、随机置零A
rzs
(W
i
)、反傅里叶变换A
ifft
(W
i
)和随机背景噪声A
rbn
(W
i
)选择方法进行融合;
[0020]S14、使用概率决定是否对词向量进行增强处理,其过程如下公式所示:
[0021][0022]其中,W
pwva
为最终且连续数据增强的结果,为以概率p来确定是否对词向量进行增强的函数。
[0023]进一步地,所述步骤S13中高斯白噪声、反傅里叶变换、随机背景噪声分别由如下公式所示:
[0024]Agwn(W
i
)=W
i
+λμ(0,1)
ꢀꢀꢀ
(5)
[0025]Aifft(W
i
)=Real(IFFT(FFT(W
i
)))
ꢀꢀꢀ
(6)
[0026]Arbn(W
i
)=W
i
+uniform(0,0.1)
ꢀꢀꢀ
(7)
[0027]其中,W
i
为词向量,μ(0,1)表示标准正太分布,FFT(
·
)为快速傅里叶变换,λ为权重参数,IFFT(
·
)反傅里叶变换,Real(
·
)为取实部,uniform(
·
)为均匀分布。
[0028]进一步地,所述步骤S2的建立对比学习模型,具体的数据处理如下步骤:
[0029]S21、将步骤S1中增强后的正样本对输入到Encoder得到固定长度的输出向量;
[0030]S22、取[MASK]token所对应的向量为Encoder输出特征向量。
[0031]进一步地,所述步骤S3进行对比学习模型训练,其具体步骤如下:
[0032]S31、将步骤S2获取得到的两路特征向量输入到由全连接神经网络组成的Paraphraser,进而获取对正样本对在同一子空间的对齐表示;
[0033]S32、将得到的对齐表示输入到由全连接神经网络组成的Bottleneck中,获取更多的信息便于对比训练;
[0034]S33、将Bottleneck的输出通过以下公式进行对比训练:
[0035][0036]其中,h

i
、h

i
为正样本通过Encoder的特征向量,P
φ
(
·
)和B
θ
(
·
)分别是参数为的Paraphraser,参数为θ的Bottleneck的映射函数,sim(
·
)为余弦相似度,exp(
·
)指以e为底的指数函数。
[0037]进一步地,所述步骤S4得到自然文本的编码结果获取[MASK]token通过Encoder后所对应的向量。
[0038]与现有技术相比,本专利技术具有的有益效果:
[0039]使用Prompt机制可以使模型更加理解自然文本编码任务,从而获取更好的编码质量;以一种连续的方式本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于对比学习的自然文本编码方法,其特征在于:包括以下步骤:S1、对自然文本数据集进行增强处理,通过数据增强获取正样本对;S2、建立对比学习模型,对比学习模型采用预训练模型作为Encoder;S3、进行对比学习模型训练;S4、得到自然文本的编码结果。2.根据权利要求1所述的一种基于对比学习的自然文本编码方法,其特征在于:所述步骤S1包括如下分步骤:S11、使用Prompt机制和自然文本构建模板,所构建的模板如下公式所示:Template=“The meaning of[X]is[MASK]
”ꢀꢀꢀꢀ
(1)其中,[X]表示所要编码的自然文本,[MASK]表示[MASK]token;S12、将自然文本向量化的编码器作为预训练语言模型的Embedding层,其过程如下公式所示:W
i
=E(S
i
)
ꢀꢀꢀꢀ
(2)其中,W
i
为自然文本S
i
通过预训练模型词嵌入层E(
·
)得到的词向量;S13、使用概率从高斯白噪声、随机置零、反傅里叶变换和随机背景噪声中选择噪声与词向量进行融合,其融合过程如下公式所示:W
aug
=ρ(A
gwm
(W
i
),A
rzs
(W
i
),A
ifft
(W
i
),A
rbn
(W
i
);p1,p2,p3,p4)
ꢀꢀꢀꢀ
(3)其中,W
aug
为融合后的词向量,ρ(
·
)为以概率p1,p2,p3,p4的选择函数来分别从斯白噪声A
gwn
(W
i
)、随机置零A
rzs
(W
i
)、反傅里叶变换A
ifft
(W
i
)和随机背景噪声A
rbn
(W
i
)选择方法进行融合;S14、使用概率决定是否对词向量进行增强处理,其过程如下公式所示:其中,W
pwva
为最终且连续数据增强的结果,为以概率p来确定是否对词向量进行增强的函数。3.根据权利要求1所述的一种基于对比学习的自然文本编码...

【专利技术属性】
技术研发人员:王骞
申请(专利权)人:成都瑞贝英特信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1