【技术实现步骤摘要】
一种基于对比学习的自然文本编码方法
[0001]本专利技术属于自然文本编码的
,具体涉及到一种基于对比学习的自然文本编码方法。
技术介绍
[0002]自然文本编码的目的是学习文本的有效表示,在自然语言处理(NLP)的大多数任务中起着关键作用。良好的句子表示不仅提高了下游任务的性能例如文本生成、翻译、问答等,而且有利于模型的稳定训练。由于基于对比学习的图像表示的成功,研究人员已经使用对比学习来完成自然文本编码的任务,虽然对比学习已经应用于自然文本编码,但与计算机视觉任务相比仍处于萌芽阶段。具体而言,有监督的句子嵌入方法与无监督的自然文本编码在性能上仍存在很大差距。此外现有的基于对比学习的自然文本编码存在两个不足之处:(1)几乎所有方法都直接使用计算机视觉的对比框架,由于图像数据与文本数据的差异,可能无法有效挖掘文本数据的语义信息;图像和文本数据差异具体表现为:1)文本数据是离散的,同时也是稀疏的;2)图像数据中任意两个相邻像素之间的信息是连续的,而句子中任意两个相邻单词之间的信息不一定是连续的。(2)现有方法大多是离散的数据增强,离散的数据增强可能会破坏自然文本数据的原始语义,使得对比学习无法获取可判别的特征。
技术实现思路
[0003]针对现有技术存在的不足,本专利技术提出了一种基于对比学习的自然文本编码方法,解决了现有数据增强而造成原始语义扭曲及现有方法利用计算机视觉对比框架造成对比学习训练低效,进而影响编码后自然文本质量低等问题。
[0004]为了解决上述技术问题,本专利技术通过以下 ...
【技术保护点】
【技术特征摘要】
1.一种基于对比学习的自然文本编码方法,其特征在于:包括以下步骤:S1、对自然文本数据集进行增强处理,通过数据增强获取正样本对;S2、建立对比学习模型,对比学习模型采用预训练模型作为Encoder;S3、进行对比学习模型训练;S4、得到自然文本的编码结果。2.根据权利要求1所述的一种基于对比学习的自然文本编码方法,其特征在于:所述步骤S1包括如下分步骤:S11、使用Prompt机制和自然文本构建模板,所构建的模板如下公式所示:Template=“The meaning of[X]is[MASK]
”ꢀꢀꢀꢀ
(1)其中,[X]表示所要编码的自然文本,[MASK]表示[MASK]token;S12、将自然文本向量化的编码器作为预训练语言模型的Embedding层,其过程如下公式所示:W
i
=E(S
i
)
ꢀꢀꢀꢀ
(2)其中,W
i
为自然文本S
i
通过预训练模型词嵌入层E(
·
)得到的词向量;S13、使用概率从高斯白噪声、随机置零、反傅里叶变换和随机背景噪声中选择噪声与词向量进行融合,其融合过程如下公式所示:W
aug
=ρ(A
gwm
(W
i
),A
rzs
(W
i
),A
ifft
(W
i
),A
rbn
(W
i
);p1,p2,p3,p4)
ꢀꢀꢀꢀ
(3)其中,W
aug
为融合后的词向量,ρ(
·
)为以概率p1,p2,p3,p4的选择函数来分别从斯白噪声A
gwn
(W
i
)、随机置零A
rzs
(W
i
)、反傅里叶变换A
ifft
(W
i
)和随机背景噪声A
rbn
(W
i
)选择方法进行融合;S14、使用概率决定是否对词向量进行增强处理,其过程如下公式所示:其中,W
pwva
为最终且连续数据增强的结果,为以概率p来确定是否对词向量进行增强的函数。3.根据权利要求1所述的一种基于对比学习的自然文本编码...
【专利技术属性】
技术研发人员:王骞,
申请(专利权)人:成都瑞贝英特信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。