一种基于连续提示对比学习的单属性可控文本生成方法技术

技术编号：42530884 阅读：5 留言：0更新日期：2024-08-27 19:38

本发明专利技术公开一种基于连续提示对比学习的单属性可控文本生成方法，包括：S1.训练对立属性的连续提示；S2.结合对立属性的连续提示对目标属性的连续提示进行训练；S3.利用经过训练的目标属性的连续提示生成文本。本方法引入了对立属性的提示向量对目标属性的提示向量进行训练。使目标属性的提示向量在训练过程中学习到对立属性之间的关系，同时使其不受训练数据中其他属性的干扰，缓解了属性混淆的问题，提高了提示向量的可控性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理(nlp)领域中的可控文本生成方向，特别是涉及一种基于连续提示对比学习的单属性可控文本生成方法。

技术介绍

1、基于属性的可控文本生成旨在生成满足主题、情感、关键词、风格等特定属性的自然语言句子。在一些场景下，用户需要控制模型生成的句子的一些属性。比如：在模拟生成商家对用户的回复时，生成的内容就不能有毒性，而且情绪要积极。在基于属性的可控文本生成领域的研究中，单属性文本的控制生成最为关键和基础。在大部分的场景下，只需要生成的文本具备一到两个关键属性就可以满足需求；其次，多属性文本的生成的一般是在生成单属性文本的基础之上的，所以有必要先展开对单属性文本生成的研究。现在对可控文本生成的研究都与预训练语言大模型结合起来，研究路线可基本概扩为三条：第一条是微调预训练语言大模型，它旨在微调预训练语言大模型的一部分或者全部的参数，以生成满足条件的文本，这条路线包括适配网络模块(adapted module)、提示学习、利用强化学习启发等方法；第二条是重新训练或者重构预训练语言大模型，这条技术路线有望大幅提高文本生成的质量和可控性，但是会受到计算资源和数据量的限制；第三条技术路线是用后处理的方式对生成的文本进行重新排序，这种技术路线最重要的是使用合适的解码算法，比如贪婪搜索、约束束搜索、top-k采样等等。连续提示是近年来提出的一种新的方法，该方法冻结了预训练语言模型的参数，通过反向传播误差以优化一个小型连续特定任务向量，这个向量出现在输入文本的前缀，也被称为软提示。这种方法有以下优势：1.相比于人工制作的提示模板，

2、在近期，在基于属性的控制文本生成领域也涌现出利用连续向量作为提示的相关工作，但这些工作[1][2]忽视了一个问题，在对于提示向量的训练阶段，提示向量会在学习目标属性的同时不可避免地学习到数据集里的其他特征，导致其很容易与除目标属性之外的数据的其他属性(如文本风格、主题)等发生拟合。这也就意味着训练出的代表某目标属性的提示向量实际上是被混淆的，所以在文本生成阶段，生成的文本除了目标属性之外，往往还具有训练数据集的其他属性，这就导致生成的文本的丰富程度收到了限制，降低了生成文本的可用性。举例而言，如果在给餐馆打分的相关数据集上(如yelp数据集)训练出一个代表情感积极的提示向量，在使用提示向量的生成阶段，即使提示文本与餐馆、食物等在训练数据集中描述的对象毫无关系，生成的文本也通常会与餐馆和食物有关。

技术实现思路

1、本专利技术的目的是为了克服现有技术中的不足，解决在提示向量训练阶段产生的属性混淆问题，提供一种基于连续提示对比学习的单属性可控文本生成方法，本方法引入了对立属性的提示向量对目标属性的提示向量进行训练。例如，目标属性为积极情感，那么其对立属性即为消极情感。对立属性的提示向量与目标属性的提示向量在训练过程中使用的数据来源于同一个数据集，目的是使得两者使用的训练数据除目标属性呈对立关系之外，其他特征保持一致。方法使目标属性的提示向量在训练过程中学习到对立属性之间的关系，同时使其不受训练数据中其他属性的干扰，缓解了属性混淆的问题，提高了提示向量的可控性。

2、本专利技术的目的是通过以下技术方案实现的：

3、一种基于连续提示对比学习的单属性可控文本生成方法，包括：

4、s1.训练对立属性的连续提示；

5、s2.结合对立属性的连续提示对目标属性的连续提示进行训练；

6、s3.利用经过训练的目标属性的连续提示生成文本。

7、进一步的，步骤s1中利用提示调优方法训练对立属性的连续提示；包括以下步骤：

8、s101.先初始化一个长度为l的用于描述对立属性a的连续提示pa，形式化表示为：

9、

10、其中，代表一个参数矩阵，demb是预训练语言模型的词嵌入维度；

11、s102.在训练数据集x1:n＝{x1,x2,...,xn}中抽取一条文本数据，n为训练数据集中的数据条数，将其送入预训练语言模型进行文本嵌入操作，得到一个词序列矩阵随后，将连续提示pa与矩阵xemb做拼接，作为预训练语言模型的输入；基于预训练语言模型的学习目标形式化表示为：

12、

13、其中，θg和分别表示预训练语言模型的参数和用于描述对立属性a的连续提示pa的参数，在训练中，预训练语言模型的参数会被冻结，只有连续提示pa的参数会被更新。

14、进一步的，步骤s2包括以下步骤：

15、s201.对目标属性的连续提示进行提取：先初始化一个长度为l的用于描述目标属性b的连续、、提示pb，形式化表示为：

16、

17、代表一个参数矩阵；l为描述对立属性b的连续提示pb的长度；

18、s202.将连续提示pb、连续提示pa与被嵌入的文本数据进行拼接，将拼接后的结果输入至预训练语言模型中进行训练；在训练过程中，只有目标属性的连续提示pb的相关参数会被更新，对立属性的连续提示pa以及预训练语言模型的参数都会被冻结。

19、进一步的，步骤s202的训练阶段，为了避免目标属性在生成时被其他属性污染，在预训练语言模型损失函数的基础上，引入了新的对比损失使得总的损失函数为和的加权和：

20、

21、

22、

23、其中，ω1和ω2分别代表预训练语言模型和对比损失的权重；表示用于描述对立属性a的连续提示pa的参数；表示用于描述对立属性b的连续提示pb的参数；x为输入的训练数据，y为x的属性标签；定义为两个属性a和b的连续提示之间的余弦相似度的负数加一；余弦相似度是通过计算两个连续提示的点积然后除以它们的模长的乘积得到；当pb和pa的余弦相似度越趋近于1，对比损失越小；反之，当pb和pa的余弦相似度越趋近于-1，对比损失越大。

24、进一步的，预训练语言模型采用gpt-2，并对gpt-2的注意力机制进行修改，以保证在训练阶段只有目标属性的连续提示会关注对立属性的连续提示，让gpt-2捕捉到属性之间的关系；

25、原生注意力机制attention为：

26、

27、其中q、k、v分别代表查询、键和值三个序列向量，为序列表征q和k的维度，t代表转置操作，softmax()为一种激活函数，对立属性连续提示pa和目标属性连续提示pb的长度分别为la、lb，i、j表示注意力矩阵m的行索引和列索引，注意力矩阵m被初始化为：

28、

29、修改后的注意力模块attentionmod为：

30、

31、其中，代表着注意力机制的输出矩阵。

32、本专利技术还提供一种电子设备，包括存储器、处理器及存储本文档来自技高网...

【技术保护点】

1.一种基于连续提示对比学习的单属性可控文本生成方法，其特征在于，包括：

2.根据权利要求1所述一种基于连续提示对比学习的单属性可控文本生成方法，其特征在于，步骤S1中利用提示调优方法训练对立属性的连续提示；包括以下步骤：

3.根据权利要求1所述一种基于连续提示对比学习的单属性可控文本生成方法，其特征在于，步骤S2包括以下步骤：

4.根据权利要求3所述一种基于连续提示对比学习的单属性可控文本生成方法，其特征在于，

5.根据权利要求1所述一种基于连续提示对比学习的单属性可控文本生成方法，其特征在于，预训练语言模型采用Gpt-2，并对Gpt-2的注意力机制进行修改，以保证在训练阶段只有目标属性的连续提示会关注对立属性的连续提示，让Gpt-2捕捉到属性之间的关系；

6.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至5任一项所述基于连续提示对比学习的单属性可控文本生成方法的步骤。

7.一种计算机可读存储介质，其上存储有计算机程序，其

...

【技术特征摘要】

1.一种基于连续提示对比学习的单属性可控文本生成方法，其特征在于，包括：

2.根据权利要求1所述一种基于连续提示对比学习的单属性可控文本生成方法，其特征在于，步骤s1中利用提示调优方法训练对立属性的连续提示；包括以下步骤：

3.根据权利要求1所述一种基于连续提示对比学习的单属性可控文本生成方法，其特征在于，步骤s2包括以下步骤：

4.根据权利要求3所述一种基于连续提示对比学习的单属性可控文本生成方法，其特征在于，

5.根据权利要求1所述一种基于连续提示对比学习的单属性可控文本生成方法，其特征在于，预训练...

【专利技术属性】
技术研发人员：王博，马晓春，
申请(专利权)人：天津大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人