文本语义匹配长度偏差优化方法、电子设备及存储介质技术

技术编号：37984363 阅读：21 留言：0更新日期：2023-06-30 09:59

本发明专利技术公开了一种文本语义匹配长度偏差优化方法、电子设备及存储介质，聚焦于解决文本语义匹配任务模型存在的长度差异偏差的问题。本发明专利技术中，将主模型与对手模型进行共同对抗训练后，得到的文本匹配模型将难以根据给定样本预测出文本长度差异值，即文本匹配模型无需关注文本长度差异值在语义空间中的表示，因此对正常文本语义匹配任务做出预测时不会过度依赖文本长度差异，从而减少了文本长度差异偏差对模型泛化性的影响。偏差对模型泛化性的影响。偏差对模型泛化性的影响。

全部详细技术资料下载

【技术实现步骤摘要】
文本语义匹配长度偏差优化方法、电子设备及存储介质

[0001]本专利技术涉及文本匹配技术，特别是一种基于自然语言处理的文本语义匹配长度偏差优化方法、电子设备及存储介质。

技术介绍

[0002]文本匹配技术在工业生产生活实践等各个领域中的都具有非常重要的意义。文本匹配是指检查文本中单词的特定顺序或结构是否存在一定关系的过程，匹配结果通常是精确的：匹配或者不匹配。
[0003]文本匹配包括很多子任务，其中相似性度量被认为是其他各种任务如文本摘要、文本匹配、信息检索、自动论文评分、文档聚类和机器翻译中的一个重要组成部分，通过测量单词、句子、段落和文档之间的相似性来进行度量。
[0004]最近的研究表明，深度学习模型可能通过学习数据集中某些启发性的模式或规则来实现虚假的高性能，甚至产生一些列社会问题。研究模型中存在的偏差以及如何去优化相关问题是目前亟待解决的问题。
[0005]专利技术专利申请CN114281931A介绍了一种根据文本匹配中的两个文本在向量空间中的距离来优化文本匹配模型的方法，但该方法并没有考虑到文本匹配中长度差异偏差的问题，该偏差对模型泛化性的影响较大，导致模型准确性有限。
[0006]所谓长度差异偏差指的是，给定两个文本，模型更倾向于认为字数相差更小的文本对为相似的，相差更大的文本对为不相似的，而导致这一情况的原因是训练数据集中长度差异越小的样本中正样本比例越大，长度差异越大的样本中负样本比例越大。

技术实现思路

[0007]本专利技术所要解决的技术问题是，...

【技术保护点】

【技术特征摘要】
1.一种文本语义匹配长度偏差优化方法，其特征在于，包括以下步骤：S1、利用每个样本中文本对的长度差异偏差生成对抗测试集；利用原始训练集训练文本匹配相似度预测模型；S2、利用文本匹配相似度预测模型输出的词向量训练文本长度差异预测器，所述文本长度差异预测器包括编码器和与所述编码器连接的全连接层；S3、将所述文本匹配相似度预测模型作为主模型，将经步骤S2训练后的文本长度差异预测器作为对手模型；在主模型的损失函数中加入对手模型的损失函数，通过所述主模型和对手模型的对抗，优化所述主模型，得到第一优化模型；或者，在损失函数中添加扰动，通过所述主模型和对手模型的对抗，优化所述主模型，得到第二优化模型；S4、重复步骤S2和步骤S3，利用所述对抗测试集测试第一优化模型和第二优化模型；S5、从第一优化模型和第二优化模型中选择性能更优的模型作为最终的文本匹配模型。2.根据权利要求1所述的文本语义匹配长度偏差优化方法，其特征在于，步骤S1中，利用每个样本中文本对的长度差异偏差生成对抗测试集的具体实现过程包括：计算原始测试集中每个样本S的长度差异值，对所有的长度差异值按照从大到小的顺序排序，得到排序后的测试集D
t
′
est
；将测试集D
t
′
est
中的数据划分为前后两部分，前部分数据集合为D
f
′
ront
，后部分数据集合为D
b
′
ack
，D
f
′
ront
中的所有样本设定为负样本集合，D
b
′
ack
中的所有样本设定为正样本集合，所述负样本集合和正样本集合的并集即为对抗测试集。3.根据权利要求2所述的文本语义匹配长度偏差优化方法，其特征在于，样本S的长度差异值的计算公式为：其中，分别为样本S中两个文本1、2的长度，为样本S中两个文本T1、2的长度差异值。4.根据权利要求1所述的文本语义匹配长度偏差优化方法，其特征在于，步骤S1中，利用原始训练集训练文本匹配相似度预测模型的具体实现过程包括：1)使用BERT预训练模型提供的词表，将原始训练集中的样本S*的两个文本分词化，将分词化后的结果T1′
和T2′
加入BERT预训练模型的token中，得到输入input＝{[CLS],1′
,[SEP],2′
,[SEP]}，[CLS]放在句首作为整个句子的句向量，[SEP]放在句尾作为句子的结束；2)将input输入文本匹配模型，得到原始训练集中的样本S*的两个文本相似的概率P；计算概率P和样本S*的真实标签的损失，反向传播所述损失，更新文本匹配模型的权重；3)对原始训练集中的所有样本，重复上述步骤1)和步骤2)，并利用所述对抗测试集验证更新权重后的文本匹配模型，得到最终的文本匹配相似度预测模型。5.根据权利要求1所述的文本语义匹配长度偏差优化方法，其特征在于，步骤S2的具体实现过程包括：A)计算原始训练集中每个样本的长度差异值，将所有长度差异值的值域分为M个区间，为每个长度差异值分配一[0,M
‑
1]中的整数作为其标签；B)使用BERT预训练模型提供的词表，将原始训练集中的样本S*的两个文本分词化，将分词化后的结果T1′
和T2′
加入BERT预训练模型的token中，得到输入input＝{[CLS],1′
,
[SEP],2′
,[SEP]}，[CLS]放在句首作为整个句子的句向量，[SEP]放在句尾作为句子的结束；C)将input作为文本匹配相似度预测模型encoder层M
enc
的输入，获得样本S*的句子向量表示h；D)将所述句子向量表示h作为全连接层的输入，得到句...

【专利技术属性】
技术研发人员：胡玉鹏，郑澜涛，肖雨婷，李宗营，黄靖，
申请(专利权)人：湖南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人