文本相似度确定模型的训练方法及文本相似度计算方法技术

技术编号：42505573 阅读：7 留言：0更新日期：2024-08-22 14:20

本发明专利技术提供一种文本相似度确定模型的训练方法及文本相似度计算方法，属于计算机技术领域，该训练方法包括：获取第一数据集和第二数据集；第一数据集中包括至少一个短文本数据对；第二数据集中包括至少一个目标文本数据对，目标文本数据对中的两个目标文本数据至少一个为长文本数据；基于句向量对比模型，获取第二数据集中各目标文本数据的关键表述；句向量对比模型是基于第一数据集和第一损失函数对第一预训练模型训练得到的；基于各关键表述和第二损失函数，对第二预训练模型进行训练，得到文本相似性确定模型。通过在判定过程中引入短文本和长文本，提升了文本相似度确定模型输出结果的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机，尤其涉及一种文本相似度确定模型的训练方法及文本相似度计算方法。

技术介绍

1、在自然语言处理领域，文本相似度计算方法主要用于判断两篇文档之间是否相似。在实际应用中，文本相似度计算方法可用于文本聚类、信息检索、问答系统等。传统方法主要分为无监督方法和有监督方法。目前已有的文本相似度计算方法往往忽略了文本长度对算法的影响。文本长度即代表着其中蕴含信息多少，因此不同长度的文本在进行相似度匹配的过程中需要综合考虑其中包含的信息。例如在公众信息评价系统中，随着互联网信息的需要对大量的新闻报道进行合并聚类，其中针对同一事件的报道，往往文章的长度和内容不尽相同，需要在计算相似度的过程中考虑长短文本的内容和区别。

2、现有技术中，处理长文本的方法主要是从长文本中提取关键句，但是在相关模型的训练中，往往提取算法仅仅从内容层面抽取文本中的关键信息，并没有考虑到两个文本之间存在相似度的信息。另外，现有的文本相似度确定模型也没有在计算过程中考虑句子位置的影响。

3、在一对文本数据的长度相差较大的情况下，传统的文本相似度确定模型得出的结果准确率较低。

技术实现思路

1、本专利技术提供一种文本相似度模型的训练方法及文本相似度计算方法，用以解决现有技术中长度相差较大的文本数据之间的相似度难以准确度量的问题，有效提升文本数据相似度之间的相似度计算的准确度。

2、本专利技术提供一种文本相似度确定模型的训练方法，包括：

3、获取第一数据集和第二数据

4、基于句向量对比模型，获取所述第二数据集中各所述目标文本数据的关键表述；所述句向量对比模型是基于所述第一数据集和第一损失函数对第一预训练模型训练得到的；

5、基于各所述关键表述和第二损失函数，对第二预训练模型进行训练，得到文本相似度确定模型；所述文本相似度确定模型用于确定文本数据之间的相似度。

6、根据本专利技术提供的一种文本相似度确定模型的训练方法，所述基于句向量对比模型，获取所述第二数据集中各所述目标文本数据的关键表述，包括：

7、获取所述第二数据集中的一个目标文本数据对；

8、基于标点符号，将所述目标文本数据对中的第一目标文本数据和第二目标文本数据分别进行分割，得到所述第一目标文本数据的第一子句子集合和所述第二目标文本数据的第二子句子集合；

9、将所述第一子句子集合和所述第二子句子集合进行合并，得到所述目标文本数据对对应的句子集合；所述句子集合中包括至少两个句子；

10、基于所述句向量对比模型，得到所述句子集合中，两两句子之间的相似度；

11、以所述句子集合中每一个句子为节点构造有权无向图，基于加权pagerank算法确定各所述节点的重要度；

12、基于所述重要度分别对所述第一子句子集合中的句子和所述第二子句子集合中的句子进行排序，选取所述第一子句子集合中前预设数量的句子作为所述第一目标文本数据的关键表述，并选取所述第二子句子集合中前预设数量的句子作为所述第二目标文本数据的关键表述；

13、继续执行所述获取所述第二数据集中的一个目标文本数据对的步骤，得到所述第二数据集中各所述目标文本数据的关键表述。

14、根据本专利技术提供的一种文本相似度确定模型的训练方法，所述基于各所述关键表述和第二损失函数，对第二预训练模型进行训练，得到文本相似度确定模型，包括：

15、针对每个所述目标文本数据对，将所述目标文本数据对中的各所述目标文本数据的关键表述进行拼接，得到所述目标文本数据对对应的第一文本；

16、将各所述目标文本数据对对应的第一文本输入所述第二预训练模型中，得到各所述第一文本对应的相似度；

17、以最小化所述第二损失函数为约束条件，对所述第二预训练模型进行训练，得到所述文本相似度确定模型。

18、根据本专利技术提供的一种文本相似度确定模型的训练方法，所述第二损失函数为交叉熵损失函数和平均方差损失函数中的任意一种。

19、根据本专利技术提供的一种文本相似度确定模型的训练方法，所述方法还包括：

20、将所述第一数据集中每个所述短文本数据对中的各短文本数据输入所述第一预训练模型中，得到各所述短文本数据对应的表征向量；

21、对各所述表征向量进行白化操作，得到各所述表征向量对应的白化特征向量；

22、基于各所述白化特征向量的余弦相似度和预设标签中的相似度，确定所述第一损失函数；

23、以最小化所述第一损失函数为约束条件，对所述第一预训练模型进行训练，得到所述句向量对比模型。

24、根据本专利技术提供的一种文本相似度确定模型的训练方法，所述以所述句子集合中每一个句子为节点构造有权无向图，基于加权pagerank算法确定各所述节点的重要度，包括：

25、基于所述句子集合中的节点个数和各所述节点的预权重，采用公式（1）确定各所述节点的重要度：

26、（1）

27、其中，表示第个节点的重要度，表示链接到第个节点的节点集合，表示从第个节点节点集合，表示中节点的个数，为阻尼系数，为第个节点的预权重，表示第个节点和第个节点之间的相似度。

28、本专利技术还提供一种文本相似度计算方法，基于上述任一项所述的文本相似度确定模型实现，包括：

29、获取待确定相似度的文本数据对；所述文本数据对中包括长文本数据和设定文本数据，所述设定文本数据为长文本数据或短文本数据；

30、对所述文本数据对进行分割，得到所述文本数据对对应的第一句子集合；所述第一句子集合中包括至少两个句子单元；

31、基于句向量对比模型，获取所述长文本数据对应的第一关键表述和所述设定文本数据的第二关键表述；

32、将所述第一关键表述和所述第二关键表述拼接后输入文本相似度确定模型中，得到所述长文本数据和所述设定文本数据的相似度。

33、本专利技术还提供一种文本相似度计算装置，包括：

34、第一获取模块，用于获取待确定相似度的文本数据对；所述文本数据对中包括长文本数据和设定文本数据，所述设定文本数据为长文本数据或短文本数据；

35、分割模块，用于对所述文本数据对进行分割，得到所述文本数据对对应的第一句子集合；所述第一句子集合中包括至少两个句子单元；

36、第二获取模块，用于基于句向量对比模型，获取所述长文本数据对应的第一关键表述和所述设定文本数据的第二关键表述；

37、确定模块，用于将所述第一关键表述和所述第二关键表述拼接后输入文本相似度确定模型中，得到所述长文本数据和所述设定文本数据的相似度。

38、本专利技术还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运本文档来自技高网...

【技术保护点】

1.一种文本相似度确定模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的文本相似度确定模型的训练方法，其特征在于，所述基于句向量对比模型，获取所述第二数据集中各所述目标文本数据的关键表述，包括：

3.根据权利要求1所述的文本相似度确定模型的训练方法，其特征在于，所述基于各所述关键表述和第二损失函数，对第二预训练模型进行训练，得到文本相似度确定模型，包括：

4.根据权利要求3所述的文本相似度确定模型的训练方法，其特征在于，所述第二损失函数为交叉熵损失函数和平均方差损失函数中的任意一种。

5.根据权利要求1所述的文本相似度确定模型的训练方法，其特征在于，所述方法还包括：

6.根据权利要求2所述的文本相似度确定模型的训练方法，其特征在于，所述以所述句子集合中每一个句子为节点构造有权无向图，基于加权PageRank算法确定各所述节点的重要度，包括：

7.一种文本相似度计算方法，基于上述权利要求1-6任一项所述的文本相似度确定模型的训练方法实现，其特征在于，包括：

8.一种文本相似度计算装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述的文本相似度确定模型的训练方法或权利要求7所述的文本相似度计算方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的文本相似度确定模型的训练方法或权利要求7所述的文本相似度计算方法。

...

【技术特征摘要】

1.一种文本相似度确定模型的训练方法，其特征在于，包括：

4.根据权利要求3所述的文本相似度确定模型的训练方法，其特征在于，所述第二损失函数为交叉熵损失函数和平均方差损失函数中的任意一种。

5.根据权利要求1所述的文本相似度确定模型的训练方法，其特征在于，所述方法还包括：

6.根据权利要求2所述的文本相似度确定模型的训练方法，其特征在于，所述以所述句子集合中...

【专利技术属性】
技术研发人员：段运强，李鹏霄，井雅琪，吕东，段荣昌，侯炜，佟玲玲，段东圣，任博雅，王子涵，艾政阳，贾云刚，党中恺，
申请(专利权)人：国家计算机网络与信息安全管理中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人