一种两阶段的长文本相似度计算方法技术

技术编号：33251319 阅读：32 留言：0更新日期：2022-04-27 18:14

本发明专利技术公布了一种两阶段的长文本相似度计算方法，在第一阶段相似句子检测阶段，基于深度学习模型构建句向量提取模型，将文本转换为句向量；检测得到每条长文本之间多种相似类型的相似句子对；在第二阶段图结构计算阶段，计算得到基础相似度；将长文本相似句子对和基础相似度表示成相似句子关系图；图上的每个节点表示一条长文本；通过运算获得融合群体信息的高层次节点表示；更新节点特征信息，节点特征向量上每个维度的值即对应长文本之间的文本相似度；即获得长文本之间的文本相似度。本发明专利技术方法可使得长文本相似度具有较强的可解释性，提升文本处理的有效性和精度。提升文本处理的有效性和精度。提升文本处理的有效性和精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种两阶段的长文本相似度计算方法

[0001]本专利技术涉及文本相似度计算方法，具体涉及一种基于深度学习模型与图算法的两阶段的长文本相似度计算方法。

技术介绍

[0002]文本相似度计算是自然语言处理的一类重要任务，相关技术致力于使用技术手段度量文本之间的相似程度。对于不同长度的文本，需要适配不同的文本相似度计算方法。在计算长文本相似度时需要将大量文本信息进行提取压缩与匹配计算，这在新闻推荐、文章推荐、引文推荐、文档聚类等方面有重要应用。
[0003]现有技术大多采用基于关键词提取的方法，通过提取少数关键词作为长文本的代表，然后参与进一步的相似度计算。由于计算结果依赖于少数几个关键词，这种方法损失了大量语义信息，鲁棒性差。
[0004]基于深度学习模型的方法使用深度学习模型对全文进行编码后计算其相似度。但现有的深度学习模型只能在长度为数百个词以内的文本序列上取得较好的编码效果。而类似书本这样的长文本经常有数万字甚至数十万字，现有的模型不能较好地编码。并且，由于相似度计算都在隐空间进行，可解释性很差。
[0005]此外，上述两类技术都只考虑了被比较的长文本之间的信息，计算过程相对孤立，缺乏对群体信息的利用。

技术实现思路

[0006]本专利技术提供一种基于深度学习模型与图算法的两阶段的长文本相似度计算方法，利用文本自身的语义信息，以及与群体信息的协作，两阶段地计算得到书本级别长文本的相似度。
[0007]本专利技术的原理是：对一组长文本，在第一阶段，使用多种检测方法检测得...

【技术保护点】

【技术特征摘要】
1.一种两阶段的长文本相似度计算方法，其特征是，在第一阶段相似句子检测阶段，包括：11）基于深度学习模型构建句向量提取模型，所述句向量提取模型包括语义相似检测模型和转述相似检测模型；12）通过所述句向量提取模型将文本转换为句向量，再采用多种检测方法检测得到每条长文本之间多种相似类型的相似句子对，包括：语义相似型句子对、转述相似型句子对和局部相似型句子对；在第二阶段图结构计算阶段，包括：21）计算得到基础相似度；22）根据长文本相似句子对和基础相似度构建相似句子关系图结构；相似句子关系图上的每个节点表示一条长文本；节点之间的边表示节点对应的两条长文本之间存在相似句子；23）通过相似句子关系图的运算，在相似句子关系图上进行两次信息传递和聚合运算，得到融合群体信息的高层次节点表示，由此获得新的节点特征信息并更新；节点特征向量上每个维度的值即对应长文本之间的文本相似度；根据节点特征，获得长文本之间的文本相似度。2.如权利要求1所述两阶段的长文本相似度计算方法，其特征是，在相似句子检测阶段之前，首先将每条长文本分割为句子；通过对比学习微调预训练的语言表征模型BERT模型或RoBERTa模型，得到句向量提取模型；通过所述句向量提取模型包括的语义相似检测模型和转述相似检测模型分别提取长文本句子和子句的句向量，从而将长文本转换为句向量。3.如权利要求2所述两阶段的长文本相似度计算方法，其特征是，进一步地，通过如下步骤得到句向量提取模型：11）通过进行句子语义相似性对比学习训练，微调BERT模型，得到语义相似检测模型；包括：对提取得到的句向量，采用丢弃法处理，构造得到对比学习的正例；将一个训练批次中其他句向量作为对比学习的负例；用于训练的损失函数采用基于句向量和构造的正例及负例计算的损失函数；将训练好的模型命名为语义相似检测模型；12）通过进行句子转述相似性对比学习训练，微调BERT模型，得到转述相似检测模型；包括：从句子文本中提取出句向量；对每个句子内部，按逗号分割为子句，在句子文本中随机选择和打乱子句，得到新句子文本；对从新句子文本中提取的句向量采用丢弃法处理构造对比学习的正例；将一个训练批次中其他句子文本所提取的向量作为对比学习的负例；BERT模型微调的损失函数包含与；与步骤11）采用的损失函数相同；计算是基于句向量和构造的正例及负例计算得到损失函数；最终损失函数为：；其中，是需要被设置的超参数，用于调节模型对句子结构重组和语意差异之间的侧重程度；得到的模型即命名为转述相似检测模型。
4.如权利要求1所述两阶段的长文本相似度计算方法，其特征是，进一步地，第一阶段所述多种检测方法包括三种相似型句子对的检测方法，检测得到语义相似型句子对、转述相似型句子对和局部相似型句子对。5.如权利要求4所述两阶段的长文本相似...

【专利技术属性】
技术研发人员：段思宇，苏祺，王军，
申请(专利权)人：北京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人