当前位置: 首页 > 专利查询>北京大学专利>正文

一种两阶段的长文本相似度计算方法技术

技术编号:33251319 阅读:24 留言:0更新日期:2022-04-27 18:14
本发明专利技术公布了一种两阶段的长文本相似度计算方法,在第一阶段相似句子检测阶段,基于深度学习模型构建句向量提取模型,将文本转换为句向量;检测得到每条长文本之间多种相似类型的相似句子对;在第二阶段图结构计算阶段,计算得到基础相似度;将长文本相似句子对和基础相似度表示成相似句子关系图;图上的每个节点表示一条长文本;通过运算获得融合群体信息的高层次节点表示;更新节点特征信息,节点特征向量上每个维度的值即对应长文本之间的文本相似度;即获得长文本之间的文本相似度。本发明专利技术方法可使得长文本相似度具有较强的可解释性,提升文本处理的有效性和精度。提升文本处理的有效性和精度。提升文本处理的有效性和精度。

【技术实现步骤摘要】
一种两阶段的长文本相似度计算方法


[0001]本专利技术涉及文本相似度计算方法,具体涉及一种基于深度学习模型与图算法的两阶段的长文本相似度计算方法。

技术介绍

[0002]文本相似度计算是自然语言处理的一类重要任务,相关技术致力于使用技术手段度量文本之间的相似程度。对于不同长度的文本,需要适配不同的文本相似度计算方法。在计算长文本相似度时需要将大量文本信息进行提取压缩与匹配计算,这在新闻推荐、文章推荐、引文推荐、文档聚类等方面有重要应用。
[0003]现有技术大多采用基于关键词提取的方法,通过提取少数关键词作为长文本的代表,然后参与进一步的相似度计算。由于计算结果依赖于少数几个关键词,这种方法损失了大量语义信息,鲁棒性差。
[0004]基于深度学习模型的方法使用深度学习模型对全文进行编码后计算其相似度。但现有的深度学习模型只能在长度为数百个词以内的文本序列上取得较好的编码效果。而类似书本这样的长文本经常有数万字甚至数十万字,现有的模型不能较好地编码。并且,由于相似度计算都在隐空间进行,可解释性很差。
[0005]此外,上述两类技术都只考虑了被比较的长文本之间的信息,计算过程相对孤立,缺乏对群体信息的利用。

技术实现思路

[0006]本专利技术提供一种基于深度学习模型与图算法的两阶段的长文本相似度计算方法,利用文本自身的语义信息,以及与群体信息的协作,两阶段地计算得到书本级别长文本的相似度。
[0007]本专利技术的原理是:对一组长文本,在第一阶段,使用多种检测方法检测得到每条长文本之间的相似句子对;在第二阶段,将相似句子对按其所在长文本合并汇总,将每条长文本抽象表示成图上的节点,进行图上的推理交互运算,让信息在节点间传递,获得融合了群体信息的高层次节点表示;最终,根据节点特征,获得长文本之间的文本相似度。
[0008]本专利技术提供的技术方案如下:一种两阶段的长文本相似度计算方法,包括如下步骤:在第一阶段相似句子检测阶段,包括:基于深度学习模型构建句向量提取模型,句向量提取模型包括语义相似检测模型和转述相似检测模型;通过句向量提取模型将文本转换为句向量;使用多种检测方法检测得到每条长文本之间多种相似类型的相似句子对;在第二阶段图结构计算阶段,包括:计算得到基础相似度;
基于图算法,将长文本相似句子对和基础相似度表示成相似句子关系图;相似句子关系图上的每个节点表示一条长文本;通过相似句子关系图的推理交互运算,获得融合群体信息的高层次节点表示;更新节点特征信息,节点特征向量上每个维度的值即对应长文本之间的文本相似度;根据节点特征,获得长文本之间的文本相似度。
[0009]进一步地,上述两阶段的长文本相似度计算方法在相似句子检测阶段之前,首先将每条长文本分割为句子;通过对比学习微调预训练的语言表征模型BERT模型或RoBERTa模型,得到句向量提取模型;通过句向量提取模型包括的语义相似检测模型和转述相似检测模型分别提取长文本句子和子句的句向量,从而将长文本转换为句向量。
[0010]进一步地,通过如下步骤得到句向量提取模型:11)通过进行句子语义相似性对比学习训练,微调BERT模型,得到语义相似检测模型;包括:对提取得到的句向量,采用丢弃法处理,构造得到对比学习的正例;将一个训练批次中其他句向量作为对比学习的负例;用于训练的损失函数采用基于句向量和构造的正例及负例计算的损失函数;将训练好的模型命名为语义相似检测模型;12)通过进行句子转述相似性对比学习训练,微调BERT模型,得到转述相似检测模型;包括:从句子文本中提取出句向量;对每个句子内部按逗号分割为子句,在句子文本中随机选择和打乱子句,得到新句子文本;对从新句子文本中提取的句向量采用丢弃法处理构造对比学习的正例;将一个训练批次中其他句子文本所提取的向量作为对比学习的负例;BERT模型微调的损失函数包含与;与步骤11)采用的损失函数相同;计算是基于句向量和构造的正例及负例计算得到损失函数;最终损失函数为:;其中,是需要被设置的超参数,用于调节模型对句子结构重组和语意差异之间的侧重程度;得到的模型即命名为转述相似检测模型。
[0011]进一步地,第一阶段多种检测方法包括三种相似型句子对的检测方法;三种相似型句子对分别是:语义相似型句子对、转述相似型句子对和局部相似型句子对。
[0012]A. 检测语义相似型句子对时,执行如下操作:A1. 将每条长文本按表示句子分割的标点符号分割为句子;A2. 使用语义相似检测模型提取所有句子的特征向量,记为;A3. 对句子的特征向量去重复,得到;对每个特征向量,找到其TOPK个相似的向量;并将获得的所有向量对记为;A4. 计算中向量距离的第t百分位数,作为相似性阈值;A5. 过滤出中特征向量距离小于的句子对,即为语义相似型句子对;B. 检测转述相似型的句子对时,执行如下操作:B1. 将每条长文本按表示句子分割的标点符号分割为句子;
B2. 使用转述相似检测模型提取所有句子的特征向量,记为;B3. 对句子的特征向量去重复,得到;对每个特征向量,找到其TOPK个相似的向量;将获得的所有向量对计为;B4. 计算中向量距离的第t百分位数,作为相似性阈值;B5. 过滤出中特征向量距离小于的句子对,即为转述相似型句子对;C. 检测局部相似型的句子对时,执行如下操作:C1. 将每条长文本按表示句子分割的标点符号分割为句子后,在句子内部按逗号分割为子句;C2. 使用语义相似检测模型提取所有子句的特征向量,记为;C3. 对句子的特征向量去重复,得到;对每个特征向量,找到其TOPK个相似的向量;将获得的所有向量对计为;C4. 计算中向量距离的第t百分位数,作为相似性阈值;C5. 过滤出中特征向量距离小于的子句对;C6. 对成功匹配的子句对,追溯到对应的句子对,即为局部相似型句子对。
[0013]进一步地,将三种类型的相似句子对检测结果进行合并汇总后,根据文本总长度对数值进行标准化处理,得到长文本的基础相似度。
[0014]进一步地,计算基础相似度是:设有两条长文本,,检测到和中的个句子相似,则两条长文本的基础相似度按如下计算得到:其中,和分别为两条长文本中的句子总数量。
[0015]进一步地,将长文本和其基础相似度表示成相似句子关系图;相似句子关系图中的每个节点代表一条长文本,;节点特征是一个独热向量,向量的维度是长文本总数N;如果两条长文本,之间存在相似句子,则长文本对应的节点之间有一条边;对于长文本,有特征向量:;两条长文本,对应节点之间的边的权重;是基础相似度。
[0016]进一步地,在关系图上进行两次信息的传递和聚合运算,得到新的节点特征信息并更新;计算方式如下:其中,、是图上节点、的初始特征向量值;是分别第一次和第二次运算自定义的权重,用于调节两次图上信息聚合的比例;、为图上节点、经过第一次更新后的特征向量值;最终得到节点特征向量,其中,代表了长文本和长文本的文本相似度。
[0017]与现有技术相比,本专利技术的有益效果:利用本专利技术提供的技术方案,在计算长文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种两阶段的长文本相似度计算方法,其特征是,在第一阶段相似句子检测阶段,包括:11)基于深度学习模型构建句向量提取模型,所述句向量提取模型包括语义相似检测模型和转述相似检测模型;12)通过所述句向量提取模型将文本转换为句向量,再采用多种检测方法检测得到每条长文本之间多种相似类型的相似句子对,包括:语义相似型句子对、转述相似型句子对和局部相似型句子对;在第二阶段图结构计算阶段,包括:21)计算得到基础相似度;22)根据长文本相似句子对和基础相似度构建相似句子关系图结构;相似句子关系图上的每个节点表示一条长文本;节点之间的边表示节点对应的两条长文本之间存在相似句子;23)通过相似句子关系图的运算,在相似句子关系图上进行两次信息传递和聚合运算,得到融合群体信息的高层次节点表示,由此获得新的节点特征信息并更新;节点特征向量上每个维度的值即对应长文本之间的文本相似度;根据节点特征,获得长文本之间的文本相似度。2.如权利要求1所述两阶段的长文本相似度计算方法,其特征是,在相似句子检测阶段之前,首先将每条长文本分割为句子;通过对比学习微调预训练的语言表征模型BERT模型或RoBERTa模型,得到句向量提取模型;通过所述句向量提取模型包括的语义相似检测模型和转述相似检测模型分别提取长文本句子和子句的句向量,从而将长文本转换为句向量。3.如权利要求2所述两阶段的长文本相似度计算方法,其特征是,进一步地,通过如下步骤得到句向量提取模型:11)通过进行句子语义相似性对比学习训练,微调BERT模型,得到语义相似检测模型;包括:对提取得到的句向量,采用丢弃法处理,构造得到对比学习的正例;将一个训练批次中其他句向量作为对比学习的负例;用于训练的损失函数采用基于句向量和构造的正例及负例计算的损失函数;将训练好的模型命名为语义相似检测模型;12)通过进行句子转述相似性对比学习训练,微调BERT模型,得到转述相似检测模型;包括:从句子文本中提取出句向量;对每个句子内部,按逗号分割为子句,在句子文本中随机选择和打乱子句,得到新句子文本;对从新句子文本中提取的句向量采用丢弃法处理构造对比学习的正例;将一个训练批次中其他句子文本所提取的向量作为对比学习的负例;BERT模型微调的损失函数包含与;与步骤11)采用的损失函数相同;计算是基于句向量和构造的正例及负例计算得到损失函数;最终损失函数为:;其中,是需要被设置的超参数,用于调节模型对句子结构重组和语意差异之间的侧重程度;得到的模型即命名为转述相似检测模型。
4.如权利要求1所述两阶段的长文本相似度计算方法,其特征是,进一步地,第一阶段所述多种检测方法包括三种相似型句子对的检测方法,检测得到语义相似型句子对、转述相似型句子对和局部相似型句子对。5.如权利要求4所述两阶段的长文本相似...

【专利技术属性】
技术研发人员:段思宇苏祺王军
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1