不同文档中相关句子的匹配方法、系统和计算机可读存储介质技术方案

技术编号：27388333 阅读：25 留言：0更新日期：2021-02-21 13:55

本发明专利技术公开了一种不同文档中相关句子的匹配方法，用于将基准文档中的基准句子和比对文档中的候选句子进行匹配，所述匹配方法包括：在浅层语义、统计信息、深层语义三个层面上，计算候选句子相对于基准句子的表示匹配程度的浅层分数、统计分数、深层分数；基于线性回归模型拟合所述浅层分数、统计分数和深层分数，获得用来表示所述候选句子相对于基准句子的匹配度的最终分数。本发明专利技术提高文档匹配准确性。性。性。

全部详细技术资料下载

【技术实现步骤摘要】
不同文档中相关句子的匹配方法、系统和计算机可读存储介质

[0001]本专利技术属于计算机自然语言处理领域，具体涉及一种不同文档中相关句子的匹配方法、系统和计算机可读存储介质。

技术介绍

[0002]近年来随着信息时代的发展，计算机要处理的文本数量与日俱增。面对海量的文本，让机器自动处理文本成为了当前的热潮。在这其中，文档内容匹配的需求逐渐扩大，人们可以通过机器自动匹配，可以方便的找出不同文档的区别与联系，从而便于进行舆情比对、辅助决策等，在经济、法律等领域发挥着巨大的作用。
[0003]常见的方法如TF-IDF算法，通过计算出文档中每个词的TF-IDF值，然后结合相似度计算方法(一般采用余弦相似度)就可以计算两个文档的相似度。采用TF-IDF的前提是“文章的词语重要性与词语在文章中出现的位置不相关”。该算法的核心思想是：在一篇文章中，某个词语的重要性与该词语在这篇文章中出现的次数成正相关，同时与整个语料库中出现该词语的文章数成负相关。
[0004]同时，还有深度学习的方法较为流行，深度神经网络被广泛用于句子建模，深度学习模型可以将句子表示为语义空间上的向量矩阵，利用向量之间的距离更准确的描述两个句子之间的语义关系，卷积神经网络善于提取句子中的抽象特征，循环神经网络善于保持并利用长距离信息。如具有代表性的DSSM算法。DSSM是一种深度学习语义匹配模型，在检索场景下，利用用户的点击数据来训练语义层次的匹配。DSSM利用点击率来代替相关性，点击数据中包含大量的用户问句和对应的点击文档，这些点击数据将用户的...

【技术保护点】

【技术特征摘要】
1.一种不同文档中相关句子的匹配方法，用于将基准文档中的基准句子和比对文档中的候选句子进行匹配，其特征在于，所述匹配方法包括：在浅层语义、统计信息、深层语义三个层面上，计算候选句子相对于基准句子的表示匹配程度的浅层分数、统计分数、深层分数；基于线性回归模型拟合所述浅层分数、统计分数和深层分数，获得用来表示所述候选句子相对于基准句子的匹配度的最终分数。2.根据权利要求1所述的不同文档中相关句子的匹配方法，其特征在于，所述浅层语义的获取包括三个平行指标的获取，所述平行指标分别为：字符、分词、主干成分。3.根据权利要求2所述的不同文档中相关句子的匹配方法，其特征在于，所述主干成分的获取包括：找出句子中的名词以及与其为定中结构的形容词；从距离名词最近的形容词开始，依次向远离名词的方向进行多个形容词的叠加，配合名词组合得到多个主干成分。4.根据权利要求3所述的不同文档中相关句子的匹配方法，其特征在于，所述浅层分数的计算方法包括：分别获取基准句子中的字符、分词、主干成分在候选句子中的召回率；以召回率构成第一向量作为浅层分数。5.根据权利要求4所述的不同文档中相关句子的匹配方法，其特征在于，所述统计分数的计算方法包括：基于包含基准文档、比对文档所在的特定领域的多个文档计算出所述主干成分的TF-IDF分数；取TF-IDF分数较大的若干主干成分；以主干成分是否同时出现在基准句子和候选句子为第一变量，基准句子和候选句子是否真实匹配为第二变量，对第一变量和...

【专利技术属性】
技术研发人员：王忠萌，陈运文，王文广，贺梦洁，胡盟，纪达麒，
申请(专利权)人：达而观信息科技上海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人