不同文档中相关句子的匹配方法、系统和计算机可读存储介质技术方案

技术编号:27388333 阅读:25 留言:0更新日期:2021-02-21 13:55
本发明专利技术公开了一种不同文档中相关句子的匹配方法,用于将基准文档中的基准句子和比对文档中的候选句子进行匹配,所述匹配方法包括:在浅层语义、统计信息、深层语义三个层面上,计算候选句子相对于基准句子的表示匹配程度的浅层分数、统计分数、深层分数;基于线性回归模型拟合所述浅层分数、统计分数和深层分数,获得用来表示所述候选句子相对于基准句子的匹配度的最终分数。本发明专利技术提高文档匹配准确性。性。性。

【技术实现步骤摘要】
不同文档中相关句子的匹配方法、系统和计算机可读存储介质


[0001]本专利技术属于计算机自然语言处理领域,具体涉及一种不同文档中相关句子的匹配方法、系统和计算机可读存储介质。

技术介绍

[0002]近年来随着信息时代的发展,计算机要处理的文本数量与日俱增。面对海量的文本,让机器自动处理文本成为了当前的热潮。在这其中,文档内容匹配的需求逐渐扩大,人们可以通过机器自动匹配,可以方便的找出不同文档的区别与联系,从而便于进行舆情比对、辅助决策等,在经济、法律等领域发挥着巨大的作用。
[0003]常见的方法如TF-IDF算法,通过计算出文档中每个词的TF-IDF值,然后结合相似度计算方法(一般采用余弦相似度)就可以计算两个文档的相似度。采用TF-IDF的前提是“文章的词语重要性与词语在文章中出现的位置不相关”。该算法的核心思想是:在一篇文章中,某个词语的重要性与该词语在这篇文章中出现的次数成正相关,同时与整个语料库中出现该词语的文章数成负相关。
[0004]同时,还有深度学习的方法较为流行,深度神经网络被广泛用于句子建模,深度学习模型可以将句子表示为语义空间上的向量矩阵,利用向量之间的距离更准确的描述两个句子之间的语义关系,卷积神经网络善于提取句子中的抽象特征,循环神经网络善于保持并利用长距离信息。如具有代表性的DSSM算法。DSSM是一种深度学习语义匹配模型,在检索场景下,利用用户的点击数据来训练语义层次的匹配。DSSM利用点击率来代替相关性,点击数据中包含大量的用户问句和对应的点击文档,这些点击数据将用户的问题和匹配的文档连接起来。谷歌提出BERT预训练模型,利用Transformer结构进行双向的编码,运用海量数据进行Masked LM和Next Sentence Prediction的预训练。进而,可以用于下游任务的微调。例如,在进行文本相似度任务时,调整输出层的结构,使用线性层进行模型微调,得到最终结果。
[0005]目前,文档匹配任务面临着若干困难,首先,句子匹配本身存在问题。对同一个事物的不同的描述,会影响计算机难以将两个文本判定相似,导致召回率降低;多样化的语义结构,如“社会主义”,既可以作为描述主体也可以作为形容词去修饰,如“社会主义法制”与“社会主义文化”。其次,文本匹配系统面临着跨领域文本的问题,在不同的文本领域,其判定方法并非完全一致,需要具体判断是否为描述主题。从而影响快速准确的做迁移。最后,孤立句子的匹配分数,和整个文档范围的匹配结果并不一致,和结果的可读性也会不一致。这些问题都是当前文本相似系统的挑战。

技术实现思路

[0006]针对现有技术中存在的问题,本专利技术提供一种不同文档中相关句子的匹配方法,本专利技术的部分实施例能够提高文档匹配精度。
[0007]为实现上述目的,本专利技术采用以下技术方案:
[0008]一种不同文档中相关句子的匹配方法,用于将基准文档中的基准句子和比对文档中的候选句子进行匹配,所述匹配方法包括:在浅层语义、统计信息、深层语义三个层面上,计算候选句子相对于基准句子的表示匹配程度的浅层分数、统计分数、深层分数;基于线性回归模型拟合所述浅层分数、统计分数和深层分数,获得用来表示所述候选句子相对于基准句子的匹配度的最终分数。
[0009]优选地,所述浅层语义的获取包括三个平行指标的获取,所述平行指标分别为:字符、分词、主干成分。
[0010]优选地,所述主干成分的获取包括:找出句子中的名词以及与其为定中结构的形容词;从距离名词最近的形容词开始,依次向远离名词的方向进行多个形容词的叠加,配合名词组合得到多个主干成分。
[0011]优选地,所述浅层分数的计算方法包括:分别获取基准句子中的字符、分词、主干成分在候选句子中的召回率;以召回率构成第一向量作为浅层分数。
[0012]优选地,所述统计分数的计算方法包括:基于包含基准文档、比对文档所在的特定领域的多个文档计算出所述主干成分的TF-IDF分数;取TF-IDF分数较大的若干主干成分;以主干成分是否同时出现在基准句子和候选句子为第一变量,基准句子和候选句子是否真实匹配为第二变量,对第一变量和第二变量进行卡方检验,将通过卡方检验的主干成分作为重点成分;以所述重点成分是否同时出现在基准句子和候选句子内构建第二向量,作为统计分数。
[0013]优选地,所述深层分数的计算方法包括:利用广泛语料的Bert预训练的模型,得到Bert分类网络;基于分类网络计算出候选句子在深层语义相对于基准句子的相似度构成第三向量,作为深层分数。
[0014]优选地,所述线性回归模型包括权重和预设的偏置值,针对不同的所述特定领域的多个文档训练得出不同的与领域相对的所述权重。
[0015]优选地,所述匹配方法包括:若候选句子与基准句子在段落的同一位置,则最终分数上调预定分数。
[0016]一种不同文档中相关句子的匹配系统,用于将基准文档中的基准句子和比对文档中的候选句子进行匹配,所述匹配系统包括:计算模块,所述计算模块在浅层语义、统计信息、深层语义三个层面上,计算候选句子相对于基准句子的表示匹配程度的浅层分数、统计分数、深层分数;拟合模块,所述拟合模块基于线性回归模型拟合所述浅层分数、统计分数和深层分数,获得用来表示所述候选句子相对于基准句子的匹配度的最终分数。
[0017]一种计算机可读存储介质,所述可读存储介质存储有计算机指令,所述指令被处理器运行时实现任一所述匹配方法。
[0018]与现有技术相比,本专利技术的有益效果为:提高文档匹配的准确度,对在不同领域的文本匹配适用且有针对性。
附图说明
[0019]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本
专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0020]图1为本专利技术实施例的文档匹配方法整体框架示意图。
[0021]图2为实施例中一种句子匹配方法的流程结构示意图。
[0022]图3为实施例中定中关系词和核心词的结构示意图。
[0023]图4为实施例中深层语义层面相似度的计算方法流程示意图。
具体实施方式
[0024]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0025]在本专利技术的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种不同文档中相关句子的匹配方法,用于将基准文档中的基准句子和比对文档中的候选句子进行匹配,其特征在于,所述匹配方法包括:在浅层语义、统计信息、深层语义三个层面上,计算候选句子相对于基准句子的表示匹配程度的浅层分数、统计分数、深层分数;基于线性回归模型拟合所述浅层分数、统计分数和深层分数,获得用来表示所述候选句子相对于基准句子的匹配度的最终分数。2.根据权利要求1所述的不同文档中相关句子的匹配方法,其特征在于,所述浅层语义的获取包括三个平行指标的获取,所述平行指标分别为:字符、分词、主干成分。3.根据权利要求2所述的不同文档中相关句子的匹配方法,其特征在于,所述主干成分的获取包括:找出句子中的名词以及与其为定中结构的形容词;从距离名词最近的形容词开始,依次向远离名词的方向进行多个形容词的叠加,配合名词组合得到多个主干成分。4.根据权利要求3所述的不同文档中相关句子的匹配方法,其特征在于,所述浅层分数的计算方法包括:分别获取基准句子中的字符、分词、主干成分在候选句子中的召回率;以召回率构成第一向量作为浅层分数。5.根据权利要求4所述的不同文档中相关句子的匹配方法,其特征在于,所述统计分数的计算方法包括:基于包含基准文档、比对文档所在的特定领域的多个文档计算出所述主干成分的TF-IDF分数;取TF-IDF分数较大的若干主干成分;以主干成分是否同时出现在基准句子和候选句子为第一变量,基准句子和候选句子是否真实匹配为第二变量,对第一变量和...

【专利技术属性】
技术研发人员:王忠萌陈运文王文广贺梦洁胡盟纪达麒
申请(专利权)人:达而观信息科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1