一种基于自然语言的信息检索方法技术

技术编号:12888628 阅读:77 留言:0更新日期:2016-02-17 22:40
本发明专利技术提供了一种基于自然语言的信息检索方法、该方法包括:对用户输入的多个关键词分别进行检索,利用检索结果命中的文档数量来计算关键词之间的语义近似性。本发明专利技术提出了一种自然语言检索方法,不需要人工干预;而且易于应用到金融信息检索相关的工作中,提高检索扩展任务的准确度。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,特别涉及一种自然语言检索方法。
技术介绍
关键词语义近似性的研究在文本搜索应用中都是一个重要的问题。例如主题检测、推荐查询等。近年来随着网络的快速发展,在许多基于金融领域的Web相关任务中关键词语义近似性的计算也越来越重要。现有金融相关搜索引擎都提供一系列相关词来帮助用户找到最想要的结果,从而改善用户的搜索体验和检索效率。在金融信息领域,关键词语义近似性的计算也起着重要的作用。然而现有的基于Web的关键词语义近似性的计算方法没有考虑到搜索引擎反馈的结果中存在干扰和重复。干扰的来源主要是关键词随机地出现在一些文档中,这将会降低文档搜索数量的准确度。很多重复出现的文档使得搜索结果数量不可信。
技术实现思路
为解决上述现有技术所存在的问题,本专利技术提出了,包括:对用户输入的多个关键词分别进行检索,利用检索结果命中的文档数量来计算关键词之间的语义近似性。优选地,使用以下公式计算关键词之间的语义近似性:S i m ( a , b ) = N ( a Π b) / (N (a) + N (b) - N (a Π b))+N(a,b)(min (N (a), N (b))) +log ((N*N (P Π b)) / ((N (a) *N (b))) /log N其中Sim(a,b)表示用户输入的不同关键词a,b之间的语义近似性度量;N是搜索引擎中的文档数量,符号N(X)表示用搜索引擎检索关键词X的返回检索文档数;a n b为关键词a和b的与操作结果,即N(a H b)表示检索“a AND b”的文档数。优选地,在计算关键词之间的语义近似性的过程中,还包括:在关键词a和b的与操作的检索结果中,将关键词a和b在同一个语句中共同出现的检索结果分段表示为语义分段,并计算所述语义分段在前η个分段中的比例,记为K (a n b),其中η为预设分段数;利用N(a H b)*K(a Π b)计算关键词之间的近似性:SimK (a,b) = N (a 门 b) *K (a 门 b) / (N (a) +N (b) -N (a Π b) *K (a 门 b))+N(a Π b)*K(a Π b) (min(N(a),N(b)))+log ((N*N (a n b) *K (a n b)) / ((N (a) *N (b)))/log N ;其中SimK(a,b)表示用户输入的不同关键词a,b之间基于语义分段信息的语义近似性度量。优选地,还包括:预设前η个分段中语义分段的比例阈值β,当K(a Π b) < β 时,Sim (a, b) = O ;当K(a Π b) < β 时,Sim (a, b)=N (a η b)*R(a Π b)*K(a Π b) / (N (a) *R (a)+N (b) *R (b) _N (a Π b)*R(a Π b)*K(an b)+N (a n b) *R (a Π b) *K (a Π b) (min (N (a) *R (a),N (b) *R (b)))+log ((N*N (a Π b) *R (a n b) *K (a n b)) / ((N (a) *R (a) *N (b) *R (b)))/1gN ;其中R(a)、R(b)和R(a n b)分别为检索关键词a、b、“a AND b”时的重复结果数量。本专利技术相比现有技术,具有以下优点:本专利技术提出了一种自然语言检索方法,不需要人工干预;而且易于应用到金融信息检索相关的工作中,提高检索扩展任务的准确度。【附图说明】图1是根据本专利技术实施例的基于自然语言的信息检索方法的流程图。【具体实施方式】下文与图示本专利技术原理的附图一起提供对本专利技术一个或者多个实施例的详细描述。结合这样的实施例描述本专利技术、但是本专利技术不限于任何实施例。本专利技术的范围仅由权利要求书限定、并且本专利技术涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本专利技术的透彻理解。出于示例的目的而提供这些细节、并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本专利技术。本专利技术的一方面提供了。图1是根据本专利技术实施例的基于自然语言的信息检索方法流程图。本专利技术通过融合检索文档数量和检索结果分段来计算关键词之间的语义近似性。本专利技术提出的方法不需要人工干预;而且易于被应用到如检索建议等与网络相关的工作中。利用关键词共同出现在同一句中来去除干扰,利用搜索引擎的重复结果数来去除重复,能够有效地计算词语间的近似性。同时,所提出的方法可以提高检索扩展任务的准确度。本专利技术的检索文档数是指包含检索关键词b的文档数量。在本专利技术的剩余部分,将使用符号N(b)表示用搜索引擎检索关键词b的返回检索文档数。然而,词语a和b的单独的检索文档数不足以计算其语义近似性,还应该加入检索“a AND b”的检索文档数。具体地,在本专利技术中使用以下方法计算关键词语义近似性、具体公式如下。S i m ( a , b ) = N ( a Π b) / (N (a) + N (b) - N (a Π b))+N(a,b)(min (N (a), N (b))) +log ((N*N (P Π b)) / ((N (a) *N (b))) /log N其中N是搜索引擎中的文档数量。使用检索文档数计算语义近似性忽略了网络数据中存在的干扰和重复。因此需要进一步减少两个关键词随机出现以及文档也存在大量的重复的情况,以提高语义近似性计算的准确度。因此基于检索文档数的关键词语义近似性计算方法中的N(a H b)部分需要进行修正。搜索引擎返回搜索结果时也会返回检索结果分段、这些分段通常是不超过30个词的短小的文本、这些文本提供了非常重要的语义信息。将词语a和b在同一个语句中共同出现的检索结果分段表示为语义分段。分段中以句号为结尾的称之为一个语句。语义分段提供了词语a和b之间的有用的语义关系。因此语义分段可以用来判断两个关键词是否随机地出现在文本文档中。搜索引擎提供了每个结果的链接,由于文档数量巨大、而且增长速度快,因此对每个搜索结果进行直接的分析是非常困难的。搜索引擎提供了一个去除重复结果的功能。当用搜索引擎搜索时,为了使结果的相关度高,搜索引擎省略了一些非常相似的搜索结果。搜索引擎的重复结果数量可以用来去除重复。本专利技术进一步通过融合检索文档数、语义分段和重复结果数量来计算关键词语义近似性。方式1:关键词间的语义相似程度是由检索文档数和语义分段决定的。主要步骤如下:I)在搜索引擎中分别搜索“a”、“b”、“a AND b” ;2)得到 N (a)、N(b)和 N(a 门 b);3)在“a AND b”的结果中,当前第1页1 2 本文档来自技高网...

【技术保护点】
一种基于自然语言的信息检索方法,其特征在于,包括:对用户输入的多个关键词分别进行检索,利用检索结果命中的文档数量来计算关键词之间的语义近似性。

【技术特征摘要】

【专利技术属性】
技术研发人员:李垚霖
申请(专利权)人:成都博睿德科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1