一种基于自然语言的信息检索方法技术

技术编号：12888628 阅读：86 留言：0更新日期：2016-02-17 22:40

本发明专利技术提供了一种基于自然语言的信息检索方法、该方法包括：对用户输入的多个关键词分别进行检索，利用检索结果命中的文档数量来计算关键词之间的语义近似性。本发明专利技术提出了一种自然语言检索方法，不需要人工干预；而且易于应用到金融信息检索相关的工作中，提高检索扩展任务的准确度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理，特别涉及一种自然语言检索方法。
技术介绍
关键词语义近似性的研究在文本搜索应用中都是一个重要的问题。例如主题检测、推荐查询等。近年来随着网络的快速发展，在许多基于金融领域的Web相关任务中关键词语义近似性的计算也越来越重要。现有金融相关搜索引擎都提供一系列相关词来帮助用户找到最想要的结果，从而改善用户的搜索体验和检索效率。在金融信息领域，关键词语义近似性的计算也起着重要的作用。然而现有的基于Web的关键词语义近似性的计算方法没有考虑到搜索引擎反馈的结果中存在干扰和重复。干扰的来源主要是关键词随机地出现在一些文档中，这将会降低文档搜索数量的准确度。很多重复出现的文档使得搜索结果数量不可信。
技术实现思路
为解决上述现有技术所存在的问题，本专利技术提出了，包括:对用户输入的多个关键词分别进行检索，利用检索结果命中的文档数量来计算关键词之间的语义近似性。优选地，使用以下公式计算关键词之间的语义近似性:S i m ( a , b ) = N ( a Π b) / (N (a) + N (b) - N (a Π b))+N(a,b)(min (N (a), N (b))) +log ((N*N (P Π b)) / ((N (a) *N (b))) /log N其中Sim(a，b)表示用户输入的不同关键词a，b之间的语义近似性度量；N是搜索引擎中的文档数量，符号N(X)表示用搜索引擎检索关键词X的返回检索文档数；a n b为关键词a和b的与操作结果，即N(a H b)表示检索“a AND b”的文档数。优选地，在计算关键词之间的...

【技术保护点】
一种基于自然语言的信息检索方法，其特征在于，包括：对用户输入的多个关键词分别进行检索，利用检索结果命中的文档数量来计算关键词之间的语义近似性。

【技术特征摘要】

【专利技术属性】
技术研发人员：李垚霖，
申请(专利权)人：成都博睿德科技有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人