本申请公开了一种信息检索方法及其系统,应用于每个文档对应有正排索引数据的信息检索系统,以解决现有信息检索技术中检索效率低的问题。该方法包括:接收查询词,通过分词处理得到该查询词中所包含的关键词;通过所述信息检索系统的倒排索引数据查找与所述关键词匹配的文档,以及与所述文档对应的正排索引数据;根据所述文档对应的正排索引数据确定出所述文档的摘要,将所述文档的摘要以及文档的信息作为检索结果进行输出。采用本申请,可提高信息检索的效率,同时在一定程度上保证检索的准确性。
【技术实现步骤摘要】
本申请涉及通信领域中的全文数据检索技术,尤其涉及一种信息检索方法和信 息检索系统。
技术介绍
伴随着互联网搜索引擎技术的飞速普及以及互联网搜索企业的快速发展,信息 检索系统(也称搜索引擎)已经成为越来越多的人使用互联网时必不可少的工具。人们在使用搜索引擎的时候,通常的使用场景是通过输入查询词,然后从搜索 引擎后端获取需要的搜索结果。而组成搜索结果的三大要素为标题、摘要和网址链接 (业界俗称TAU,为Title、Abstract、Url三个英文单词的首字母缩写)。而摘要(Abstract) 在这三大要素中,就信息量而言,其所含信息量最大;从最终页面显示效果而言,其占 据最大篇幅;从最终用户感受而言,其能在很大程度上决定搜索结果的正确与否,使用 户能够根据摘要提供的信息判断搜索的结果是否为用户所需要。因此,一套高性能、可 伸缩、易定制并且人机界面优秀的摘要生成系统,是每一个搜索引擎(即信息检索系统) 不可或缺的重要组成部分。传统的摘要生成方法是根据用户所输入的查询词实时检索全文数据,并在全文 数据的检索结果的基础上,通过计算词频、词距以及其他参数,通过文本匹配和加权记 分等算法,提取出与查询词最相匹配的文本段落作为摘要,然后将包含有标题、摘要和 网址链接的检索结果返回给检索客户端,供最终展现。由于利用传统的搜索引擎进行信息检索时,需要在整个全文数据中进行匹配检 索,摘要的生成也是依据全文数据,因全文数据通常信息量大,因此导致检索时间较 长、检索效率较低。
技术实现思路
本申请实施例提供一种信息检索方法及其系统,用以解决现有信息检索技术中 检索效率低的问题。本申请提供的信息检索方法,应用于每个文档对应有正排索引数据的信息检索 系统,其中,每个文档的正排索引数据以该文档中的各单词为索引,记录各单词在该文 档中的位置,该方法包括以下步骤接收查询词,通过分词处理得到该查询词中所包含的关键词;通过所述信息检索系统的倒排索引数据查找与所述关键词匹配的文档,以及与 所述文档对应的正排索引数据;根据所述文档对应的正排索引数据确定出所述文档的摘要,将所述文档的摘要 以及文档的信息作为检索结果进行输出。本申请提供的信息检索系统,包括存储有该系统倒排索引数据和每个文档对应 的正排索引数据的存储模块,其中,每个文档的正排索引数据以该文档中的各单词为索弓丨,记录各单词在该文档中的位置,该系统还包括输入模块,用于接收输入到该系统的查询词;检索模块,用于对所述查询词进行分词处理得到其所包含的关键词,通过所述 倒排索引数据查找与所述关键词匹配的文档,以及与所述文档对应的正排索引数据;根 据所述文档对应的正排索引数据确定出所述文档的摘要;输出模块,用于将所述文档的摘要以及文档的信息作为检索结果进行输出。本申请的上述实施例,利用倒排索引数据进行信息检索,得到与查询词匹配的 文档后,利用文档的正排索引数据生成文档的摘要,从而充分利用了文档的正排索引数 据比全文数据的数据量少但内容描述具有一定准确性的特点,与传统信息检索系统通过 全文检索得到的检索结果相比,可提高进行查询词匹配检索的效率,以及提高摘要生成 的效率,同时还能在一定程度上保证检索结果以及生成的摘要的准确性。附图说明图1为本申请实施例中的信息检索的流程示意图;图2为本申请实施例中的信息检索系统的结构示意图;图3A、图3B为本申请实施例中的信息检索系统的检索模块的处理流程示意 图。具体实施例方式下面结合附图对本申请实施例进行详细描述。本申请实施例所提供的信息检索方法应用于信息检索系统,该信息检索系统中 不仅要保存文档(即全文数据,以下同)集合的倒排索引数据,还要能够提供每个文档对 应的独立的正排索引数据。目前的通用信息检索系统中,通常包含有文档集合的倒排索 引数据,同时包含每篇文档对应的独立的正排索引数据(例如通用的PostgreSQL,开源 软件的全文检索系统)。针对暂不包含每篇文档独立的正排索引数据的信息检索系统, 可以采用各种技术方案从整个文档集合的倒排索引数据得到每个文档独立的正排索引数 据,该过程可以在离线状态下完成,不会对信息检索系统在线提供信息检索服务的性能 造成影响。所谓文档集合的倒排索引数据就是根据单词建立的文档索引,如,每个单词在 数据库里是一条记录,单词作为关键字,后面跟着文档标识ID、位置等信息。假设有3 篇文档filel、file2和ffle3,文档内容如下filel (单词1,单词2,单词3,单词4....)file2(单词a,单词b,单词c,单词d,单词a,单词c,单词d....)file3(单词1,单词a,单词3,单词d….)上述文档组成的文档集合的倒排索引数据包括单词l(filel,file3),单词 2 (filel),单词 3(filel,file3),单词 a(file2,file3)等等。所谓文档的正排索引数据就是根据该文档中包括的单词建立的单词位置在该文 档的索引。例如,对于上述file2文档,如果各单词在file2出现的位置依次记为posl,pos2.. 则其正排索引数据为file2 (单词 a psol, pos5 ;单词 b pos2 ;单词 c pos3, pos6 ;单词 d pos4, pos7...)可见,根据 文档及其倒排索引数据,可以得到各文档各自的正排索引数据。为便于数据维护和管理,文档集合及其倒排索引数据,以及各文档独立的正排 索引数据可以以数据库形式组织,当然也可以以其他形式组织,如文件形式。本申请中 的实施例按照以数据库形式组织的文档集合及各文档独立的正排序索引数据为例进行描 述。参见图1,为本申请实施例中的信息检索系统为用户提供信息检索服务的流程示 意图。以下流程中的信息检索系统,包括存储有文档全文数据的全文数据库,以及存储 有倒排索引数据的倒排索引库和存储有各文档各自对应的正排索引数据的正排索引库, 全文数据库与正排索引库,以及全文数据库与倒排索引库之间通过定义的索引(如文档 ID)关联,使各文档的正排索引与其文档一一对应。基于上述信息检索系统的信息检索流程包括步骤101、信息检索系统接受用户提交的查询词。信息检索系统可为用户提供信息检索界面,该界面可为用户提供输入查询词以 及提交查询词到信息检索系统的操作命令。用户输入的查询词可以是单词,也可以是由 多个单词组成短语,还可以是通过关系运算符(and、or等)连接的多个单词(或短语)。步骤102、信息检索系统对用户提交的查询词进行分词处理,得到查询词中包含 的所有关键词,然后通过倒排索引库中的倒排索引数据找到与这些关键词匹配的文档, 并根据找到的各文档从正排索引库中找到这些文档所对应的正排索引数据,并分别根据 每个文档的正排索引数据生成各文档的摘要,将生成的文档摘要以及对应文档的标题、 Url等信息作为检索结果。该步骤中,信息检索系统确定出与关键词匹配的文档后,可获得这些文档各自 对应的正排索引数据。由于信息检索系统检索出的文档可为多个,为了提高信息检索结 果对于用户的可用性以及提高用户感受,信息检索系统可以按照文档与关键词的匹配程 度从高到低对检索到的文档进行排序,从而得到对应的文档ID序列。步骤103、信息检索系统根据生成的检索结果以及文本文档来自技高网...
【技术保护点】
一种信息检索方法,应用于每个文档对应有正排索引数据的信息检索系统,其中,每个文档的正排索引数据以该文档中的各单词为索引,记录各单词在该文档中的位置,其特征在于,该方法包括以下步骤:接收查询词,通过分词处理得到该查询词中所包含的关键词;通过所述信息检索系统的倒排索引数据查找与所述关键词匹配的文档,以及与所述文档对应的正排索引数据;根据所述文档对应的正排索引数据确定出所述文档的摘要,将所述文档的摘要以及文档的信息作为检索结果进行输出。
【技术特征摘要】
1.一种信息检索方法,应用于每个文档对应有正排索引数据的信息检索系统,其 中,每个文档的正排索引数据以该文档中的各单词为索引,记录各单词在该文档中的位 置,其特征在于,该方法包括以下步骤接收查询词,通过分词处理得到该查询词中所包含的关键词;通过所述信息检索系统的倒排索引数据查找与所述关键词匹配的文档,以及与所述 文档对应的正排索引数据;根据所述文档对应的正排索引数据确定出所述文档的摘要,将所述文档的摘要以及 文档的信息作为检索结果进行输出。2.如权利要求1所述的方法,其特征在于,根据正排索引数据确定出的摘要,具体为根据正排索引数据确定出的所有不超过规定长度的文本段中,所述关键词出现次数 最多的文本段。3.如权利要求2所述的方法,其特征在于,若不超过规定长度、所述关键词出现次数 最多的文本段为多个,则将其中所述关键词重复出现次数最多的文本段作为摘要。4.如权利要求2所述的方法,其特征在于,根据所述文档对应的正排索引数据确定出 所述文档的摘要的过程,具体为针对所述文档中的每个文档,执行以下步骤逐一遍历该文档的正排索引数据中的单词,在第一数据结构中以单词位置为索引记 录每个遍历到的单词,并当遍历到的单词与所述关键词匹配时,在第二数据结构中以单 词为索引记录该单词的位置;根据第二数据结构的记录,确定出摘要的起始位置;根据规定的摘要长度和第一数 据结构的记录,确定出摘要的截止位置;所述起始位置和截止位置之间的文本段的长度 不超过规定的摘要长度、所述关键词在该文本段中的出现次数最多;根据确定出的摘要的起止位置以及正排索引数据生成文档的摘要。5.如权利要求1-4任一项所述的方法,其特征在于,将所述文档的摘要以及所述文档 的信息作为检索结果进行输出,具体为按照所述文档与所述关键词匹配程度从高到低的顺序,将所述文档的摘要以及所述 文档的信息作为检索结果进行排序,并根据规定的数据格式对排序后的检索结果进行输 出ο6.一种信息检索系统,包括存储有该系统倒排索引数据和每个文档对应的正排索引 数据的存储模块,其中,每个文档的正排索引数据以该文档中的各单词为索引,记录各 单词在该文档...
【专利技术属性】
技术研发人员:罗翼,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:KY[开曼群岛]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。