分布式全文检索方法以及系统技术方案

技术编号:7935445 阅读:218 留言:0更新日期:2012-11-01 05:13
本发明专利技术涉及文档库查询领域,公开了一种分布式全文检索方法以及系统。全文检索方法,其特征是,包括:应用服务器发送查询请求;所述控制台接收所述查询请求,根据所述查询请求查询索引服务器,获取当前需查询的文档的索引标识;所述控制台根据所述索引标识,查询索引服务器,获取所述索引对应的文档;所述控制台向所述应用服务器返回所述索引对应的文档。

【技术实现步骤摘要】

本专利技术涉及文档库查询领域,尤其涉及ー种全文检索方法以及系统。
技术介绍
參加图I所示,现有技术中基于全文检索的数据库查询系统主要由数据库以及应用服务器组成。在进行全文检索吋,由应用服务器101向数据库系统102中的数据库服务器发送查询请求,数据库服务器根据查询请求,查询数据库,并且将查询结果返回至应用服务器,由应用服务器将查询结果提供给用户。现有中基于全文检索的数据库查询系统存在以下的缺陷,由于来自于应用服务器的所有查询请求、查询处理反馈均有数据库服务器进行, 当查询请求较多时,数据库服务器负载较大的情形下,数据库服务器的查询压力比较大,经常数据库系统102由于负载过高而不能向应用服务器提供正常服务。导致查询系统崩溃或者不稳定。
技术实现思路
本专利技术实施例第一目的在于提供ー种全文检索方法,应用其有利于提高全文检索的速度。本专利技术实施例第二目的在于提供另ー种全文检索方法,应用其有利于提高全文检索的速度。本专利技术实施例第三目的在于提供ー种全文检索系统,应用其有利于提高全文检索的速度。本专利技术实施例提供的ー种全文检索方法,包括应用服务器发送查询请求;所述控制台接收所述查询请求,根据所述查询请求查询索引服务器,获取当前需查询的文档的索引标识;所述控制台根据所述索引标识,查询索引服务器,获取所述索引对应的文档;所述控制台向所述应用服务器返回所述索引对应的文档。本专利技术实施例提供的ー种全文检索方法,包括应用服务器向所述控制台发送查询请求;所述控制台根据所述查询请求查询索引服务器,以获取当前需查询的文档的索引标识;如果所述控制台查询获取到所述索引标识,则所述控制台根据所述索引标识,查询索引服务器,获取所述索引对应的文档,所述控制台向所述应用服务器返回所述索引对应的文档;如果所述控制台未查询获取到所述索引标识,则所述控制台向所述应用服务器返回索引获取失败信息,文档所述应用服务器向文档库服务器发送查询指令,所述文档库服务器查询文档库,向所述应用服务器返回查询文档。本专利技术实施例提供的ー种文档检索系统,包括应用服务器,用于向控制台发送查询请求;控制台,连接在所述应用服务器以及索引服务器之间,包括索引搜索引擎,数据搜索引擎,其中,所述索引搜索引擎与所述应用服务器连接,用于根据所述查询请求查询索引服务器,获取当前需查询的数据的索引标识,所述数据搜索引擎与所述索引搜索引擎连接,用于根据所述索引标识,查询索引服务器,获取所述索引对应的文档,向所述应用服务器返回所述文档; 文档索引服务器,与所述控制台连接,用于存储所述分布式文件系统中的分片索弓I标识以及所述索引标识对应的文档。由上可见,应用本专利技术实施例的技术方案,相对于现有技术中的应用服务器直接向数据库查询的技术方案,应用本实施例技术方案,在进行全文检索时,应用服务器在接收到查询请求后,将该查询请求转发至控制台,由该控制台根据转发的查询请求,首先在索引服务器上首先查找当前查询的文档的索引标识,然后根据该索引标识快速地在索引服务器上找到需要查询的文档,然后通过应用服务器向客户端返回具体文档,其文档查询的速度可以大大提高,可以支持大量的全文检索请求,有利于提高用户的使用感受。附图说明此处所说明的附图用来提供对本专利技术的进ー步理解,构成本申请的一部分,并不构成对本专利技术的不当限定,在附图中图I为现有技术的全文检索系统;图2为本专利技术实施例I提供的ー种全文检索方法流程示意图;图3为本专利技术实施例I提供的ー种索引存储流程示意图;图4为本专利技术实施例2提供的ー种全文检索方法流程示意图;图5为本专利技术实施例3提供的ー种全文检索方法流程示意图;图6为本专利技术实施例4提供的ー种全文检索系统的逻辑结构示意图;图7为本专利技术实施例5提供的ー种全文检索系统的逻辑结构示意具体实施例方式下面将结合附图以及具体实施例来详细说明本专利技术,在此本专利技术的示意性实施例以及说明用来解释本专利技术,但并不作为对本专利技术的限定。实施例I :參见图2所示,本实施例提供了ー种全文检索方法。以下从应用的角度对本实施例方法流程进行示意步骤201 :应用服务器向控制台发出查询请求。在应用时,用户通过客户端向应用服务器发出查询请求,应用服务器接到该查询请求后,将该用户查询请求发送至控制台。在全文检索中,该用户查询请求中除了包括查询的关键字外,还可以进ー步包括应用需求,该应用需求可以但不限于为应用端(即用户)要求按照时间先后顺序将提供查询结果,或者,按照关键词的匹配程度将查询结果提供给用户或者其他的应用需求规定等。步骤202 :控制台接收查询请求。步骤203 :控制台根据查询请求,查询索引服务器,以获取当前查询请求要查询的文档对应的索引标识(简称索引ID)。控制台中的搜索引擎,根据查询请求中关键字在查询索引服务器中查询,以获取该文档的的索引标识。在本实施例中,在获得索引标识后,控制台还可以根据预设的协调机制,对当前查到的索引标识进行排序,以便根据排序检索相应的具体文档。具体的协调机制可以但不限干比如按照关键词的匹配度或者时间先后或者应用端的需求。以便后续根据排序进行文档检索。 步骤204 :控制台查询索引服务器,获取当前的索引标识对应的具体文档。控制台根据索引标识,查询索引服务器,根据该索引标识定位到文档,读取获取这些文档。步骤205 :控制台向应用服务器返回查询到的具体文档。控制台在步骤204获取到这些全文检索的文档后,将查询结果发送应用服务器,以便由该应用服务器将该查询结果(即具体的文档)转发至客户端,以便显示给用户。由上可见,相对于现有技术中的应用服务器直接向文档库查询的技术方案,应用本实施例技术方案,在进行全文检索时,应用服务器在接收到查询请求后,将该查询请求转发至控制台,由该控制台根据转发的查询请求,首先在索引服务器上首先查找当前查询的文档的索引,然后根据该索引快速地在索引服务器上找到需要查询的文档,然后通过应用服务器向客户端返回具体文档,其文档查询的速度可以大大提高,可以支持大量的全文检索请求,有利于提高用户的使用感受。另外,在本实施例的应用系统的设计上可以但不限于采用图2所示以下的创建方式步骤SI :控制台连接外部数据库,将外部数据库中的文档创建索引。控制台的数据导入处理器(DataImportHandle,简称DIH)获取文档行,然后将这些数据创建索引。在进行文档导入时,可以采用以下的策略比如仅针对捜索几率较高的文档,创建索引;或者如果系统配置足够的情况下,也可以将传统文档库中的所有文档均创建索引。当控制台由王控制台以及多个从属控制台组成时,可以由王控制器台对创建索引。步骤S2 :控制台暂存索引标识以及所述索引标识对应的具体文档到分布式文件系统中文档。然后为文档索引分片,并存储到分布式文件系统中。步骤S3 :控制台将各索引标识存储在索引服务器上。在创建并分片索引后,将各索引标识分片存储到索引服务器上。如果控制台由主控制台以及多个从属控制台组成时,在本步骤中,可以由从属控制器台根据主控制台的指令,将各索引标识存储到索引服务器上。在本实施例中,为了提高存储效率,这些索引标识优选但不限于采用分片存储的方式存储在索引服务器上。另外,可以但不限于在进行索引分片存储吋,设定每个分片的大小控制在IOG大小或者1500万行以内。在分片存储索引的过程中,首先填本文档来自技高网...

【技术保护点】
一种全文检索方法,其特征是,包括:应用服务器发送查询请求;所述控制台接收所述查询请求,根据所述查询请求查询索引服务器,获取当前需查询的文档的索引标识;所述控制台根据所述索引标识,查询索引服务器,获取所述索引对应的文档;所述控制台向所述应用服务器返回所述索引对应的文档。

【技术特征摘要】

【专利技术属性】
技术研发人员:严玮刘涛胡凯峰朱洪星
申请(专利权)人:上海特易信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1