分布式搜索方法、体系结构、系统及软件技术方案

技术编号:2917307 阅读:217 留言:0更新日期:2012-04-11 18:40
描述了用于为律师事务所及其它企业中使用的联机传送平台提供分布式搜索功能的系统、方法及软件。例如,系统、方法及软件的一个方面提供多个数据集。数据集可包含对其它数据集的索引。至少一个搜索引擎与各数据集关联。接收搜索请求的系统根据搜索请求中涉及的数据集来确定哪些搜索引擎被用来处理搜索请求。然后,搜索请求被转发给所识别的搜索引擎。(*该技术在2024年保护过期,可自由使用*)

【技术实现步骤摘要】
本申请是申请号为200480017052.4、申请日为2004年4月26日、专利技术名称为“分布式搜索方法、体系结构、系统及软件”的申请的分案申请。版权声明和许可本专利文档的一个或多个部分包含受到版权保护的资料。版权所有者不反对任何人复制本专利文档或专利公开,因为它出现在专利及商标局专利文件或记录中,但在其它方面仍保留所有版权。以下声明适用于本文档:版权2003,Thomson Corporation。相关申请本申请要求2003年4月25日提交的美国临时专利申请60/465585的优先权,通过引用将其结合到本文中。
本专利技术的各种实施例涉及信息检索系统和知识管理系统,更具体地涉及这类系统中的分布式搜索功能。
技术介绍
现代计算机联机信息提供商通常需要搜索大量数据的能力。例如,美国法律体系以及全球的一些其它法律体系极大地依靠书面司法意见、法官的书面判决来表达或解释控制争端解决的法律。因此,我们的法律体系中的法官和律师一直在搜索不断扩充的大量过往意见或判例法,以便获取与新争端的解决或预防最相关的意见或判例法。找到的案例经过关联性研究,最终在文档中引述和论述,称作工作成果,例如,它为法庭诉讼辩护、对相似的法庭诉讼向客户进行建议或者在特定权限中关于法律状况指导客户和律师。另外,知识管理系统、文档管理系统和其它联机数据提供商通常需要来-->自其大小可能从大到小变化的数据集的信息。太拉字节范围的数据集不再罕见。例如,一些系统可利用包含大约1.2太拉字节的唯一数据的公开记录以及包括大约20千兆字节(GB)的唯一数据的税务和会计(TA)数据。在先前系统中,由于系统通常仅可存储唯一公开记录数据的百分之五而出现问题。此外,系统对于唯一TA数据过大,它通常与其它数据提供商共享服务器空间。数据集和系统大小的这类差异对搜索引擎性能、尤其对于与企业服务器实现相关的搜索引擎性能有影响(包括固有可用性问题)。例如,如果在系统的CPU中发生存储器故障,则系统在排除故障之前通常无法运行搜索服务,以及故障转移机制是有问题的。由于搜索服务通常是存储器密集的,并且没有束缚于CPU,因此,解决这些故障问题浪费资源。此外,有时,如果数据页面在文件系统高速缓存中不可用,查询处理迫使搜索引擎访问盘以找到数据页面。虽然在一些情况下,如果数据集小到足以完全保存在RAM中,则通常可在文件系统高速缓存中找到数据,但情况往往是,数据集很大,使得查询处理往往在盘级而不是在文件系统高速缓存级发生。此外,当前体系结构通常没有确保同一个搜索引擎会一致地处理相同的数据,这消除了搜索引擎高速缓存的优势。因此,本专利技术人已经认识到,需要提供联机传送平台中的搜索功能的更好的系统、工具及方法。
技术实现思路
为了满足这个和/或其它需求,本专利技术人设计了为律师事务所和其它企业中使用的联机传送平台提供分布式搜索功能的新颖系统、方法和软件。例如,系统、方法及软件的一个方面提供多个数据集。数据集可包含对其它数据集的索引。至少一个搜索引擎与各数据集关联。接收搜索请求的系统根据搜索请求中涉及的数据集来确定哪些搜索引擎被用来处理搜索请求。然后,搜索请求被转发给所识别的搜索引擎。值得注意的是,示范实施例提供一种搜索功能,它分布在多个搜索引擎之中,其方式是,搜索数据很可能被高速缓存在可用RAM中,从而避免代价高的盘搜索。-->附图说明图1是与本专利技术的一个或多个实施例对应的示范分布式搜索系统100的框图。图2是框图,提供对于与本专利技术的一个或多个实施例对应的示范分布式搜索系统200的更详细说明。图3是与操作实施本专利技术的示范分布式搜索系统及关联组件的一个或多个示范方法对应的流程图。具体实施方式以下结合附图和所附权利要求的描述描述和/或说明一个或多个专利技术的一个或多个示范实施例。足够详细地表示和描述了这些实施例,以便使本领域的技术人员能够实施和使用本专利技术,提供这些实施例只是为了举例说明和讲授本专利技术而非限定。因此,在需要避免使一个或多个专利技术难以理解的情况下,描述可能省略相关领域的技术人员已知的某些信息。示范信息系统图1说明结合本专利技术的一个或多个理论的示范分布式搜索系统100。系统100包括搜索控制器102、消息交换机104、搜索引擎106、网络连接存储器(NAS)110以及可通信地把搜索引擎106耦合到NAS 110的网络108。上述组件可分布在一个或多个服务器计算机之中。在一些实施例中,服务器计算机包括Sun Microsystems,Inc.制造的基于刀片的服务计算机。但是,在备选实施例中,可采用基于Intel处理器体系结构的服务器。搜索控制器102“收听”搜索请求。利用“分割-合并”引擎,搜索控制器接收请求,并将它们分为成分请求(由搜索引擎106提供服务)。从搜索引擎106接收到响应时,搜索控制器合并响应,并将其发送给请求方。可对于组成数据收集或收集集合或者从其中产生的各种数据集进行在程序设计上称作“搜索引擎请求”的分割请求。在一些实施例中,数据集包括对数据收集或收集集合的索引的一部分(称作“索引集”)。消息交换机104用于把消息从搜索控制器102路由到一个或多个搜索引擎106。消息可包含将由一个或多个搜索引擎106执行的搜索请求。在本专利技术的一些实施例中,消息交换机104提供Java消息服务(JMS)接口。此外,-->在一些实施例中,可采用诸如可向IBM Corp.购买的MQ消息传输系统之类的消息排队软件来路由消息。但是,本专利技术没有任何实施例被认为局限于特定的消息路由系统,在备选实施例中,可采用Sonic Software Corporation的SonicMQ消息排队软件。在一些实施例中,搜索引擎106包括Java“包装机”,它对于服务器搜索和解决的数据进行预处理和后处理。在一些实施例中,这个处理可通过Java本地接口来执行。搜索引擎106接收“搜索引擎请求”成分和特定“索引集”,并使得对于请求指定的“索引集”执行搜索。要搜索的数据集可能驻留于可通信地通过网络108耦合到搜索引擎106的网络连接存储器110。网络连接存储器可以是通过网络可访问的任何类型的存储装置。这种网络连接存储器的实例是本领域已知的,并且包括文件服务器、存储服务器和其它网络连接存储媒体。网络108可以是能够支持数据通信的任何类型的有线或无线网络。在本专利技术的一些实施例中,网络108包括专用千兆位以太网网络。但是,本专利技术没有任何实施例被认为局限于特定的网络类型。搜索引擎106可在安装了Linux OS的普通Intel系统中运行。在一些实施例中,可通过网络文件系统(NFS)协议从网络连接存储器(NAS)服务器110来访问“索引集”的数据。当初始查询进入搜索引擎时,对搜索引擎提供满足搜索查询所需的“索引集”名称和文件名。搜索引擎106可向NAS服务器110进行NFS调用,并请求那些文件的数据。这个数据通常是静态的,并且被高速缓存在NFS客户机系统中。随后,当搜索引擎访问它的已分配“索引集”的数据时,它可为文件信息向NFS服务器进行元目录调用。搜索引擎1-6从本地RAM高速缓存中读取数据页面,这允许查询条件的RAM速度搜索。图2提供结合本专利技术的一个或多个理论的示范分布式搜索系统200的更详细说明。系统200包括以上参照图1所述的组件,本文档来自技高网
...
分布式搜索方法、体系结构、系统及软件

【技术保护点】
一种包括多个数据集和多个搜索引擎的联机搜索系统,其中,每个数据集具有分配给所述数据集的所述多个搜索引擎中的至少一个。

【技术特征摘要】
US 2003-4-25 60/4655851.一种包括多个数据集和多个搜索引擎的联机搜索系统,其中,每个数据集具有分配给所述数据集的所述多个搜索引擎中的至少一个。2.如权利要求1所述的系统,其特征在于,还包括多个服务器,其中,各服务器容纳所述搜索引擎中的至少一个。3.如权利要求2所述的系统,其特征在于,各服务器包括一个或多个处理器以及关联的Linux操作系统。4.如权利要求1所述的系统,其特征在于,还包括可用于向所述多个搜索引擎分配搜索请求的多个搜索控制器。5.如权利要求4所述的系统,其特征在于,还包括可用于在所述多个搜索控制器与所述多个搜索引擎之间路由搜索请求的消息服务器。6.如权利要求5所述的系统,其特征在于,所述消息服务包括JAVA消息服务。7.如权利要求5所述的系统,其特征在于,搜索请求被路由到消息队列。8.如权利要求7所述的系统,其特征在于,所述消息队列由IBM/MQ消息队列软件的一种版本来提供。9.如权利要求1所述的系统,其特征在于,所述数据集中的每一个包含对数据收集的索引的一部分。10.一种用于执行搜索的方法,包括:提供多个数据集;接收搜索请求;响应所述搜索请求而识别要搜索的所述多个数据集中的至少一个数据集;以及把所述搜索请求发送给多个搜索引擎中的至少一个搜索引擎,所述搜索引擎具有与所述至少一个数据集的关联。11.如权利要求10所述的方法,其特征在于,所述数据集包含对数据收集的索引的一部分。12.如权利要求10所述的方法,其特征在于,发送所述搜索请求包括把所述搜索请求放入消息队列。13.如权利要求12所述的方法,其特征在于,与所述消息队列关联的标识符和与所述数据集关联的...

【专利技术属性】
技术研发人员:M布卢姆
申请(专利权)人:汤姆森环球资源公司
类型:发明
国别省市:CH[瑞士]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1