当前位置: 首页 > 专利查询>微软公司专利>正文

用于索引和搜索数据库的方法和装置制造方法及图纸

技术编号:2855338 阅读:200 留言:0更新日期:2012-04-11 18:40
搜索系统通过生成性地抽样数据库来为web数据库生成一个索引,并使用该索引来识别和设计搜索数据库的查询。该生成的索引被称为域-属性索引,并包含一个域级索引和多个站点级索引。用于数据库的站点级索引将站点属性映射到数据库中的确定属性值。用于域的域级索引将属性值映射到包含那些属性值的数据库和站点属性对。为某个域中的数据库生成站点级索引,所述搜索系统开始于那个域最初的一组抽样数据。该搜索系统基于抽样数据生成抽样查询并将该抽样查询提交给数据库。该搜索系统基于抽样结果更新站点级索引,并使用该结果来生成更多的抽样查询。

【技术实现步骤摘要】

所描述的技术通常涉及数据库搜索,尤其涉及web数据库搜索。背景全球网(“web”)提供了大量可通过网页访问的数据。网页可包含静态内容或动态内容。静态内容通常指通过网页的许多次访问能保持一样的信息。动态内容通常指存储在web数据库中并响应于搜索请求添加到网页上的信息。动态内容表示所谓的深web或隐藏的web。许多搜索引擎服务允许用户查找web的静态内容。在用户提交了包括搜索项的搜索请求或查询之后,搜索引擎服务识别与那些搜索项相关的网页。这些网页是搜索结果。为了快速识别相关的网页,搜索引擎服务保持关键字到网页的映射。通过“爬”网产生该映射来识别每个网页的关键字。为了“爬”网,搜索引擎服务可使用根网页表来识别可通过那些根网页访问的所有网页。任何特定网页的关键字都可使用各种公知的信息检索技术来识别,比如识别标题的字、网页的元数据中提供的字、高亮的字等等。然而,通常这些搜索引擎服务不能用来搜索动态内容,也认为动态内容是不可“爬”内容。搜索动态内容的一个问题在于有几个原因使得不能有效地检索和索引web数据库内容。一个原因是多个web数据库的内容太大了,以至于不能检索和索引。另一个原因是web数据库的计划隐藏在搜索界面后面,即只向用户陈列搜索网页(和结果网页)的属性。搜索动态内容的另一个问题在于,生成的索引需要支持结构性查询和非结构性查询。非结构性查询是在搜索文献时通常使用的搜索项列表。例如,一个非结构性查询可以是“Harry PotterRowling”。一个结构性查询是在搜索数据库时通常使用的属性和属性值列表。例如,一个结构性查询可以是“title=Harry Potter and author=Rowling”已经进行了相当多的研究来开发提供跨越多个web数据库搜索的“元搜索器”。当元搜索器收到一个查询时,它选择最有可能包含相关内容的web数据库,这被称为“源选择”。元搜索器接着将查询翻译成合适的格式,用于每个识别的web数据库,这被称为“查询翻译”。例如,元搜索器需要懂得如何将元搜索器查询的属性映射到每个选择的web数据库的站点属性。例如,元搜索器可使用名为“格式”的属性来查阅介质(例如,平装书或精装书),而web数据库可使用名为“类型”的属性来查阅同一数据。查询翻译需要将元搜索器的格式属性映射到web数据库的类型属性。元搜索器将翻译的查询发送到选择的web数据库,这被称为“调度”。当元搜索器接收搜索结果时,它将它们整合为总的结果,这被称为“结果整合”。期望有一种用来有效地生成web数据库索引的技术,该技术允许使用非结构性和结构性查询来有效地搜索。专利技术概述提供了一种用来在一个域中索引和搜索web数据库的方法和系统。在一个实施例中,搜索系统通过生成性地抽样数据库来为web数据库生成一个索引,并使用那个索引来识别和设计用来搜索数据库的查询。生成的索引被称为域级属性索引,并包含域级索引和用于每个数据库的站点级索引。用于数据库的站点级索引将站点属性映射到数据库中确定的属性值。用于域的域级索引将属性值映射到包含这些属性值的数据库和站点属性对。为某个域中的数据库生成站点级索引,所述搜索系统对那个域以最初的一组抽样数据开始。该搜索系统使用域-站点映射来选择与域属性相应的数据库站点属性。该搜索系统从抽样数据中为所述域属性选择一个属性值。该搜索系统接着生成并提交抽样查询至数据库以搜索在已选择站点属性方面匹配选择的属性值的条目。一旦收到作为查询结果的条目,搜索系统为所述数据库生成站点级索引,它将站点级属性映射到包含在那些站点属性之中确定的属性值。该搜索系统可以从各种站点级索引中生成域级索引。在一个实施例中,在搜索多个数据库时,搜索系统允许用户规定非结构性查询或结构性查询。该搜索系统通过基于域级索引首先识别非结构性查询的项是否代表属性或属性值而将非结构性查询映射到一系列结构性查询。在识别了一组属性项和属性值项(term)之后,搜索系统为属性项和属性值项的每个组合生成一个查询。该搜索系统能够直接使用结构化查询的属性和属性值对,而不必执行与用于非结构化查询相似的映射。该搜索系统使用域级索引来识别查询应提交到哪个数据库。附图简述附图说明图1是说明一个实施例中的搜索系统组件的框图。图2说明了一个实施例中的对应表。图3说明了在一个实施例中用于域属性索引的站点级索引。图4说明了在一个实施例中用于域属性索引的域级索引。图5是说明在一个实施例中生成查询组件处理过程的流程图。图6是说明在一个实施例中设计非结构化查询组件处理过程的流程图。图7是说明在一个实施例中识别一个查询的属性项和属性值项的组件处理过程的流程图。图8是说明在一个实施例中组件选择数据库来提交查询的处理过程的流程图。图9是说明在一个实施例中生成域属性索引的组件处理过程的流程图。图10是说明在一个实施例中更新站点级索引组件的处理过程的流程图。详细描述提供一种用来索引和搜索web数据库的方法和装置。在一个实施例中,搜索系统通过生成性地抽样数据库来为web数据库生成一个索引,并使用该索引来识别和设计用来搜索数据库的查询。该生成的索引被称为域-属性索引,并包含一个域级索引和用于每个数据库的站点级索引。域是针对特定主题(例如,书或汽车)的数据库集合。每个域具有一个域规划(也被称为“全球规划”),它定义了一组通常能在域数据库的规划中找到的域属性。例如,当域涉及到书时,域规划包括作者属性和书名属性,因为大多数书数据库具有那些属性。用于数据库的站点级索引将站点属性映射到数据库之中的确定的属性值。例如,如果数据库包含一个带有作者属性的项,作者属性具有属性值Tolkien,然后站点级索引将作者属性映射到Tolkien。搜索系统通过如下所述抽样数据库来生成站点级索引。域级索引将属性值映射到包含那些属性值的数据库和站点属性对。例如,域级索引将包括属性值Tolkien的项,该属性值项Tolkien被映射到包含Tolkien书籍项的数据库,并且还映射到那个数据库的作者属性。搜索系统可从站点级索引中生成域级索引。该域级索引是站点级索引的合并和转置形式。为了处理一个查询,搜索系统使用域-属性索引来选择应当搜索哪个数据库,并使用域-站点属性映射来将该查询翻译成适于每个选择的数据库的查询。随后搜索系统把翻译的查询提交到选择的数据库。搜索系统接着使用域-站点属性映射整合查询的结果以把结果从站点属性映射到域属性。为特定域中的数据库生成站点级索引,所述搜索系统开始于对那个域最初的一组抽样数据。该抽样数据为域中的数据库提供抽样项。所述项为域规划的域属性提供属性值。例如,书籍域中的抽样数据可包含一个项和另一个项,所述第一项的书名属性设置成“Harry Potter and the Order of the Phoenix”且作者属性设置成“Rowling”,此外另一个项的书名属性设置成“The Fellowship of theRing”且作者属性设置成Tolkien。为了抽样数据库,搜索系统使用域-站点映射来选择与域属性相应的数据库站点属性。搜索系统从抽样数据中为那个域属性选择一个属性值。搜索系统接着生成并提交抽样查询至数据库以搜索在选择的站点属性方面匹配于选择的属性值的项。例如,如果选择的站点属性是作本文档来自技高网...

【技术保护点】
一种计算机可读媒体,包括一个支持数据库搜索的数据结构,该数据结构包含多个属性值,每个属性值被包含在一个数据库的一个项的至少一个属性中,从属性值到数据库和所述数据库的属性的映射,所述数据库在其项属性中包含了所述属性值。

【技术特征摘要】
US 2004-5-14 10/846,7761.一种计算机可读媒体,包括一个支持数据库搜索的数据结构,该数据结构包含多个属性值,每个属性值被包含在一个数据库的一个项的至少一个属性中,从属性值到数据库和所述数据库的属性的映射,所述数据库在其项属性中包含了所述属性值。2.权利要求1所述的计算机可读媒体,其中所述数据结构包括将域规划的域属性映射到数据库的对应属性的对应性信息。3.权利要求1所述的计算机可读媒体,其中对于每个数据库和为该数据库中的每个属性,所述数据结构包括到确定的属性值的映射,所述确定的属性值包含在所述数据库的一个项的属性中。4.权利要求3所述的计算机可读媒体,其中每个到确定的属性值的映射包括在所述数据库的项属性之中的属性值的频率指示。5.权利要求1所述的计算机可读媒体,其中数据库是Web数据库。6.权利要求1所述的计算机可读媒体,其中所述映射包括在所述数据库的项属性之中的属性值出现频率的指示。7.权利要求1所述的计算机可读媒体,其中所述映射基于属性被隔开。8.权利要求1所述的计算机可读媒体,其中所述映射表示域属性索引的属等级。9.权利要求8所述的计算机可读媒体,其中所述数据结构对于每个数据库包括一个站点级索引。10.一种在计算机系统中用来搜索Web数据库的方法,该方法包括接收一个具有项的非结构化查询;识别属性项为相应于web数据库属性的项;识别属性值项为相应于web数据库属性值的项;对于属性项和属性值项对,用相应于设置到属性值项的属性项的属性,设计一个查询;以及向web数据库提交设计的查询。11.权利要求10所述的方法,包括在提交设计的查询之前,识别web数据库的子集来提交设计的查询。12.权利要求10所述的方法,其中属性项和属性值项的识别使用域属性索引。13.权利要求12所述的方法,其中所述域属性索引为多个属性值提供了从属性值到数据库的映射和所述数据库的属性的映射,每个属性值被包含在一个数据库的一个项的至少一个属性...

【专利技术属性】
技术研发人员:JR文马维英
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1