当前位置: 首页 > 专利查询>微软公司专利>正文

搜索索引中单词的索引角色分层结构制造技术

技术编号:5390979 阅读:313 留言:0更新日期:2012-04-11 18:40
提供用于寻找数据存储中匹配由用户提交的自然语言查询的文档的方法、系统以及计算机可读介质。通过确定查询内的单词彼此具有与文档中的相同单词相同的关系来匹配文档和查询。对文档进行语义分析且索引文档中的单词连同该单词在句子中扮演的角色。可使用角色分层结构来生成初始语义角色并将其连同原始角色一起存储在索引中。可将类似分析用于搜索查询以寻找在查询和文档两者中按相同角色使用的单词。

【技术实现步骤摘要】
【国外来华专利技术】搜索索引中单词的索引角色分层结构 背景 搜索变为用于进行研究或导航可经由计算机访问的文档的越发重要的工具。通 常,搜索引擎执行利用由用户提交的查询来检测可能文档、或这些文档内的文本的匹配进 程。最初,例如由诸如由Google或Yahoo维护的那些搜索引擎等常规搜索引擎在线提供的 匹配进程允许用户在查询中指定一个或多个关键字以描述她/他正在寻找的信息。接着, 常规在线搜索引擎继续寻找包含这些关键字的精确匹配的所有文档并通常将每一文档的 结果演示为其中包括由用户提供的关键字中的一个或多个的文本框。 假设,例如,用户期望发现哪个实体购买了公司PeopleSoft。将具有关键字"谁购买了 PeopleSoft"的查询输入到常规在线引擎,其产生以下内容作为其结果之一 "J. Williams是一位官员,他在1990年代晚期创立了 Vantive,其在1999年被PeopleSoft购买。"在此结果中,检索到的文本中精确匹配来自查询的关键字"谁"、"购买"、以及"PeopleSoft"的单词是粗体的以向用户给出为什么返回此结果的某些理由。因此,提供促进精确关键字匹配的匹配进程对用户而言并不高效且通常误导多于有用。 现有常规在线搜索引擎被限于它们既不识别所搜索的文档中除由匹配过程产生的精确匹配以外对应于查询中的关键词的单词(例如,注意PeopleSoft是公司、或IBM和Big Blue是相同的)也不识别单词在文档中扮演的不同角色(例如,不能区分PeopleSoft是Vantive收购的作用者还是Oracle收购的目标)。同样,常规在线搜索引擎是受限的,因为用户被限于查询中要匹配的关键词,并因此如果信息是未知的则不允许用户精确地表达该信息。因此,实现识别查询的关键词与被搜索文档中的单词之间的语言关系的自然语言搜索引擎将独特地增加搜索结果的准确性。 概述 提供本
技术实现思路
是为了以简化的形式介绍将在以下具体实施方式中进一步描述 的一些概念。本概述不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于 帮助确定所要求保护的主题的范围。 本专利技术的各实施例通常涉及用于在数据存储中寻找匹配由用户提交的自然语言 查询的文档的计算机可读介质和计算机系统。通过确定查询内的单词彼此具有与文档中的 相同单词相同的关系来匹配这些文档和查询。例如,在句子"约翰在工作时读书"中,"约翰" 是句子的主语而"书"是句子的宾语。可响应于查询"约翰在哪里读书"返回包含此句子的 文档,因为"约翰"是该查询的主语而"书"是该查询的宾语。可返回数据存储中"约翰"作 为主语以及"书"作为宾语的其它文档。 使用可搜索索引将查询中的单词和关系与文档文本内的单词和关系匹配。本专利技术 的各实施例提取文本文档中的单词之间的一个或多个关系并将这些附加的更宽泛的关系 与单词相关联地存储在索引中。本专利技术的各实施例还可提取查询中的单词之间的关系并使 用这些附加的单词/关系组合来搜索索引。可使用角色分层结构来提取单词的角色。角色 分层结构以角色离根角色越远则角色变得越具体的方式来组织角色。在角色分层结构中, 通用角色是根节点而角色的更具体的实施例是子层节点。主角色是更为通用或抽象的角色。从属角色适合主角色的通用定义内但更具体。例如,在句子"约翰在工作时阅读"中, "在"可以描述书何时被阅读。可使用诸如"之前"或"之后"等其它单词来表达"何时"。因 此,"何时"是可包括"在"、"之前"、以及"之后"作为从属角色的主角色。"在"、"之前"、以 及"之后"都描述"何时"的具体示例。因此,可通过使"何时"与"书"相关联来扩展、或概 括与"书"相关联的"在"关系。 在本专利技术的各实施例中,可提取由单词在文档中扮演的角色并将其存储在索引 中。在另一实施例中,在索引时不扩展分配到来自文档的单词的角色。相反,扩展与搜索查 询中的单词相关联的角色并使用其来搜索索引。在另一实施例中,扩展与文档和查询两者 中的单词相关联的角色。 附图简述 以下参考附图详细描述本专利技术,附图中 附图说明图1是适用于实现本专利技术的各实施例的示例性计算环境的框图; 图2是适用于实现本专利技术的各实施例的示例性系统体系结构的示意图; 图3是示出根据本专利技术的实施例的扩展并索引句子内的单词之间的语义关系的方法的流程图; 图4是示出根据本专利技术的实施例的三个角色分层结构的图示; 图5是示出根据本专利技术的实施例的单个角色分层结构的图示; 图6是示出根据本专利技术的实施例索引与一个或多个单词相关联的扩展的角色的 图示; 图7是示出根据本专利技术的实施例的通过扩展分配到搜索查询内的单词的角色而 搜索角色未被扩展的索引的图示。 图8是示出根据本专利技术的实施例的使用被分配到搜索查询内的单词的扩展的角 色来搜索包含扩展的角色的索引的图示。 图9是示出根据本专利技术的实施例的使用角色分层结构来索引文档内容的方法的 流程图。 详细描述 此处用细节来描述本专利技术的主题以满足法定要求。然而,描述本身并非旨在限制 本专利的范围。相反,专利技术人设想所要求保护的主题还可结合其它当前或未来技术按照其 它方式来具体化,以包括不同的步骤或类似于本文中所描述的步骤的步骤组合。此外,尽管 术语"步骤"和/或"框"可在此处用于指示所采用的方法的不同元素,但除非而且仅当明 确描述了各个步骤的顺序时,该术语不应被解释为意味着此处公开的各个步骤之中或之间 的任何特定顺序。 因此,在一个实施例中,本专利技术涉及包含在一个或多个计算机可读介质上的计算 机可执行指令,其执行扩展并索引句子内的单词之间的语义关系的方法。该方法包括接收 具有包括文本的内容的第一电子文档、将该文本解析成一个或多个句子、以及确定句子中 的单词的第一角色,其中角色是与句子中的其它单词的语义关系的类型。该方法还包括确 定单词具有超过一个的可能的角色并将第二角色分配到单词。该方法还包括将该单词与第一角色和第二角色一起存储在将该单词和句子与第一电子文档相关联的索引中,进而允许 搜索引擎将第一电子文档与包括具有类似角色的类似单词的搜索查询匹配。 在另一实施例中,本专利技术的各方面涉及用于将搜索查询匹配到一个或多个文档内的文本的计算机化系统,该系统包括第一语义解释组件用于(l)将主角色分配给搜索查询中的单词,其中角色是单词之间的语义关系,且搜索查询是自然语言搜索查询;以及(2)使用角色分层结构将附加角色分配到来自搜索查询的具有主角色的至少一个单词,其中角色分层结构包括角色的分层结构,其包括通用的根角色以及比根角色更具体的多层子角色。计算机化系统还包括用于确定索引中引用的至少一个文档包括来自搜索查询的单词的匹配组件,其中向至少一个文档中的单词以及搜索查询中的单词分配相同角色中的至少一 个。 在又一实施例中,本专利技术涵盖具有包含在其上的计算机可执行指令的一个或多个 计算机存储介质,计算机可执行指令用于执行使用角色分层结构来索引文档内容的方法。 该方法包括接收作为文档的一部分的句子、将角色分配到句子中的单词、以及使用角色分 层结构将至少一个附加角色分配到单词,其中角色分层结构包括角色的分层结构,其包括 通用的根角色以及比根角色更具体的至少一层子角色,进而向至少一个单词分配至少两个 角色。该方法还包括将单词与分配到各个单词的一个或多个本文档来自技高网
...

【技术保护点】
一个或多个其上实施有用于执行扩展并索引句子内单词之间的语义关系的方法的计算机可执行指令的计算机可读介质,所述方法包括:接收310具有包括文本的内容的第一电子文档;将所述文本分315成一个或多个句子;确定320所述句子中的单词的第一角色;确定325所述单词具有超过一个的潜在角色;向所述单词分配330第二角色;以及将所述单词与所述第一角色和所述第二角色一起存储335在将所述单词和所述句子与所述第一电子文档相关联的索引中,进而允许搜索引擎将所述第一电子文档与包括具有类似角色的类似单词的搜索查询匹配。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:MH范登伯格GL蒂奥内CP沃尔特斯RS克鲁奇
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1