搜索索引中单词的索引角色分层结构制造技术

技术编号：5390979 阅读：325 留言：0更新日期：2012-04-11 18:40

提供用于寻找数据存储中匹配由用户提交的自然语言查询的文档的方法、系统以及计算机可读介质。通过确定查询内的单词彼此具有与文档中的相同单词相同的关系来匹配文档和查询。对文档进行语义分析且索引文档中的单词连同该单词在句子中扮演的角色。可使用角色分层结构来生成初始语义角色并将其连同原始角色一起存储在索引中。可将类似分析用于搜索查询以寻找在查询和文档两者中按相同角色使用的单词。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】搜索索引中单词的索引角色分层结构背景搜索变为用于进行研究或导航可经由计算机访问的文档的越发重要的工具。通常，搜索引擎执行利用由用户提交的查询来检测可能文档、或这些文档内的文本的匹配进程。最初，例如由诸如由Google或Yahoo维护的那些搜索引擎等常规搜索引擎在线提供的匹配进程允许用户在查询中指定一个或多个关键字以描述她/他正在寻找的信息。接着，常规在线搜索引擎继续寻找包含这些关键字的精确匹配的所有文档并通常将每一文档的结果演示为其中包括由用户提供的关键字中的一个或多个的文本框。假设，例如，用户期望发现哪个实体购买了公司PeopleSoft。将具有关键字"谁购买了 PeopleSoft"的查询输入到常规在线引擎，其产生以下内容作为其结果之一 "J. Williams是一位官员，他在1990年代晚期创立了 Vantive，其在1999年被PeopleSoft购买。"在此结果中，检索到的文本中精确匹配来自查询的关键字"谁"、"购买"、以及"PeopleSoft"的单词是粗体的以向用户给出为什么返回此结果的某些理由。因此，提供促进精确关键字匹配的匹配进程对用户而言并不高效且通常误导多于有用。现有常规在线搜索引擎被限于它们既不识别所搜索的文档中除由匹配过程产生的精确匹配以外对应于查询中的关键词的单词(例如，注意PeopleSoft是公司、或IBM和Big Blue是相同的)也不识别单词在文档中扮演的不同角色(例如，不能区分PeopleSoft是Vantive收购的作用者还是Oracle收购的目标)。同样，常规在线搜索引擎是受限的，因为用户被限于查询...

【技术保护点】
一个或多个其上实施有用于执行扩展并索引句子内单词之间的语义关系的方法的计算机可执行指令的计算机可读介质，所述方法包括：接收３１０具有包括文本的内容的第一电子文档；将所述文本分３１５成一个或多个句子；确定３２０所述句子中的单词的第一角色；确定３２５所述单词具有超过一个的潜在角色；向所述单词分配３３０第二角色；以及将所述单词与所述第一角色和所述第二角色一起存储３３５在将所述单词和所述句子与所述第一电子文档相关联的索引中，进而允许搜索引擎将所述第一电子文档与包括具有类似角色的类似单词的搜索查询匹配。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员：MH范登伯格，GL蒂奥内，CP沃尔特斯，RS克鲁奇，
申请(专利权)人：微软公司，
类型：发明
国别省市：US[美国]

全部详细技术资料下载我是这个专利的主人