当前位置: 首页 > 专利查询>微软公司专利>正文

搜索结果驱动的查询意图标识制造技术

技术编号:6943592 阅读:244 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了搜索结果驱动的查询意图标识。提供了用于检测包含在搜索结果内的实体信息的系统和方法。可使用所检测的实体信息来确定搜索结果内的实体类别以及具体实体。可使用实体信息来基于所检测的实体类别来更改所呈现的结果的样式和/或格式。

【技术实现步骤摘要】
搜索结果驱动的查询意图标识
本专利技术涉及网络
,尤其涉及网络技术中搜索查询技术。
技术介绍
搜索引擎被用于查找各种类型的信息。尽管将链接列表返回给相关文档如今是一种熟悉的格式,但这并不一定是方便的格式。为了找到特定的某条信息,用户通常必需点进链接来查看对应的文档。如果所需信息不在用户所访问的第一篇文档中,则用户可能需要多次重复这一过程。
技术实现思路
在各实施例中,提供了用于检测包含在搜索结果内的实体信息的系统和方法。可使用所检测的实体信息来确定搜索结果内的实体类别以及具体实体。可使用实体信息来基于所检测的实体类别来更改所呈现的结果的样式和/或格式。提供本
技术实现思路
以便以简化形式介绍将在以下的具体实施方式中进一步描述的一些概念。该
技术实现思路
不旨在标识所要求保护的主题的关键特征或本质特征,也不旨在独立地用于帮助确定所要求保护的主题的范围。附图说明下面将参考附图详细描述本专利技术,其中:图1是适用于实现本专利技术的各实施例的示例性计算环境的框图。图2示意性地示出适用于执行本专利技术的实施例的系统的示例。图3描绘了根据本专利技术的实施例的方法的流程图。图4描绘了根据本专利技术的实施例的方法的流程图。图5描绘了根据本专利技术的实施例的方法的流程图。具体实施方式概览在各实施例中,当接收到搜索查询,搜索引擎可生成多个搜索结果。随后可分析由搜索引擎生成的结果,以标识由该结果指示的实体类别。这一标识可部分地基于该结果中一个或多个面向类别的站点的标识。可进一步分析该结果,以确定意图实体。基于意图实体,可准备对应于该实体的实体卡并与搜索结果一起显示。可任选地,可基于期望实体来排除对所生成的搜索结果中的一个或多个的显示、或将其合并到实体卡。在以下讨论中,实体卡是指增强的实体专用的信息呈现。实体卡可包括关于实体的各种类型的信息。实体卡可允许响应于搜索查询来向用户呈现这些信息,使得用户不需要筛选文档链接来获得该信息。类别模板确定与搜索查询相关联的用户意图可引起各种问题。一种用于标识用户意图的方法可以是要确定搜索查询是否与实体相关。实体可以指代诸如作者、政治家或运动员等类型的个人;诸如电影、书、或消费品等类型的产品;或诸如餐厅、旅馆、娱乐区或零售商店等类型的地方。然而,标识与搜索查询相关的实体也造成了困难。许多常规方法试图建立可与搜索查询中的项进行匹配的实体列表。将这些列表保持最新可能是困难的且耗时的。另外,与搜索查询相关的实体可能没有被包括在搜索项中。在各实施例中,可基于响应于搜索查询的搜索结果来动态地确定实体信息。可部分地基于标识来自已知与特定类别对应的文档的搜索结果来标识实体。存在试图跟踪各种实体的当前状态的许多网站。例如,跟踪电影、旅馆、消费电子产品或书的多个web位置是可用的。这些站点可被称为面向类别的站点。面向类别的站点通常跟踪感兴趣的具体类别中的当前发展,并由此可提供关于类别内的实体的当前信息。面向类别的站点的数量和/或身份通常随时间缓慢改变,因此将适当的站点标识为与类别相关可能是可管理的任务。与统一资源定位符(URL)相关联且来自这些站点中的一个站点的文档与类别相关联的可能性可能增加。对于来自面向类别的站点的文档,可构造一个或多个类别模板。位于面向类别的站点的文档结构在站点上所描述的实体之间常常是一致的。可使用呈现的一致性来构造用于从站点提取信息的模板。例如,提供关于电影的信息的面向类别的站点通常将具有一致的呈现格式。电影导演将按特定方式来标注,诸如标注在文档中的特定地方、或使用与导演姓名相邻的和/或在其上面的标题“导演”来标注。可使用期望的呈现格式化来构造用于从文档提取信息的模板。注意,站点可被认为是超过一个类型的面向类型的站点。例如,在线零售商可出售包括消费电子产品、DVD以及计算机游戏等产品。该在线零售商可具有与这些领域中的每一领域对应的一个或多个URL组件。由此,取决于搜索查询,来自在线零售商的文档的外观将与电影类别、游戏类别或消费品类别对应。可以为每一面向类别的站点构造模板。模板可包括至少两个组件。模板的一部分可以是URL组件。URL组件表示URL的初始部分。与URL模板的初始部分匹配的文档可以是来自已知的面向类别的站点的文档。模板的第二组件可以是提取格式组件。提取格式组件提供多个数据字段的规范,包括可针对每一数据字段提取的信息的类型,以及如何提取该信息的规范。可使用任何方便的类型的规范。例如,规范可标识文档中的具体位置,以检索信息片段,诸如从文档第五行中的第二字段取得一值。或者,规范可以是标签驱动,诸如指定首先标识诸如“标题”或“电影标题”的头部,并且随后取得看上去与头部有某种相关的信息或单词。除了基于面向类别的站点的类别模板以外,可以为类别构造具有开放格式的一个或多个类别模板。可构造开放格式类别模板,以提取与面向类别的站点的模板相同的信息。开放格式模块可与面向类别的站点的标签驱动的模板相似,因为开放格式模板将被应用于与URL组件不匹配的页面。注意,可将每一开放格式模板应用于每一响应结果、或应用于被标识成与所标识的实体对应的每一响应结果。这可导致从相同文档中提取每一数据字段的多个值。为了使这一数据对每一文档更有用,可执行一致性检测以确定哪个开放格式模板对于提取给定数据字段的数据是成功的。例如,对于给定文档,可将每一字段的多个值与从来自面向类别的站点的文档提取的值作比较。因为偶然匹配的可能性较低,所以匹配值有可能是正确提取的值。另一类型的检查可以是对使用来自其他文档的开放格式模板所提取的值的一致性检查。同样,偶然匹配的可能性较低,因此匹配有可能指示该字段的成功提取。面向类别的站点可通过任何方便的方法来确定。可以手动地标识面向类别的站点。或者,面向类别的站点可通过提交应返回类别专用结果的已知搜索来确定。最频繁地出现的站点可被认为是面向类别的站点。类别以及实体标识当接收到搜索查询时,可使用常规搜索引擎来生成多个响应结果或文档。在以下各实施例中,可分析响应文档的一部分来确定类别或实体信息。该部分可与前10个、或前20个、或前50个或任何常规数量的响应结果对应。可分析响应文档以确定实体类别。分析的一部分可以是将文档与类别模板的URL组件进行匹配。在一个实施例中,可能需要至少一个URL组件匹配,以便进行实体类别的标识。分析的另一部分可以是将来自搜索结果的元数据与已知项进行匹配。例如,可将诸如“电影”、“零售商”或“影片”等元数据项与电影站点相关联。元数据可与文档的元标签、或与作为搜索结果来显示的文档的字幕、或当文档作为搜索结果来返回时可用的且与文档相关联的任何其他信息相对应。对类别模板或元数据的匹配可随后被加权,以确定针对搜索查询是否与类别相对应的分数。例如,与URL组件匹配的每一文档可对该类别的分数作出贡献。可将额外的权重或分数分配给与URL组件匹配的第一文档。相对于与URL组件匹配的且排名更低的搜索结果,可将额外的权重或分数分配给排名较高的搜索结果相似类型的加权可被用于元数据分析。基于分数可确定搜索的意图类别。例如,如果检测到单个类别的三个或更多URL组件,则可将查询分配给该类别。如果基于URL组件的匹配而检测到多个类别,则可分配排名最高的类别。在某些实施例中,如果没有检测到URL组件匹配,则可能不存在类别的选择。或者,如本文档来自技高网...
搜索结果驱动的查询意图标识

【技术保护点】
1.一个或多个存储计算机可使用指令的计算机存储介质,当所述指令由计算机设备执行时执行一种用于确定与搜索查询相关联的实体的方法,所述方法包括:获得响应于搜索查询的多个结果(310);检测对应于面向类别的站点的一个或多个响应结果(320);基于一个或多个所检测的响应结果来选择实体类别(330);从一个或多个所检测的响应结果中提取实体信息(340);基于所提取的信息来标识实体(350);以及基于所标识的实体来修改所述响应结果的显示(360)。

【技术特征摘要】
2010.06.10 US 12/813,3761.一种用于确定与搜索查询相关联的实体的方法,所述方法包括:获得响应于搜索查询的多个结果,其中,所述搜索查询包括一个或多个搜索项;在所述多个结果中检测对应于一个或多个面向类别的站点的多个响应结果,所述面向类别的站点被定义为跟踪实体类别中的多个实体的状态的站点,其中,所述检测包括:将文档的统一资源定位符URL与对应于面向类别的站点的类别模板的URL组件进行匹配;基于所检测的与所述一个或多个面向类别的站点相对应的所述多个响应结果来选择实体类别;从所检测的所述多个响应结果中提取实体信息,其中,所述提取包括:使用与所述多个响应结果中的至少一个相对应的面向类别的站点的对应类别模板的提取格式组件,从该面向类别的站点提取多个数据字段;基于所提取的信息来标识实体;以及基于所标识的实体来修改所述响应结果的显示。2.如权利要求1所述的方法,其特征在于,修改所述响应结果的显示包括在对应于所检测的响应结果的位置处显示与所标识的实体和/或实体卡相关的广告。3.如权利要求1所述的方法,其特征在于,所述修改所述响应结果的显示包括排除显示至少一个响应结果。4.如权利要求1所述的方法,其特征在于,选择实体类别包括:基于所检测的所述多个响应结果来生成多个类别的类别分数;以及选择具有最高类别分数的类别。5.如权利要求1所述的方法,进一步包括:将多个响应结果与至少一个所标识的实体进行匹配;显示匹配的响应结果;以及显示不匹配的响应结果的压缩表示,所述压缩表示需要至少一个附加用户动作来显示不匹配的响应结果。6.如权利要求5所述的方法,其特征在于,显示所述不匹配的响应结果所需的至少一个附加用户动作包括将光标悬停在所显示的对象上方或点击所显示的对象中的至少一个。7.一种用于确定与搜索查询相关联的实体的方法,包括:获得响应于搜索查询的多个结果;在所述多个结果中检测对应于一个或多个面向类别的站点的多个响应结果,所述面向类别的站点被定义为跟踪实体类别中的多个实体的状态的站点,其中,所述检测包括:将文档的统一资源定位符URL与对应于面向类别的站点的...

【专利技术属性】
技术研发人员:F·拉德林斯基N·克拉斯韦尔B·比勒贝克M·绍库希S·阿哈里N·阿格拉沃尔T·霍德S·周M·A·阿万Y·萨拉夫
申请(专利权)人:微软公司
类型:发明
国别省市:US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1