当前位置: 首页 > 专利查询>微软公司专利>正文

用于搜索结果的语义目录制造技术

技术编号:7841851 阅读:178 留言:0更新日期:2012-10-12 23:10
通过将语义概念识别为主题以包括在目录中为响应于搜索查询的搜索结果生成目录。当接收到搜索查询时,执行搜索以识别搜索结果。将搜索结果与主题的本体进行比较以识别相关的主题。另外,将搜索结果与部分主题的本体进行比较以识别被命名的相关部分主题。进一步根据搜索结果生成独立关键短语,并将独立关键短语识别为关键短语主题。对识别出的主题、被命名的部分主题以及关键短语主题进行排名,并且选择主题以包括在目录中。响应于搜索查询,返回包含搜索结果和生成的目录的搜索结果页面。

【技术实现步骤摘要】
【国外来华专利技术】用于搜索结果的语义目录
技术介绍
计算机系统可以存储大量的信息,但用户往往难以找到具体的信息或者有效地探索感兴趣的特定主题区域。现有的许多搜索引擎允许用户通过输入搜索查询的方式来搜索信息,该搜索查询包含用户可能感兴趣的一个或多个关键字。接收到来自用户的搜索请求后,搜索引擎会基于关键字识别相关的文档和/或网页。通常,搜索引擎返回非常多的文档或网页地址,并且随后用户需要从这些文档、链接以及相关信息的列表中进行筛选,找出想要的信息。对于用户来说,这一过程可能会很繁琐、令人泄气并且很耗时。为了帮助用户在搜索结果中导航并找到相关的文档,搜索引擎采用了许多技术。一种方法是提供目录(T0C),其包含与搜索查询相关的主题列表。用户可以从TOC中选择主题并查看与该选择的主题相关的搜索结果。在一些实现中,用户从TOC中选择不同的主题时目录保持静态的,这就允许用户在原始搜索查询的上下文中导航至不同的搜索结果集 口 O通常,TOC由搜索引擎专员手工生成。特别地,搜索引擎专员识别顶端查询(即针对搜索引擎具有最大搜索量的搜索查询),并手工识别与每个搜索查询相关的主题。然而,这种方法劳动密集型的程度很高,也不切实际于为中间(torso)和尾端的查询生成TOC (即针对搜索引擎具有较低搜索量的搜索查询)。在一些实例中,TOC可以由算法确定用于搜索查询,例如,通过识别搜索查询所属的领域(例如,汽车、金融等)并基于该领域提供T0C。然而,这种方法对有些搜索查询可能不起作用,从而导致为有些搜索查询(例如中间和尾端的查询)提供的TOC不存在或质量很差。这样会使搜索用户的体验不一致。专利技术概述 提供
技术实现思路
来以简要形式介绍一些概念选集,其将在以下具体实施例中进一步描述。此
技术实现思路
不旨在识别要求保护的主题的关键特征或必要特征,也不旨在用来帮助确定要求保护的主题的范围。本专利技术的实施方案涉及到响应于搜索查询,将语义概念识别为主题以包含在目录中。在接收到搜索查询时,识别搜索结果,并生成包含主题列表的目录以用于浏览搜索结果的目录。在一些实施例中,通过对主题的本体进行分析来识别概念表的主题,以识别与搜索结果相关的主题。在进一步的实施例中,对部分主题的本体进行分析,以识别被命名的相关部分主题。在更进一步的实施例中,由搜索结果生成关键短语,并对关键短语进行分析,以识别关键短语主题。识别过的主题经过排名和选择以包含在目录中。附图说明以下参考附图来详细描述本专利技术,其中 图I是适合用于实现本专利技术实施例的示范性计算环境的框 图2是可以部署本专利技术实施例的示范性系统的框 图3A、3B和3C是示出根据本专利技术实施例的用于为搜索查询识别主题并生成目录的方法的流程图;图4是示出根据本专利技术实施例的用于对部分主题进行命名的方法的流程 图5是示出根据本专利技术实施例的用于根据文档片段计算独立关键短语的方法的流程 图6是示出具有根据本专利技术实施例生成的目录的搜索结果页的示例性屏幕显示。具体实施例此处特别地描述本专利技术的主题以满足法定要求。然而,描述本身不旨在限定这个专利的范围。相反,专利技术人已经预期到要求保护的主题还可以结合现有的或未来的技术以其它方式体现其它,以包含与本文描述的步骤类似但不同的步骤或步骤的组合。此外,尽管此处可能使用术语“步骤”和/或“框”来表示所采用的方法中的不同元件,但不应将这些术语解释为暗示了此处所公开各步骤之间的任何特定顺序,除非和除了在显式描述了各个步骤的顺序时。 本专利技术的实施例通常针对为响应于搜索查询的搜索结果生成目录(T0C)。当接收到搜索查询时,对搜索结果进行检索。另外识别与搜索查询和搜索结果相关的主题,并根据识别出的主题生成T0C。响应于搜索查询返回包含搜索结果和生成的TOC的搜索结果页面。用户可以从TOC中选择主题来浏览与每个主题相关的不同搜索结果。在一些实施例中,用户从TOC中选择不同的主题以查看不同的搜索结果集合时TOC是静态的,从而允许用户在初始搜索查询的上下文中浏览搜索结果。在本专利技术的各实施例中,可以以多种不同的方式为搜索查询识别主题以包含在TOC中。在一些实施例中,当接收到搜索查询时,确定该搜索查询的本体映射是否已经存在。例如,对于与接收到的搜索查询相匹配的搜索查询,可能已经手工生成了许多主题。再如,对于与接收到的搜索查询相匹配的搜索查询,可能之前已经接收过了,并且已经识别并缓存了主题。在这些实施例中,为TOC检索来自现有本体映射的主题。在进一步的实施例中,针对搜索查询检索搜索结果,并且将搜索结果与主题的本体和/或部分主题的本体进行比较,以识别相关的主题。在更进一步的实施例中,分析搜索结果以识别出独立关键短语,并选择关键短语主题。当识别出大量的主题时,对主题进行排名,选择排名最高的主题以用于生成针对搜索查询的TOC。相应地,一方面,本专利技术的实施例针对存储计算机可用指令的一种或多种计算机可读的媒体,当一个或多个计算设备使用这些指令时,使得所述一个或多个计算设备执行方法。所述方法包括接收搜索查询,使用搜索查询进行搜索,以及从搜索中接收多个文档片段。所述方法还包括通过将一个或多个文档片段与主题的本体进行比较,识别一个或多个候选主题的第一集合。所述方法进一步包括通过将一个或多个文档片段与部分主题的本体进行比较,识别一个或多个候选主题的第二集合。所述方法还包括通过根据一个或多个文档片段生成关键短语主题,识别一个或多个候选主题的第三集合。所述方法进一步包括对来自所述第一、第二、第三候选主题集合中的候选主题进行排名,并基于对候选主题的排名选择一个或多个主题。所述方法更进一步包括提供搜索结果页面以响应于所述搜索查询,该搜索结果页面具有包含一个或多个主题的目录,以及用于呈现一个或多个搜索结果的搜索结果区域。在另一实施例中,专利技术的方面针对一种或多种存储计算机可用指令的计算机可读的媒体,当一个或多个计算设备使用这些指令时,使得所述一个或多个计算设备执行方法。所述方法包括接收搜索查询,并确定搜索查询的本体映射是否存在。如果搜索查询的本体映射存在,所述方法包括基于本体映射检索第一主题集合,并将第一主题集合添加到主题列表中。所述方法还包括使用搜索查询进行搜索以获得多个搜索结果,其中每个搜索结果与文档片段相对应,并接收至少一部分文档片段作为文档集合以用于进一步分析。所述方法进一步包括将文档集合中的每个文档片段与主题的本体进行比较。对于其中确定肯定的主题识别的每个文档片段,所述方法包括将该文档片段分配给相应的主题,并从文档集合中移除该文档片段。所述方法还包括将至少一个根据主题本体识别出的主题添加到主题列表中。所述方法进一步包括将文档集合中剩余的每个文档片段与部分主题的本体进行比较。对于其中确定肯定的部分主题识别的每个文档片段,所述方法包括将该文档片段分配给相应的部分主题,并从文档集合中移除该文档片段。所述方法还包括对具有一个或多个被分配的文档片段的至少一个部分主题进行命名,并将至少一个被命名的部分主题添加到主题列表中。所述方法进一步包括根据文档集合中剩余的文档片段计算独立关键短语,将文档分配给独立关键短语,识别至少一个关键短语主题,并将至少一个关键短语主题添加 到主题列表。所述方法进一步包括对主题列表中的主题进行排名,基于排名选择主题,并使用所选的主题生成本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】2010.02.05 US 12/7013381.一种或多种存储计算机可用指令的计算机可读的媒体,当一个或多个计算设备使用所述指令时,使所述一个或多个计算设备执行方法,该方法包括 接收搜索查询; 使用所述搜索查询进行搜索; 从搜索中接收多个文档片段; 通过将一个或多个文档片段与主题的本体进行比较,识别一个或多个候选主题的第一集合; 通过将一个或多个文档片段与部分主题的本体进行比较,识别一个或多个候选主题的第二集合; 通过从一个或多个文档片段生成关键短语主题,识别一个或多个候选主题的第三集合; 对来自所述第一、第二、第三候选主题集合中的候选主题进行排名; 基于对候选主题的排名选择一个或多个主题; 提供搜索结果页面以响应于所述搜索查询,该搜索结果页面具有包含所述一个或多个主题的目录,以及用于呈现一个或多个搜索结果的搜索结果区域。2.如权利要求I所述的一种或多种计算机可读的媒体,其中通过将一个或多个文档片段与部分主题的本体进行比较来识别一个或多个候选主题的所述第二集合包括识别一个或多个部分主题并命名每个部分主题,其中所述部分主题通过以下操作命名 在一个或多个文档片段中识别所述部分主题的部分主题标识符单词的出现; 提取所述一个或多个文档片段中围绕所识别的所述部分主题标识符单词的出现而出现的单词和/或短语; 对每个提取的单词和/或短语的频率进行计数; 选择频率最高的单词或短语;以及 使用所述部分主题标识符和所述使用频率最高的单词或短语对所述部分主题进行命名。3.如权利要求I所述的一种或多种计算机可读的媒体,其中通过从一个或多个文档片段生成关键短语主题来识别一个或多个候选主题的所述第三集合包括通过以下操作从文档集合中剩余的文档片段计算独立关键短语 从一个或多个文档片段生成候选关键短语; 评估候选关键短语的独立性; 合并相互依赖的候选关键短语;以及 为每组合并的相互依赖的关键短语识别频率最高的候选关键短语。4.如权利要求I所述的一种或多种计算机可读的媒体,其中对候选主题排名基于选自如下中的一项或多项分配给候选主题的文档总数、分配给候选主题的每个文档的排名、分配给主题的经过选择的文档的排名以及候选主题的单词长度。5.一种或多种存储计算机可用指令的计算机可读的媒体,当一个或多个计算设备使用这些指令时,使得所述一个或多个计算设备执行一种方法,该方法包括 接收搜索查询; 确定所述搜索查询的本体映射是否存在;如果所述搜索查询的本体映射存在,基于所述本体映射检索第一主题集合,并将所述第一主题集合添加到主题列表中; 使用所述搜索查询进行搜索以获得多个搜索结果,每个搜索结果与文档片段相对应; 接收至少部分文档片段作为文档集合以用于进一步分析; 将文档集合中的每个文档片段与主题的本体进行比较; 对于其中确定肯定的主题识别的每个文档片段,将所述文档片段分配给相应的主题,并从所述文档集合中移除所述文档片段; 将至少一个从主题本体识别出的主题添加到所述主题列表; 将所述文档集合中剩余的每个文档片段与部分主题的本体进行比较; 对于其中确定肯定的部分主题识别的每个文档片段,将所述文档片段分配给相应的部分主题,并从文档集合中移除所述文档片段; 对至少一个具有一个或多个被分配的文档片段的部分主题进行命名; 将至少一个命名的部分主题添加到所述主题列表; 根据所述文档集合中剩余的文档片段计算独立关键短语; 将文档分配给独立关键短语; 识别至少一个独立关键短语主题; 将所述至少一个关键短语主题添加到所述主题列表; 对所述主题列表中的主题进行排名; 基于排名选择主题;...

【专利技术属性】
技术研发人员:V瓦拉马尼A斯里瓦斯塔瓦T纳姆AC苏伦德兰
申请(专利权)人:微软公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1