【技术实现步骤摘要】
【国外来华专利技术】用于搜索结果的语义目录
技术介绍
计算机系统可以存储大量的信息,但用户往往难以找到具体的信息或者有效地探索感兴趣的特定主题区域。现有的许多搜索引擎允许用户通过输入搜索查询的方式来搜索信息,该搜索查询包含用户可能感兴趣的一个或多个关键字。接收到来自用户的搜索请求后,搜索引擎会基于关键字识别相关的文档和/或网页。通常,搜索引擎返回非常多的文档或网页地址,并且随后用户需要从这些文档、链接以及相关信息的列表中进行筛选,找出想要的信息。对于用户来说,这一过程可能会很繁琐、令人泄气并且很耗时。为了帮助用户在搜索结果中导航并找到相关的文档,搜索引擎采用了许多技术。一种方法是提供目录(T0C),其包含与搜索查询相关的主题列表。用户可以从TOC中选择主题并查看与该选择的主题相关的搜索结果。在一些实现中,用户从TOC中选择不同的主题时目录保持静态的,这就允许用户在原始搜索查询的上下文中导航至不同的搜索结果集 口 O通常,TOC由搜索引擎专员手工生成。特别地,搜索引擎专员识别顶端查询(即针对搜索引擎具有最大搜索量的搜索查询),并手工识别与每个搜索查询相关的主题。然而,这种方法劳动密集型的程度很高,也不切实际于为中间(torso)和尾端的查询生成TOC (即针对搜索引擎具有较低搜索量的搜索查询)。在一些实例中,TOC可以由算法确定用于搜索查询,例如,通过识别搜索查询所属的领域(例如,汽车、金融等)并基于该领域提供T0C。然而,这种方法对有些搜索查询可能不起作用,从而导致为有些搜索查询(例如中间和尾端的查询)提供的TOC不存在或质量很差。这样会使搜索用户的体验不一致。专利技术概述 提供 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】2010.02.05 US 12/7013381.一种或多种存储计算机可用指令的计算机可读的媒体,当一个或多个计算设备使用所述指令时,使所述一个或多个计算设备执行方法,该方法包括 接收搜索查询; 使用所述搜索查询进行搜索; 从搜索中接收多个文档片段; 通过将一个或多个文档片段与主题的本体进行比较,识别一个或多个候选主题的第一集合; 通过将一个或多个文档片段与部分主题的本体进行比较,识别一个或多个候选主题的第二集合; 通过从一个或多个文档片段生成关键短语主题,识别一个或多个候选主题的第三集合; 对来自所述第一、第二、第三候选主题集合中的候选主题进行排名; 基于对候选主题的排名选择一个或多个主题; 提供搜索结果页面以响应于所述搜索查询,该搜索结果页面具有包含所述一个或多个主题的目录,以及用于呈现一个或多个搜索结果的搜索结果区域。2.如权利要求I所述的一种或多种计算机可读的媒体,其中通过将一个或多个文档片段与部分主题的本体进行比较来识别一个或多个候选主题的所述第二集合包括识别一个或多个部分主题并命名每个部分主题,其中所述部分主题通过以下操作命名 在一个或多个文档片段中识别所述部分主题的部分主题标识符单词的出现; 提取所述一个或多个文档片段中围绕所识别的所述部分主题标识符单词的出现而出现的单词和/或短语; 对每个提取的单词和/或短语的频率进行计数; 选择频率最高的单词或短语;以及 使用所述部分主题标识符和所述使用频率最高的单词或短语对所述部分主题进行命名。3.如权利要求I所述的一种或多种计算机可读的媒体,其中通过从一个或多个文档片段生成关键短语主题来识别一个或多个候选主题的所述第三集合包括通过以下操作从文档集合中剩余的文档片段计算独立关键短语 从一个或多个文档片段生成候选关键短语; 评估候选关键短语的独立性; 合并相互依赖的候选关键短语;以及 为每组合并的相互依赖的关键短语识别频率最高的候选关键短语。4.如权利要求I所述的一种或多种计算机可读的媒体,其中对候选主题排名基于选自如下中的一项或多项分配给候选主题的文档总数、分配给候选主题的每个文档的排名、分配给主题的经过选择的文档的排名以及候选主题的单词长度。5.一种或多种存储计算机可用指令的计算机可读的媒体,当一个或多个计算设备使用这些指令时,使得所述一个或多个计算设备执行一种方法,该方法包括 接收搜索查询; 确定所述搜索查询的本体映射是否存在;如果所述搜索查询的本体映射存在,基于所述本体映射检索第一主题集合,并将所述第一主题集合添加到主题列表中; 使用所述搜索查询进行搜索以获得多个搜索结果,每个搜索结果与文档片段相对应; 接收至少部分文档片段作为文档集合以用于进一步分析; 将文档集合中的每个文档片段与主题的本体进行比较; 对于其中确定肯定的主题识别的每个文档片段,将所述文档片段分配给相应的主题,并从所述文档集合中移除所述文档片段; 将至少一个从主题本体识别出的主题添加到所述主题列表; 将所述文档集合中剩余的每个文档片段与部分主题的本体进行比较; 对于其中确定肯定的部分主题识别的每个文档片段,将所述文档片段分配给相应的部分主题,并从文档集合中移除所述文档片段; 对至少一个具有一个或多个被分配的文档片段的部分主题进行命名; 将至少一个命名的部分主题添加到所述主题列表; 根据所述文档集合中剩余的文档片段计算独立关键短语; 将文档分配给独立关键短语; 识别至少一个独立关键短语主题; 将所述至少一个关键短语主题添加到所述主题列表; 对所述主题列表中的主题进行排名; 基于排名选择主题;...
【专利技术属性】
技术研发人员:V瓦拉马尼,A斯里瓦斯塔瓦,T纳姆,AC苏伦德兰,
申请(专利权)人:微软公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。