本文描述了一种方法,包括接收用户历史数据和生成用于将可搜索数字项存储在分层存储系统中的层分配的质量的指示,其中该指示至少部分地基于用户历史数据的子集。本文还描述了一种系统,包括接收用户历史数据的接收器组件。该系统还包括确定用来存储可通过查询检索的数字项的层分配的质量的指示的质量指示器组件,其中该质量指示器组件至少部分地基于用户历史数据的子集生成该指示并且该层分配指示数字项要被存储在分层存储系统中的哪里。
【技术实现步骤摘要】
【国外来华专利技术】确定层分配的质量背景搜索引擎使用户能够通过因特网快速访问信息。具体而言,用户可以向搜索引 擎提交查询并细察该搜索引擎所返回的排名结果。例如,用户可以向搜索引擎提供查询 “Spider (蜘蛛)”,并且被提供了与各种蛛形纲动物相关的网页、与汽车相关的网页、与电 影相关的网页、与web爬行器相关的网页、以及其他网页。搜索引擎可被用来向查询的发起 者返回图像、学术论文、视频、以及其他信息。搜索引擎的操作可包括采用web爬行器来定位和存储可在万维网上获得的大量 信息(例如,网页)。例如,与其相关的网页或信息可以存储在搜索引擎索引中,该索引在接 收到查询时使用(结合一个或多个搜索算法)。常规上,搜索引擎索引存储在若干层中,其中不同的层提供不同级别的性能。搜索 引擎索引的分层与在计算机体系结构中使用的存储器分层结构类似索引的总体存储容量 在不同的级别之间划分,这些级别在大小、速度、等待时间、以及成本方面各异。索引的较高 层通常具有较高速度但具有较小容量和较高成本。因此,仔细地索引网页以最大化搜索引 擎的效率是合乎需要的。一种已经使用的用于将网页分层的方式是根据网页的由某一度量(如该网页的 静态排名)确定的相对重要性来选择在其中放置该网页的索引的一层。具体而言,到一网 页的链接的数量可被用来选择在其中定位该网页的索引的一层。然而,页面的相对重要性 不一定指示该页面是否被经常访问,并且因而对于在搜索引擎索引中索引网页而言不是最 优的。然而,评估层分配是困难的问题,因为不清楚哪些度量捕捉到了网页到这些层的特定 分配的质量。概述以下是在本文详细描述的主题的简要概述。本概述不旨在权利要求的范围。本文描述了关于将数字项(如网页)分层的各种技术。可以监视用户与搜索引 擎、数据库管理系统等的交互并且可以收集与这样的用户交互相关的数据。例如,可以监视 并保留用户提交的查询、响应于这些查询提供的搜索结果(例如,数字项)、以及用户相对 于这些搜索结果的动作。在一特定示例中,可以使用浏览器上的工具栏来收集用户历史数 据。至少部分地基于该用户历史数据,可以生成可搜索数字项的层分配的质量的指示,其中 层分配指示可搜索数字项被分配给若干层中的哪一层。层的质量的指示可以是符合定义的 层分配质量度量的值,该度量在本文详细描述。在一示例中,质量的指示可以通过查明若干参数来确定。例如,层分配的质量的指 示可以至少部分地基于被分配给观察到的查询的权重。在一示例中,这些权重可以指示这 些查询的相对重要性,并可至少部分地基于发起这些查询的频率。在另一示例中,对于特定 查询和所确定的系统负载(例如,在接收到该查询时系统有多忙碌),层分配的质量的指示 可以至少部分地基于数字项的检索将在指定层结束的概率。可为多个层确定该概率。在又 一示例中,层分配的质量的指示可以至少部分地基于当检索在特定层中结束时获得的搜索 结果质量的量度。可以结合确定分层质量的量度来使用归一化贴现累计收益(NDCG)、平均精确度、Q-测量或用于测量信息检索损失或搜索结果质量的其他合适机制。另外,可以至少部分地基于层分配的质量的指示和/或用户历史数据来生成经改 进的层分配。例如,层分配的质量的指示可以符合定义的层分配质量度量,并且可以相对于 该度量来最优化或基本上最优化经改进的层分配。此外,可以至少部分地基于经改进的层 分配来更新分层策略。分层策略是用来的将数字项分配给各层的策略,并且可以考虑与数 字项相对应的各种特征,如数字项被用户访问的次数、数字项的大小等。例如,分层策略可 以通过使用机器学习技术来更新。在阅读并理解了附图和描述后,可以明白本申请的其他方面。附图简述附图说明图1是便于确定层分配的质量的指示的示例系统的功能框图。图2是生成层分配的质量的指示的示例组件的功能框图。图3是便于生成经改进的层分配的示例系统的功能框图。图4是便于生成经改进的层分配的示例系统的功能框图。图5是示出用于生成层分配的质量的指示的示例方法的流程图。图6是示出用于生成层分配的质量的指示的示例方法的流程图。图7是示出用于输出相对于层分配质量度量来最优化或基本上最优化的层分配 的示例方法的流程图。图8是示出用于更新分层策略的示例方法的流程图。图9是示例计算系统。详细描述现在将参考附图来描述与确定层分配的质量、生成经改进的层分配、以及自动地 更新分层策略有关的各种技术,全部附图中相同的附图标记表示相同的元素。另外,本文出 于解释的目的示出并描述了各示例系统的若干功能框图;然而可以理解,被描述为由特定 系统组件执行的功能可以由多个组件来执行。类似地,例如,单个组件可被配置成执行被描 述为由多个组件执行的功能。参考图1,示出了便于输出关于分层存储系统(未示出)的层分配的质量的指示 的示例系统100。按照一示例,分层存储系统可以是具有多个层的搜索引擎索引,其中第一 (最高)层成本较高并且具有相对少量的存储空间,但从第一层检索的数字项的检索时间 小于从其他层(较低层)检索的数字项的检索时间。第二层较不昂贵并且比第一层具有更 多存储空间,但在与同第一层相对应的检索时间相比时检索时间较大。在另一示例中,分层 存储系统可包括结合数据库管理系统使用的各层存储。例如,数据库管理系统中使用的服 务器可具有硬盘驱动器、随机存取存储器、以及高速随机存取存储器,它们可以各自作为一 层。系统100包括包含用户历史数据104的数据存储102。用户历史数据104可包括 例如用户发起的查询、响应于这些查询提供给用户的搜索结果、用户响应于被提供了各搜 索结果而选择的一搜索结果、和/或其他合适的信息。在一示例中,用户历史数据104可以 通过监视用户相对于搜索引擎的交互来累积。例如,工具栏插件可以安装在浏览器中,并且 输入到浏览器的查询以及响应于这些查询返回的搜索结果、用户对特定搜索结果的选择、 以及用户在提交查询后查看的一系列页面都可以由该工具栏插件来收集。接收器组件106接收用户历史数据104的子集。质量指示器组件108与接收器组 件106通信并且从接收器子集106接收用户历史数据104的子集。质量指示器组件108可 以生成层分配的质量的指示110,其中该层分配指示数字项要被分配给分层存储系统中的 哪一层。例如,质量的指示可符合层分配质量度量,该度量在以下详细描述。另外,以下更 详细地描述质量指示器组件108的操作。现在参考图2,示出了质量指示器组件108的示例。质量指示器组件108包括权重 确定器组件202、负载确定器组件204、层确定器组件206、以及效用确定器组件208。权重 确定器组件202确定被分配给每一查询的权重,质量指示器组件108使用该权重来生成与 分层存储系统相对应的层分配的质量的指示。在一示例中,权重确定器组件202所确定的 权重可以至少部分地基于发起该查询的频率(例如,从查询日志查明的)。负载确定器组件204确定在搜索组件(例如,搜索引擎、数据库系统……)执行特 定查询时观察到的系统负载。系统负载可以至少部分地基于在处理特定查询时搜索组件所 处理的查询的数量、在执行特定查询时检索搜索结果所专用的处理周期的数量、或搜索组 件一般有多“忙碌”。层确定器组件206可以确定特定层是在负载确定器组件204所确定的系统负载下 本文档来自技高网...
【技术保护点】
一种方法,包括:接收用户历史数据;以及生成用来将可搜索数字项存储在分层存储系统中的层分配的质量的指示,其中所述指示至少部分地基于所述用户历史数据的子集。
【技术特征摘要】
【国外来华专利技术】...
【专利技术属性】
技术研发人员:M比连科,MA芒森,
申请(专利权)人:微软公司,
类型:发明
国别省市:US[美国]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。