本发明专利技术公开了改进购物搜索引擎的方法和系统。web搜索系统使用人类来为对各种样本搜索查询返回的结果的相关性进行排名。搜索结果可以被划分成各个组,从而允许对经排名的结果进行训练和确认。对人类评估的一致指导允许跨执行该排名的多个人的一致结果。当诸如MART等机器学习分类工具已经被编程且确认之后,可以使用它来提供经返回的文档的相关性的绝对排名,而不是基于例如关键词匹配以及点击计数的简单相对排名。当开发诸如分类和价格排序等相关细化时,可以排除考虑具有较低相关性排名的文档。
【技术实现步骤摘要】
改进购物搜索引擎
本专利技术涉及网络
,尤其涉及网络技术中的搜索查询。
技术介绍
对搜索引擎的使用留给用户任何给定查询的过多结果列表。某些系统试图基于例如标题中的单词或来自先前搜索的点击数按相对次序对经返回的文档进行排序。在购物搜索的情况下,可以基于经返回的文档来呈现相关项,诸如分类或价格等。由于经返回的文档的质量可能不一致,因此相关项可能包括非预期结果。例如,在流行的搜索引擎上对单词“玫瑰”的购物搜索可以返回从音频CD到游戏控制台等文档,而在前10个结果中甚至都没有呈现花朵的文档。所呈现的购物分类的范围可以从耳环到历史书。当对诸如价格等特定特征排序时,给予该特征的过度提升可以导致该特性比另一特性占优势,而以完全丧失相关性为代价。例如,对按价格对“GPS”搜索结果排序的请求可以导致用于挂载GPS的不昂贵的支架首先被示出,而这几乎肯定不是用户正寻找的东西。
技术实现思路
一种更高级的结果排序系统使用机器学习技术以及人类判断来确定参数,以供基于用户期望使用搜索结果的绝对相关性值来对结果进行排序,而不是单独基于点击数和/或标题单词匹配来对经返回的文档进行相对排序。另外地,使用绝对排名器的查询结果可以更准确地在分类上对齐,从而允许对相似产品或互补产品的更好建议。绝对排名器可以使用代表性查询的结果以提供该查询的文档列表。人类审判员可以对每一查询的结果的样本进行排名,以提供用于对可随后捕捉人类生成的结果以应用到新查询的机器学习分类工具的进行编程的知识库。绝对排名器允许预先筛选经返回的结果,使得按特征的排序不给予无关结果过度提升。附图说明图1是示例性计算设备的框图;图2是示例性因特网搜索环境的图示;图3A是示出机器学习分类工具训练的流程图;图3B是示出使用机器学习分类工具来开发搜索结果的流程图;图4是示出示例性决策树的一部分的图示;以及图5示出了示出搜索结果元素的计算机屏幕截图。具体实施方式尽管下文阐明了众多不同实施例的详细描述,但是应当理解,该描述的法律范围由本专利技术所附的权利要求书的言辞来限定。该详细描述应被解释为仅是示例性的,且不描述每一可能的实施例,因为描述每一可能的实施例即使不是不可能的也是不切实际的。可使用现有技术或在本申请提交日之后开发的技术来实现众多替换实施例,而这仍落入权利要求书的范围之内。还应该理解,在本专利中,除非使用句子“如此处所用,术语‘_____’特此被定义为意指……”或者类似句子来明确地定义一个术语,否则不管是明确地还是含蓄地,没有限制该术语意义超出其平常或普通意义的意图,并且,这一术语不应该被解释为被限制在基于本专利的任何部分中(除了权利要求书的语言之外)所做的任何陈述的范围中。就本专利所附的权利要求书中所述的任何术语在本专利中以与单数意义相一致的方式来引用而言,这是为简明起见而如此做的,仅仅是为了不使读者感到混淆,且这类权利要求术语并不旨在隐含地或以其它方式限于该单数意义。最后,除非一权利要求要素是通过叙述单词“装置”和功能而没有叙述任何结构来定义的,否则任何权利要求要素的范围并不旨在基于35U.S.C.§112、第6段的应用来解释。许多专利技术性功能和许多专利技术性原理最佳地使用或利用软件程序或指令以及诸如专用IC等集成电路(IC)来实现。期望本领域的普通技术人员虽然可能要进行大量的工作和由例如可用时间、现有技术以及经济问题促动的许多设计选择,但是当受到此处所公开的概念和原理的指引时仍能够容易地以最小的实验来生成这些软件指令和程序以及IC。因此,为了简明以及最小化使根据本专利技术的原理和概念晦涩的任何风险,对这些软件和IC(如果有的话)的进一步讨论将限于对于较佳实施例的原理和概念所必需的那些讨论。参考图1,用于实现所要求保护的方法和装置的示例性计算设备包括计算机110形式的通用计算设备。虚线轮廓中所示出的组件在技术上不是计算机110的一部分,而是用于示出图1的示例性实施例。计算机110的组件可包括但不限于,处理器120、系统存储器130、存储器/图形接口121(也被称为北桥芯片)以及I/O接口122(也被称为南桥芯片)。系统存储器130和图形处理器190可以耦合到存储器/图形接口121。监视器191或其他图形输出设备可以耦合到图形处理器190。一系列系统总线可以耦合各种系统组件,这些系统总线包括处理器120、存储器/图形接口121和I/O接口122之间的高速系统总线123,存储器/图形接口121和系统存储器130之间的前端总线124,以及存储器/图形接口121和图形处理器190之间的高级图形处理(AGP)总线125。系统总线123可以是若干种类型的总线结构中的任一种,包括,作为示例而非限制,这些体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线和增强型ISA(EISA)总线。随着系统体系结构的进化,可以使用其他总线体系结构和芯片组,但通常大致遵循该模式。例如,诸如英特尔和AMD等公司分别支持英特尔中枢体系结构(IntelHubArchitecture,IHA)和超传输TM(Hypertransport)系结构。计算机110通常包括各种计算机可读介质。计算机可读介质可以是能由计算机110访问的任何可用介质,而且包含易失性和非易失性介质、可移动和不可移动介质。作为示例而非局限,计算机可读介质可以包括计算机存储介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括,但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁带盒、磁带、磁盘存储或其它磁存储设备、或能用于存储所需信息且可以由计算机110访问的任何其它介质。系统存储器130包括易失性和/或非易失性存储器形式的计算机存储介质,如只读存储器(ROM)131和随机存取存储器(RAM)132。系统ROM131可包含永久系统数据143,诸如标识和制造信息。在某些实施例中,基本输入/输出系统(BIOS)也可存储在系统ROM131中。RAM132通常包含处理器120可以立即访问和/或目前正在操作的数据和/或程序模块。作为示例而非限制,图1示出了操作系统134、应用程序135,其他程序模块136,和程序数据137。I/O接口122可将系统总线123与将各种内部和外部设备耦合到计算机110的多个其他总线126、127和128耦合。串行外围接口(SPI)总线126可连接到包含帮助在诸如启动期间在计算机110内的各元件之间传递信息的基本例程的基本输入/输出系统(BIOS)存储器133。超级输入/输出芯片160可用于连接到多个‘传统’外围设备,诸如例如,软盘152、键盘/鼠标162和打印机196。在某些实施例中,超级I/O芯片160可以用诸如低引脚数(LPC)总线等总线127来连接到I/O接口122。超级I/O芯片160的各实施例在商业市场可广泛地购买到。在一个实施例中,总线128可以是外围部件互连(PCI)总线或其变型,可用于将更高速的外围设备连接到I/O接口122。PCI总线可被称为夹层(Mezzanine)总线。PCI总线的变型包括快速外围部件互连(PC本文档来自技高网...
【技术保护点】
【技术特征摘要】
2010.04.09 US 12/757,0951.一种在因特网搜索中所使用的计算机上显示按相关性排名的结果的方法,所述方法包括:生成查询集(302);在因特网搜索引擎上执行所述查询集中的每一个查询以开发对应的结果集(304);从每一对应的结果集中选择有限数量的文档(306);为所述有限数量的文档中的每一个文档开发相对于主观准则的主观评级(308);至少部分地使用所述有限数量的文档中的每一个文档的主观评级和外来数据来对机器学习分类工具进行编程(310),所述外来数据包括对有限数量的文档中的每一个的点击计数,所述计数包括当产生每个文档的查询与所生成的查询集无关时的点击;执行返回文档集的查询(352);使用所述机器学习分类工具来为所述文档集的至少一部分生成绝对相关性分数(356);从所述文档集的至少一部分创建文档子集,所述文档子集中的每一文档具有超过阈值的其相应的绝对相关性分数(358);基于所述文档子集中的文档的特征来选择一个或多个相关细化(362);在所述计算机上显示所述一个或多个相关细化(364)基于所述文档子集的每一文档的绝对相关性分数、按与所述查询的最高相关性的次序来在所述计算机上显示所述文档子集(366)。2.如权利要求1所述的方法,其特征在于,为所述有限数量的文档中的每一个文档开发所述主观评级包括从相对于所述主观准则对所述有限数量的文档中的每一个文档进行评级的多个审判员中的每一个接收所述主观评级。3.如...
【专利技术属性】
技术研发人员:S·P·坎杜利,M·D·巴洛斯,M·帕拉欣,C·郁,Q·吴,
申请(专利权)人:微软公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。