本发明专利技术涉及用于训练机器学习系统的系统和方法。许多费用函数是不平滑或不可微分的,并且在机器学习系统的训练期间不能被容易地使用。机器学习系统可以至少部分基于由该学习系统生成的已分级或排序的结果而包括一组估计梯度。该估计梯度可以被选择以反映费用函数的需求,并用来代替费用函数以在学习系统的训练期间用于确定或修改该学习系统的参数。
【技术实现步骤摘要】
【国外来华专利技术】用任意费用函数训练学习系统本申请要求于2005年7月18日提交的题为"用任意费用函数训练分级系统(RAINING RANKING SYSTEMS WITH ARBITRARY COST FUNCTIONS)"的美国临时专利申请第60/700,080号的在35 U.S.C.119(e)下的优先权。背景无论是作为因特网上信息源的迅速扩大的结果还是作为组织公司内的商务信息的个人努力的结果或者是多种其他因素之中的任何一种,信息搜索者能获得的数据量己经极大地增长。由于可获得的数据量已经增长,因此存在能够分类并且定位相关的数据的需求。 一个相关的问题是对已经被识别为相关的数据进行分级的需要。当用户搜索特定数据的数据集时,用户通常需要简单地与用户输入的搜索查询有某种关系的超过一个的结果列表。用户通常希望能够从该列表中快速定位最好或最相关的结果。对搜索结果进行分级可以协助用户快速定位最相关的数据。通常,高分级向用户指示用户所搜索的信息在搜索结果中出现的较高概率。一种方法是使用机器学习系统来定位、排序、分级或以其他方式处理数据。机器学习系统包括诸如神经网络系统、支持向量机("SVM")和感知器及其他的系统。这些系统可以被用于多种数据处理或分析任务,包括但不限于光学图案和对象识别、控制和反馈系统以及文本分类。机器学习系统的其他潜在用途包括可以受益于数据分类或回归的任何应用程序。通常,机器学习系统被训练以改善性能并产生最优搜索、排序或分级结果。通常使用费用函数训练此类机器学习系统,其中学习过程尝试最小化该费用函数。然而通常所关注的费用函数不能被直接最小化,因为这己经提出了太难以解决的问题。例如,在文件检索问题中,被训练系统的质量的测量是接收器操作曲线(Receiver Operating Curve, ROC)下的面积。ROC曲线是正阳性(例如,相关的文档检索)数量相对于假阳性(例如,不相关的文档检索)的数量的图示。此类费用函数不是所使用的机器学习系统的输出的可微分函数,这样的平滑度缺乏提出了直接地使用此类函数进行训练的困难性。概述下面给出学习系统训练系统和/或方法的一个或多个实施例的简化概述,以便 提供对此类实施例的一些方面的基本理解。这一概述不是广泛的纵览,且既非旨在 标识诸实施例的关键或重要元素,也非旨在描绘此类实施例的范围。其唯一目的是 以简化的形式给出所描述实施例的一些概念,作为后面给出的更加详细的描述的前奏。简而言之,在此所描述的系统和/或方法提供机器学习系统的训练。在此所描 述的系统可以包括至少部分地基于由学习系统和费用函数产生的结构化数据的一 组估计的梯度。可以使用所估计的梯度而不是费用函数来在系统训练期间确定或修 改机器学习系统的参数。为实现上述及相关成果,结合下列说明和附图,在此描述所要求保护主题的 某些示例性方面。这些方面指示本主题可以实践的各种方法,这些方法均被规定为 是在所要求保护主题的范围之内。结合附图一起考虑,从下面的详细描述可以明显 看出本专利技术的其他优点和新颖特征。附图简述附图说明图1是用于依照在此公开主题的一个方面生成结构化数据的系统的例示。 图2是依照在此公开主题的一个方面生成结构化数据的系统的例示。 图3是依照在此公开主题的一个方面生成结构化数据的系统的例示。 图4A是一组文档的示例性分级的例示。图4B是一组文档的示例性分级的例示。 图4C是一组文档的示例性分级的例示。 图5是多层神经网络的系统框图。 图6是单层神经网络的系统框图。 图7是神经网络单元位的系统框图。图8是用于依照在此公开主题的一个方面的操作而准备学习系统的方法的例示。图9例示用于依照在此公开主题的一个方面而用任意的费用函数来训练学习 系统的方法。图io例示用于更新机器学习系统参数的方法。图11是例示适当的操作环境的示意性框图。图12是示例计算环境的示意性框图。详细描述现在参考附图描述在此公开主题的各个方面,其中始终用相同的参考数字来 指示相同的或相应的元素。然而应该了解,附图以及与其相关的详细描述并不旨在 把所要求保护的主题限制为公开的特定形式。相反,其意图是覆盖落在所要求保护 的主题的精神和范围内的所有修改、等效和替换方案。在此所用的术语"组件"、"系统"等等意指与计算机相关的实体,可以是 硬件、硬件和软件的组合、软件或执行中的软件。例如,组件可以是但不限于是, 在处理器上运行的进程、处理器、对象、可执行(程序)、执行的线程、程序和/ 或计算机。作为例示,运行在计算机上的应用程序和计算机本身都可以是计算机组 件。 一个或多个组件可以驻留在进程和/或执行的线程中,并且,组件可以位于一 个计算机内和/或分布在两个或更多的计算机之间。在此使用词语"示例性的"意味着用作例子、实例或例示。在此被描述为"示 例性的"的任何方面或设计并不一定被解释为比其他方面或设计优先或有利。在此所用的术语"推理(动词)"或"推理(名词)"通常是指经由事件和/ 或数据推断或推理系统、环境和/或用户的状态的过程。例如,推理可以被用来识 别特定上下文或动作,或可以创建状态的概率分布。推理可以是概率性的,即是说, 基于对数据和事件的考虑计算所关注状态的概率分布。推理也可以指用于从一组事 件和/或数据构成更高级别事件的技术。此类推理造成从一组所观察的事件和/或所 存储的数据构造新事件或动作,无论这些事件是否是紧密瞬时相关,也无论事件和 数据是来自 一个还是多个事件和数据源。此外,使用产生软件、固件、硬件或其任何组合的标准编程和/或工程技术, 公开的主题可以被实现为控制基于计算机或处理器的设备实现在此被所详述的方 面的系统、方法、装置或制品。此处所用的术语"制品"(或作为替换,"计算机 程序产品")规定为包含可以从任何的计算机可读设备、载波或介质访问的计算机 程序。例如,计算机可读介质可以包括但不限于磁存储设备(例如,硬盘、磁盘、磁条等)、光盘(例如,光盘(CD)、数字通用盘(DVD)等)、智能卡和闪速 存储器设备(例如,卡、棒)。另外应该明白,载波可以被用于携带计算机可读电6子数据,例如那些被用于传送和接收电子邮件方面或被用于访问网络如因特网或局域网(LAN)的数据。当然,本领域的技术人员将会认识到,在不背离所要求保护的主题的范围或精神的前提下可以对这一配置进行许多修改。通常,机器学习系统用来处理数据。例如,机器学习系统可用来执行信息检 索或对数据项进行分级。术语"机器学习系统"通常是指与计算机相关的实体,可 以是硬件、硬件和软件的组合、软件或执行中的软件。出于公开的目的,术语"机 器学习系统"和"学习系统"将会被互换使用。通常,学习系统需要被训练才能根 据用户需要处理数据。诸如费用函数的多种度量可用来评估学习系统性能。学习系 统应该被训练以最优化有关将被用于评估学习系统的度量或费用函数方面的性能。 此类机器学习系统的一种用途对数据集中的元素进行分级。所关注的特定数 据集是作为由用户制定的搜索查询的结果而被检索的一组网页。在该数据集中,用 户通常希望将结果中的网页从最有可能响应其搜索请求到最不可能进行排序。具有 相同的响应可能性的网页(例如,具有基于特定标准与査询匹配的相同概率)应该 接收相同的分级。为了向用户呈现,具有相同分级的网页的排本文档来自技高网...
【技术保护点】
一种用于依照不可微分费用函数训练机器学习系统来结构化数据的方法,包括: 从一组输入数据生成结构化数据; 至少部分基于所述结构化数据以及上述费用函数的至少一个要求,获得至少一个估计梯度;以及 基于所述至少一个梯度,更新所述机 器学习系统的至少一个参数。
【技术特征摘要】
【国外来华专利技术】...
【专利技术属性】
技术研发人员:CJ博格斯,YE阿吉彻里,
申请(专利权)人:微软公司,
类型:发明
国别省市:US[美国]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。