当前位置: 首页 > 专利查询>微软公司专利>正文

计算机辅助的查询与任务之间的映射制造技术

技术编号:2864113 阅读:198 留言:0更新日期:2012-04-11 18:40
一种注释系统辅助用户将大量查询映射到任务来获取用于训练搜索组件的训练数据。该注释系统包括包含先前向搜索引擎提交的大量查询的查询记录。储存了包含多个可能任务的任务列表。机器学习组件处理查询记录数据和任务列表数据。对对应于查询记录的多个查询条目的每一个,机器学习组件将用于潜在查询一任务映射的最佳猜测任务建议为训练数据的函数。图形用户界面生成组件被配置成以将每一显示的多个查询条目与其对应的建议最佳猜测任务关联的方式显示查询记录中的多个查询条目。

【技术实现步骤摘要】

本专利技术涉及训练用户接口的机器学习组件,尤其涉及通过向任务映射查询来获取训练数据。
技术介绍
自然用户接口接受自然语言查询,并且作为响应,返回最可能对应于期望的查询主题的结果的列表。结果通常包括有希望地回答查询的任务、文档、文件、电子邮件或其它项目(所有这部分此处都共同地称为任务)。用于对查询生成结果的期望的技术是机器学习技术。机器学习算法使用统计数据来对特定的查询预测期望的结果。使用机器学习算法,可以在初始训练之后基于来自用户的更多查询的结果经常或频繁地更新统计数据。在可以提供任一机器学习算法用于自然用户接口,期望它能够提供有意义的结果之前,必须使用准确的注释数据对算法进行“训练”。换言之,算法需要指示来自查询—任务(query-to-task)映射的大列表的统计的训练数据。当要向顾客布置自然用户接口和对应的机器学习算法时,更需要在其布置之前使用准确的注释数据训练机器学习算法。例如,当机器学习算法的一种类型的输出是任务列表,如“安装打印机”或“打印机故障查找”时,该机器学习算法需要表示这部分任务对其为期望的结果的自然语言查询的示例的数据。为提高自然用户接口的机器学习算法的准确度,训练数据必须表示查询—任务映射的示例的相当大的列表。按照惯例,通过获取包含提交给搜索引擎的相当大量的实际查询的查询记录生成大量的查询—任务映射。例如,查询记录通常包括大约10,000个查询或更多。用户或作者然后可以逐一地仔细检查这部分查询,并手动地注释它们(将它们与特定的任务关联)。向任务注释查询的一种常见的方法是在电子表格数据库的第一列中表示每一查询,并在电子表格的第二列的同一行表示其对应的预期任务。因此,这一过程是相当劳动力密集型且耗时的。此外,给定要从中选择的潜在任务的相当大的列表,选择哪一任务来与特定的查询注释变得更棘手。因此,一种能够被用来方便更快且更准确的查询—任务映射来获取训练数据的系统或方法将是本领域中重大的改进。
技术实现思路
一种注释系统辅助用户将大量查询映射到任务来获取用于训练搜索组件的训练数据。该注释系统包括包含先前向搜索引擎提交的大量查询的查询记录。储存了包含多个可能任务的任务列表。机器学习组件处理查询记录数据和任务列表数据。对于对应于查询记录的多个查询条目的每一个,机器学习组件将用于潜在查询—任务映射的最佳猜测任务建议为训练数据的函数。图形用户界面生成组件被配置成以将所显示的多个查询条目与其对应的建议最佳猜测任务关联的方式显示查询记录中的多个查询条目。附图说明图1是可使用本专利技术的一个示例性环境的框图。图2所示是依照本专利技术的注释系统的一个示例性实施例的框图。图3-7所示是可以使用图2所示的系统生成来辅助用户有效地执行查询—任务映射的图形用户界面的图解。图8-12所示是本专利技术的方法的实施例的流程图。图13和14所示是可以使用图2的系统生成来辅助用户有效地执行将查询—任务映射作为以任务为中心的操作的图形用户界面的图解,它与图3-7所示的以查询为中心的操作相反。图15所示是可使用本专利技术的一个示例性环境的框图。图16所示是本专利技术的方法的一个实施例的流程图。具体实施例方式对于用于辅助用户执行从查询记录到任务的大量映射来获取用于训练搜索组件的训练数据的注释系统来描述本专利技术。本专利技术也包括辅助用户将大量查询映射到对应的任务来获取和/或更新训练数据的方法以及配备了这部分方法的计算机可读媒质。图1示出了适合在其中实现本专利技术的计算系统环境100的一个示例。计算系统环境100仅为合适的计算环境的一个示例,并非建议对本专利技术的使用或功能的范围的任何局限。也不应将计算环境100解释为对示例性操作环境100中示出的任一组件或其组合具有依赖或需求。本专利技术可以使用众多其它通用或专用计算系统环境或配置来操作。适合使用本专利技术的众所周知的计算系统、环境和/或配置包括但不限于,个人计算机、服务器计算机、手持式或膝上设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子设备、网络PC、小型机、大型机、包括任一上述系统或设备的分布式计算环境等等。本专利技术将在计算机可执行指令的一般上下文环境中描述,计算机可执行指令如程序模块,由计算机执行。一般而言,程序模块包括例程、程序、对象、组件、数据结构等等,执行特定的任务或实现特定的抽象数据类型。本专利技术也可以在分布式计算环境中实践,其中,任务由通过通信网络连接的远程处理设备来执行。在分布式计算环境中,程序模块可以位于本地和远程计算机存储媒质中,包括存储器存储设备。参考图1,用于实现本专利技术的示例性系统包括以计算机110形式的通用计算装置。计算机110的组件可包括但不限于,处理单元120、系统存储器130以及将各类系统组件包括系统存储器耦合至处理单元120的系统总线121。系统总线121可以是若干种总线结构类型的任一种,包括存储器总线或存储器控制器、外围总线以及使用各类总线结构的本地总线。作为示例而非局限,这类结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强ISA(EISA)总线、视频电子标准协会(VESA)本地总线以及外围部件互连(PCI)总线,也称为夹层(Mezzanine)总线。计算机110通常包括各种计算机可读媒质。计算机可读媒质可以是可由计算机110访问的任一可用媒质,包括易失和非易失媒质、可移动和不可移动媒质。作为示例而非局限,计算机可读媒质包括计算机存储媒质和通信媒质。计算机存储媒质包括以用于储存信息的任一方法或技术实现的易失和非易失,可移动和不可移动媒质,信息如计算机可读指令、数据结构、程序模块或其它数据。计算机存储媒质包括但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁盒、磁带、磁盘存储或其它磁存储设备、或可以用来储存所期望的信息并可由计算机110访问的任一其它媒质。通信媒质通常在诸如载波或其它传输机制的已调制数据信号中包含计算机可读指令、数据结构、程序模块或其它数据,并包括任一信息传送媒质。术语“已调制数据信号”指以对信号中的信息进行编码的方式设置或改变其一个或多个特征的信号。作为示例而非局限,通信媒质包括有线媒质,如有线网络或直接连线连接,以及无线媒质,如声学、RF、红外和其它无线媒质。上述任一的组合也应当包括在计算机可读媒质的范围之内。系统存储器130包括以易失和/或非易失存储器形式的计算机存储媒质,如只读存储器(ROM)131和随机存取存储器(RAM)132。基本输入/输出系统133(BIOS)包括如在启动时帮助在计算机110内的元件之间传输信息的基本例程,通常储存在ROM 131中。RAM 132通常包含处理单元120立即可访问或者当前正在操作的数据和/或程序模块。作为示例而非局限,图1示出了操作系统134、应用程序135、其它程序模块136和程序数据137。计算机110也可包括其它可移动/不可移动、易失/非易失计算机存储媒质。仅作示例,图1示出了对不可移动、非易失磁媒质进行读写的硬盘驱动器141、对可移动、非易失磁盘152进行读写的磁盘驱动器151以及对可移动、非易失光盘156,如CD ROM或其它光媒质进行读写的光盘驱动器155。可以在示例性操作环境中使用的其它可移动本文档来自技高网
...

【技术保护点】
一种用于辅助用户执行查询-任务的大量映射来获取用于训练搜索组件的训练数据的注释系统,其特征在于,所述注释系统包括:一查询记录,它包含先前向搜索引擎提交的查询;一任务列表,它包含多个可能的任务;一机器学习组件,它将最佳 猜测查询-任务映射建议为所述训练数据的函数;以及一图形用户界面生成组件,它被配置成以关联所述建议的最佳猜测查询-任务映射的方式显示所述查询记录中多个查询条目的至少一部分以及所述任务列表中多个任务的至少一部分。

【技术特征摘要】
US 2003-10-10 10/683,8071.一种用于辅助用户执行查询—任务的大量映射来获取用于训练搜索组件的训练数据的注释系统,其特征在于,所述注释系统包括一查询记录,它包含先前向搜索引擎提交的查询;一任务列表,它包含多个可能的任务;一机器学习组件,它将最佳猜测查询—任务映射建议为所述训练数据的函数;以及一图形用户界面生成组件,它被配置成以关联所述建议的最佳猜测查询—任务映射的方式显示所述查询记录中多个查询条目的至少一部分以及所述任务列表中多个任务的至少一部分。2.如权利要求1所述的注释系统,其特征在于,所述机器学习组件被配置成对对应于所述查询记录的多个查询条目的每一个,将用于潜在查询—任务映射的最佳猜测任务建议为所述训练数据的函数。3.如权利要求2所述的机器学习组件,其特征在于,所述图形用户界面生成组件被配置成以将每一所显示的多个查询条目与其对应的建议最佳猜测任务关联的方式显示所述查询记录中的多个查询条目。4.如权利要求3所述的注释系统,其特征在于,所述图形用户界面生成组件还被配置成当用户想要将特定的查询条目映射到其对应的建议最佳猜测任务时,从所述用户接收第一类型输入,并且其中,在通过所述图形用户界面接收所述第一类型输入之后,所述机器学习组件通过将所述特定的查询条目映射到所述建议最佳猜测任务来更新所述训练数据。5.如权利要求4所述的注释系统,其特征在于,所述图形用户界面生成组件还被配置成当用户想要察看对潜在映射特定查询条目的下一最佳猜测任务的列表时,从所述用户接收第二类型输入。6.如权利要求4所述的注释系统,其特征在于,对应于所述查询记录的多个查询条目的每一个是一查询束,并且其中每一查询束表示所述查询记录中被捆扎在一起的多个查询。7.如权利要求6所述的注释系统,其特征在于,在通过所述图形用户界面接收所述第一类型输入之后,所述机器学习组件通过将由所述查询束表示的所述多个查询的每一个映射到所述建议最佳猜测任务来更新所述训练数据。8.如权利要求6所述的注释系统,其特征在于,对每一查询束的所述建议最佳猜测是对由所述查询束表示的多个查询的每一个的最佳猜测的加权平均值。9.如权利要求6所述的注释系统,其特征在于,所述图形用户界面生成组件还被配置成当用户想要察看由特定查询束表示的查询的列表时,从所述用户接收第二类型输入,并且响应于接收所述第二类型输入,所述图形用户界面生成组件被配置成显示由所述查询束表示的查询的列表。10.如权利要求4所述的注释系统,其特征在于,所述图形用户界面生成组件还被配置成显示所述任务列表。11.如权利要求10所述的注释系统,其特征在于,所述图形用户生成组件还被配置成当用户想要将所述特定的查询条目映射到所述显示的任务列表中不同于所述建议最佳猜测任务的任务时,从所述用户接收第二类型输入,并且其中在通过所述图形用户界面接收所述第二类型输入之后,所述机器学习组件被配置成通过将所述特定的查询条目映射到所显示的任务列表中的所述任务来更新所述训练数据。12.如权利要求4所述的注释系统,其特征在于,在通过将所述特定的查询条目映射到任务来更新所述训练数据之后,所述机器学习组件被配置成对所述多个查询条目的剩余部分的每一个,自动更新所述最佳猜测任务作为所述更新的训练数据的函数。13.如权利要求12所述的注释系统,其特征在于,所述机器学习组件是单纯贝叶斯分类器。14.如权利要求1所述的注释系统,其特征在于,所述机器学习组件被配置成对所述任务列表中所述多个可能任务的每一个,建议一个来自所述查询记录中可能用于查询—任务映射的查询的列表作为所述训练数据的函数。15.一种辅助用户执行查询—任务的大量映射来获取用于训练搜索组件的训练数据的方法,其特征...

【专利技术属性】
技术研发人员:A拉特纳帕基B格罗德尼茨基FL纳兰爵RJ拉格诺
申请(专利权)人:微软公司
类型:发明
国别省市:US[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1