【技术实现步骤摘要】
本专利技术涉及训练用户接口的机器学习组件,尤其涉及通过向任务映射查询来获取训练数据。
技术介绍
自然用户接口接受自然语言查询,并且作为响应,返回最可能对应于期望的查询主题的结果的列表。结果通常包括有希望地回答查询的任务、文档、文件、电子邮件或其它项目(所有这部分此处都共同地称为任务)。用于对查询生成结果的期望的技术是机器学习技术。机器学习算法使用统计数据来对特定的查询预测期望的结果。使用机器学习算法,可以在初始训练之后基于来自用户的更多查询的结果经常或频繁地更新统计数据。在可以提供任一机器学习算法用于自然用户接口,期望它能够提供有意义的结果之前,必须使用准确的注释数据对算法进行“训练”。换言之,算法需要指示来自查询—任务(query-to-task)映射的大列表的统计的训练数据。当要向顾客布置自然用户接口和对应的机器学习算法时,更需要在其布置之前使用准确的注释数据训练机器学习算法。例如,当机器学习算法的一种类型的输出是任务列表,如“安装打印机”或“打印机故障查找”时,该机器学习算法需要表示这部分任务对其为期望的结果的自然语言查询的示例的数据。为提高自然用户接口的机器学习算法的准确度,训练数据必须表示查询—任务映射的示例的相当大的列表。按照惯例,通过获取包含提交给搜索引擎的相当大量的实际查询的查询记录生成大量的查询—任务映射。例如,查询记录通常包括大约10,000个查询或更多。用户或作者然后可以逐一地仔细检查这部分查询,并手动地注释它们(将它们与特定的任务关联)。向任务注释查询的一种常见的方法是在电子表格数据库的第一列中表示每一查询,并在电子表格的第二列 ...
【技术保护点】
一种用于辅助用户执行查询-任务的大量映射来获取用于训练搜索组件的训练数据的注释系统,其特征在于,所述注释系统包括:一查询记录,它包含先前向搜索引擎提交的查询;一任务列表,它包含多个可能的任务;一机器学习组件,它将最佳 猜测查询-任务映射建议为所述训练数据的函数;以及一图形用户界面生成组件,它被配置成以关联所述建议的最佳猜测查询-任务映射的方式显示所述查询记录中多个查询条目的至少一部分以及所述任务列表中多个任务的至少一部分。
【技术特征摘要】
US 2003-10-10 10/683,8071.一种用于辅助用户执行查询—任务的大量映射来获取用于训练搜索组件的训练数据的注释系统,其特征在于,所述注释系统包括一查询记录,它包含先前向搜索引擎提交的查询;一任务列表,它包含多个可能的任务;一机器学习组件,它将最佳猜测查询—任务映射建议为所述训练数据的函数;以及一图形用户界面生成组件,它被配置成以关联所述建议的最佳猜测查询—任务映射的方式显示所述查询记录中多个查询条目的至少一部分以及所述任务列表中多个任务的至少一部分。2.如权利要求1所述的注释系统,其特征在于,所述机器学习组件被配置成对对应于所述查询记录的多个查询条目的每一个,将用于潜在查询—任务映射的最佳猜测任务建议为所述训练数据的函数。3.如权利要求2所述的机器学习组件,其特征在于,所述图形用户界面生成组件被配置成以将每一所显示的多个查询条目与其对应的建议最佳猜测任务关联的方式显示所述查询记录中的多个查询条目。4.如权利要求3所述的注释系统,其特征在于,所述图形用户界面生成组件还被配置成当用户想要将特定的查询条目映射到其对应的建议最佳猜测任务时,从所述用户接收第一类型输入,并且其中,在通过所述图形用户界面接收所述第一类型输入之后,所述机器学习组件通过将所述特定的查询条目映射到所述建议最佳猜测任务来更新所述训练数据。5.如权利要求4所述的注释系统,其特征在于,所述图形用户界面生成组件还被配置成当用户想要察看对潜在映射特定查询条目的下一最佳猜测任务的列表时,从所述用户接收第二类型输入。6.如权利要求4所述的注释系统,其特征在于,对应于所述查询记录的多个查询条目的每一个是一查询束,并且其中每一查询束表示所述查询记录中被捆扎在一起的多个查询。7.如权利要求6所述的注释系统,其特征在于,在通过所述图形用户界面接收所述第一类型输入之后,所述机器学习组件通过将由所述查询束表示的所述多个查询的每一个映射到所述建议最佳猜测任务来更新所述训练数据。8.如权利要求6所述的注释系统,其特征在于,对每一查询束的所述建议最佳猜测是对由所述查询束表示的多个查询的每一个的最佳猜测的加权平均值。9.如权利要求6所述的注释系统,其特征在于,所述图形用户界面生成组件还被配置成当用户想要察看由特定查询束表示的查询的列表时,从所述用户接收第二类型输入,并且响应于接收所述第二类型输入,所述图形用户界面生成组件被配置成显示由所述查询束表示的查询的列表。10.如权利要求4所述的注释系统,其特征在于,所述图形用户界面生成组件还被配置成显示所述任务列表。11.如权利要求10所述的注释系统,其特征在于,所述图形用户生成组件还被配置成当用户想要将所述特定的查询条目映射到所述显示的任务列表中不同于所述建议最佳猜测任务的任务时,从所述用户接收第二类型输入,并且其中在通过所述图形用户界面接收所述第二类型输入之后,所述机器学习组件被配置成通过将所述特定的查询条目映射到所显示的任务列表中的所述任务来更新所述训练数据。12.如权利要求4所述的注释系统,其特征在于,在通过将所述特定的查询条目映射到任务来更新所述训练数据之后,所述机器学习组件被配置成对所述多个查询条目的剩余部分的每一个,自动更新所述最佳猜测任务作为所述更新的训练数据的函数。13.如权利要求12所述的注释系统,其特征在于,所述机器学习组件是单纯贝叶斯分类器。14.如权利要求1所述的注释系统,其特征在于,所述机器学习组件被配置成对所述任务列表中所述多个可能任务的每一个,建议一个来自所述查询记录中可能用于查询—任务映射的查询的列表作为所述训练数据的函数。15.一种辅助用户执行查询—任务的大量映射来获取用于训练搜索组件的训练数据的方法,其特征...
【专利技术属性】
技术研发人员:A拉特纳帕基,B格罗德尼茨基,FL纳兰爵,RJ拉格诺,
申请(专利权)人:微软公司,
类型:发明
国别省市:US[]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。