用于机器学习模型评估的交互式界面制造技术

技术编号:15343174 阅读:60 留言:0更新日期:2017-05-17 00:22
在机器学习服务处生成对应于模型的评估运行的第一数据组以用于通过交互式界面显示。所述数据组包括预测质量度量。基于特定客户端与所述界面的交互的检测确定与所述模型相关联的解释阈值的目标值。可发起由选择所述目标值引起的所述预测质量度量的改变的指示。

【技术实现步骤摘要】
【国外来华专利技术】用于机器学习模型评估的交互式界面
技术介绍
机器学习组合来自统计学和人工智能的技术以创建可从经验数据学习并推广到解决诸如自然语言处理、金融欺诈检测、恐怖主义威胁级别检测、人类健康诊断等各种领域中的问题的算法。近年来,正在从诸如各种传感器、web服务器日志、社交媒体服务、金融交易记录、安全摄像机等各种各种的来源收集可潜在用于机器学习模型的越来越多的原始数据。传统上,统计学和人工智能方面的专业知识是开发和使用机器学习模型的前提条件。对于许多业务分析师并甚至对于高资格的主题专家,获得这种专业知识的困难有时是太大的障碍,以至于不能充分利用潜在可用的大量数据来改进业务预测和决定。此外,许多机器学习技术可以是计算密集的,并且在至少一些情况下,可能难以精确地预测技术的各个阶段可能需要多少计算能力。鉴于这种不可预测性,对于商业组织来说建立他们自己的机器学习计算设施可能并不总是可取的或可行的。从机器学习算法获得的结果的质量可以取决于用于训练模型的经验数据有多好地捕获数据中表示的不同变量之间的关键关系以及可如何高效和有效地识别这些关系。取决于将使用机器学习解决的问题的性质,可能必须分析非常大的数据组以便能够进行准确预测,特别是相对不频繁但重要的事件的预测。例如,在金融欺诈检测应用中,其中欺诈交易的数量通常是交易总数的非常小的一小部分,识别可用于将交易标记为欺诈的因素可潜在需要分析数百万交易记录,每个表示几十个或甚至几百个变量。对原始输入数据组大小、净化或归一化大量潜在不完整或含有错误的记录和/或提取原始数据的代表性子集的能力的约束也表示对于机器学习技术的许多潜在受益者不容易克服的障碍。对于许多机器学习问题,在数据可有效地用于训练模型之前,变换可能必须应用于各种输入数据变量。在一些传统机器学习环境中,可用于应用此类变换的机制可能不是最佳的,例如,有时可能必须逐个地将类似的变换应用于数据组的许多不同变量,潜在地需要大量繁琐和易出错的工作。附图说明图1示出根据至少一些实施方案的可实现机器学习服务的各种部件的示例性系统环境。图2示出根据至少一些实施方案的使用提供商网络的多种网络可访问服务实现的机器学习服务的实例。图3示出根据至少一些实施方案的用于机器学习服务的提供商网络的多个可用性容器和安全容器的使用的实例。图4示出根据至少一些实施方案的可在机器学习服务处生成的多个处理计划和对应资源组的实例。图5示出根据至少一些实施方案的机器学习服务处的作业的异步调度的实例。图6示出根据至少一些实施方案的可使用机器学习服务生成和存储的示例性制品(artifact)。图7示出根据至少一些实施方案的响应于实例化数据源的客户端请求的统计的自动生成的实例。图8示出根据至少一些实施方案的可在机器学习服务处支持的若干模型使用模式。图9a和图9b是示出根据至少一些实施方案的可在支持机器学习作业的异步调度的机器学习服务处执行的操作的方面的流程图。图10a是示出根据至少一些实施方案的可在支持一组幂等编程接口的机器学习服务处执行的操作的方面的流程图。图10b是示出根据至少一些实施方案的可在机器学习服务处执行以收集并散布关于与不同问题域相关的最佳实践的信息的操作的方面的流程图。图11示出根据至少一些实施方案的与机器学习服务处的数据变换的配方的使用相关联的示例性交互。图12示出根据至少一些实施方案的配方的示例性部分。图13示出根据至少一些实施方案的可用于定义配方句法的示例性语法。图14示出根据至少一些实施方案的可针对配方的一部分生成的抽象句法树的实例。图15示出根据至少一些实施方案的可用于搜索可从机器学习服务获得的域特定配方的编程接口的实例。图16示出根据至少一些实施方案的机器学习服务的实例,所述机器学习服务代表客户端自动探索配方变换的参数设置的范围,并且基于此类探索的结果选择可接受或推荐的参数设置。图17是示出根据至少一些实施方案的可在支持用于数据组变换的可重新使用配方的机器学习服务处执行的操作的方面的流程图。图18示出根据至少一些实施方案的用于通过机器学习服务对大的输入数据组执行有效存储器内过滤操作的示例性过程。图19示出根据至少一些实施方案的与改变用于对机器学习数据组的过滤操作序列的块大小相关联的权衡。图20a示出根据至少一些实施方案的块级过滤操作(包括混排之后进行分裂)的示例性序列。图20b示出根据至少一些实施方案的包括块级过滤以及块内过滤的存储器内过滤操作的示例性序列。图21示出根据至少一些实施方案的对数据组的存储器内采样的替代方法的实例。图22示出根据至少一些实施方案的基于观察记录边界的位置确定块边界的实例。图23示出根据至少一些实施方案的可响应于对从各种数据源类型中的任一个提取数据记录的请求而在机器学习服务处调度的作业的实例。图24示出根据至少一些实施方案的可由客户端使用由机器学习服务实现的I/O(输入-输出)库的编程接口提交的记录检索请求的示例性组成元素。图25是示出根据至少一些实施方案的可在实现用于对大输入数据组的存储器内过滤操作序列的I/O库的机器学习服务处执行的操作的方面的流程图。图26示出根据至少一些实施方案的可用于提高由机器学习模型进行的预测的质量的迭代过程的实例。图27示出根据至少一些实施方案的可用于机器学习模型的交叉验证的数据组分裂的实例。图28示出根据至少一些实施方案的用于可使用伪随机数序列执行的交叉验证的输入数据组的一致块级分裂的实例。图29示出根据至少一些实施方案的可由于不适当地重置伪随机数生成器发生的输入数据组的不一致块级分裂的实例。图30示出根据至少一些实施方案的调度相关训练和评估作业对的示例性时间线。图31示出根据至少一些实施方案的响应于客户端请求在机器学习服务处生成一致性元数据的系统的实例。图32是示出根据至少一些实施方案的可响应于对机器学习模型的训练和评估迭代的请求在机器学习服务处执行的操作的方面的流程图。图33示出根据至少一些实施方案的可针对机器学习服务处的预测生成的决定树的实例。图34示出根据至少一些实施方案的在机器学习模型的训练阶段的树构造过程期间按深度优先次序将决定树节点的表示存储在持久性存储装置处的实例。图35示出根据至少一些实施方案的可为决定树的节点生成的预测效用分布信息的实例。图36示出根据至少一些实施方案的至少部分地基于运行时间存储器占用目标和累积预测效用的组合修剪决定树的实例。图37示出根据至少一些实施方案的至少部分地基于预测时间变化目标修剪决定树的实例。图38示出根据至少一些实施方案的可生成用于训练在机器学习服务处使用决定树总体的模型的多个作业的实例。图39是示出根据至少一些实施方案的可在机器学习服务处执行以按深度优先次序生成并修剪存储到持久性存储装置的决定树的操作的方面的流程图。图40示出根据至少一些实施方案的被配置来基于对候选特征处理变换的成本和益处的分析为客户端生成特征处理提议的机器学习服务的实例。图41示出根据至少一些实施方案的基于测量的预测速度和预测质量从若干替代者选择特征处理组的实例。图42示出根据至少一些实施方案的机器学习服务的客户端与特征处理管理器之间的示例性交互。图43示出根据至少一些实施方案的使用随机选择修剪候选特征处理变换的实例。图44示出根据至少一些实施方案的用于识别本文档来自技高网...
用于机器学习模型评估的交互式界面

【技术保护点】
一种系统,包括:一个或多个计算装置,其被配置来:在提供商网络的机器学习服务处训练机器学习模型以便生成对应于各自观察记录的一个或多个输出变量的值,其中所述一个或多个输出变量包括特定输出变量;对应于使用各自评估数据组执行的所述机器学习模型的一个或多个评估运行,生成将通过交互式图形界面显示的第一组数据,其中所述第一组数据至少包括(a)所述特定输出变量的统计分布以及(b)所述机器学习模型的第一预测质量度量,其中所述交互式图形界面包括第一图形控件以修改与所述机器学习模型相关联的第一预测解释阈值;至少部分地基于检测特定客户端使用所述第一图形控件,确定所述第一预测解释阈值的目标值;通过所述交互式图形界面发起由所述目标值的选择引起的对所述第一预测质量度量的改变的显示;响应于由客户端通过所述交互式图形界面传输的请求,将所述目标值保存在所述机器学习服务的持久性储存库中;以及利用所述所保存目标值来生成所述机器学习模型的随后运行的一个或多个结果。

【技术特征摘要】
【国外来华专利技术】1.一种系统,包括:一个或多个计算装置,其被配置来:在提供商网络的机器学习服务处训练机器学习模型以便生成对应于各自观察记录的一个或多个输出变量的值,其中所述一个或多个输出变量包括特定输出变量;对应于使用各自评估数据组执行的所述机器学习模型的一个或多个评估运行,生成将通过交互式图形界面显示的第一组数据,其中所述第一组数据至少包括(a)所述特定输出变量的统计分布以及(b)所述机器学习模型的第一预测质量度量,其中所述交互式图形界面包括第一图形控件以修改与所述机器学习模型相关联的第一预测解释阈值;至少部分地基于检测特定客户端使用所述第一图形控件,确定所述第一预测解释阈值的目标值;通过所述交互式图形界面发起由所述目标值的选择引起的对所述第一预测质量度量的改变的显示;响应于由客户端通过所述交互式图形界面传输的请求,将所述目标值保存在所述机器学习服务的持久性储存库中;以及利用所述所保存目标值来生成所述机器学习模型的随后运行的一个或多个结果。2.如权利要求1所述的系统,其中所述机器学习模型是将用于将观察记录分类成第一类别和第二类别的二进制分类模型,并且其中所述第一预测解释阈值指示所述第一类别与所述第二类别之间的截止边界。3.如权利要求1-2中任一项所述的系统,其中所述第一预测质量度量包括以下各项中的一个或多个:准确度度量、召回度量、敏感度度量、真阳性率、特异性度量、真阴性率、精度度量、假阳性率、假阴性率、F1得分、覆盖度量、绝对百分比误差度量、平方误差度量或AUC(曲线下区域)度量。4.如权利要求1-3中任一项所述的系统,其中所述第一图形控件包括连续变化控制元件,使得所述特定客户端能够指示所述第一预测解释阈值的第一值与所述第一预测解释阈值的第二值之间的过渡,其中所述一个或多个计算装置进一步被配置来:在所述特定客户端指示从所述第一值到所述第二值的过渡时,实时地发起指示对所述第一预测质量度量的对应改变的所述交互式图形界面的一部分的更新。5.如权利要求1-4中任一项所述的系统,其中所述交互式图形界面包括用于指示包括所述第一预测质量度量和第二预测质量度量的多个预测质量度量的目标值的各自另外控件,其中所述一个或多个计算装置进一步被配置来:响应于使用第一另外控件指示的所述第一预测质量度量的目标值的改变,发起对应于所述第二预测质量度量的第二另外控件的显示的更新,指示所述第一预测质量度量的所述目标值的所述改变对所述第二预测质量度量的影响。6.一种方法,包括:通过一个或多个计算装置执行:训练机器学习模型以便生成对应于各自观察记录的一个或多个输出变量的各自值,其中所述一个或多个输出变量包括特定输出变量;对应于所述机器学习模型的一个或多个评估运行生成将通过交互式图形界面显示的第一组数据,其中所述第一组数据至少包括所述机器学习模型的第一预测质量度量,并且其中所述交互式图形界面包括第一图形控件以修改与所述机器学习模型相关联的第一预测解释阈值;至少部分地基于检测特定客户端与所述第一图形控件的交互,确定所述第一预测解释阈值的目标值;通过所述交互式图形界面发起由所述目标值的选择引起的对所述第一预测质量度量的改变的显示;以及使用所述目标值获得所述机器学习模型的随后运行的一个或多个结果。7.如权利要求6所述的方法,其中所述...

【专利技术属性】
技术研发人员:P·P·Y·李N·M·科雷亚L·P·迪拉克A·M·英格曼S·克里肖南李瑾S·R·普瓦蒂S·赞拉蒂昂C·E·达纳克尔R·拉马克里肖南郑天铭卓东辉T·阿加瓦尔R·M·斯蒂勒钱俊M·布鲁克纳R·赫布里奇D·布里克
申请(专利权)人:亚马逊科技公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1