用于确定与由计算系统执行的预测建模环境相关联的不确定性的方法、系统和计算机程序产品。接收包括与一个或多个值相关联的多个变量的数据集用于训练预测模型。预测模型是使用接收到的数据集进行训练的,并被应用于所接收的数据集中的一个或多个变量以生成预测。生成与一个或多个缺失值的一个或多个贡献相对应的一个或多个不确定性区间,该一个或多个缺失值对应于所述多个变量中的一个或多个变量。生成与一个或多个稀有值的一个或多个贡献相对应的一个或多个不确定性区间,该一个或多个稀有值对应于所述多个变量中的一个或多个变量。基于一个或多个生成的不确定性区间生成指示预测的警报。预测的警报。预测的警报。
【技术实现步骤摘要】
不确定性的确定
[0001]本公开总体涉及数据处理,并且具体地,涉及确定由机器学习模型生成的预测中的稀有值和/或缺失值的不确定性。
技术介绍
[0002]机器学习(ML)模型生成预测,即使观察到的变量具有稀有值或缺失值也如此。变量值的稀有性或缺失可能有各种原因,包括根本原因。例如,在用于训练目标为学生贷款的违约风险的模型的数据集的输入变量中,有时可能缺失测试的分数。缺失测试分数的常见原因可能是,一些得到低分的个体可能不愿意透露。如果低的测试分数与较高的风险有关,那么从这样的数据集中训练的ML模型可能会为缺失的测试分数分配高的贡献。类似地,定类变量中的稀有类别可能与常见原因有关,并且导致ML模型从类别的稀有性中进行归纳。
[0003]然而,缺失值和/或稀有值也可能随机出现,与目标没有任何因果关系,例如,在贷款申请人在回答关于分数的问题时不能想起确切的分数,或者在他/她声明了稀有的职业或原籍国等的情形中。在这种情况下,典型的ML模型可能从很少(例如,稀有类别)和/或没有(例如,缺失值)的证据中进行归纳。因此,对训练群体中可能随机出现的稀有值和/或缺失值的不确定性进行量化可以有助于生成关于包括这样的值作为输入的ML预测的警报。
技术实现思路
[0004]在一些实施方式中,当前主题涉及一种用于确定由机器学习模型生成的预测中的稀有值和/或缺失值的不确定性的计算机实现的方法。该方法可以包括由至少一个处理器接收用于训练预测模型的数据集。数据集可以包括与一个或多个值相关联的多个变量。预测模型可以被配置用于根据多个变量中的一个或多个变量确定目标值。该方法还可以包括由处理器使用接收到的数据集训练预测模型,将预测模型应用于接收到的数据集中的一个或多个变量以生成预测。该方法可以进一步包括基于应用生成对应于一个或多个缺失值的一个或多个贡献的一个或多个不确定性区间,该一个或多个缺失值对应于多个变量中的一个或多个变量;以及基于应用生成与一个或多个稀有值的一个或多个贡献相对应的一个或多个不确定性区间,该一个或多个稀有值对应于多个变量中的一个或多个变量。可以基于一个或多个生成的不确定性区间生成指示预测的警报。
[0005]还描述了非暂时性计算机程序产品(即物理体现的计算机程序产品),其存储由指令,当由一个或多个计算系统的一个或多个数据处理器执行时,这些指令使至少一个数据处理器执行本文的操作。类似地,也描述了计算机系统,其可以包括一个或多个数据处理器以及耦合到一个或多个数据处理器的存储器。存储器可以暂时地或永久地存储指令,这些指令使至少一个处理器执行本文描述的操作中的一个或多个。此外,可以由单个计算系统内或在两个或更多个计算系统当中分布的一个或多个数据处理器来实施方法。这样的计算系统可以经由一个或多个连接(包括但不限于通过网络(例如,因特网、无线广域网、局域网、广域网、有线网络等)的连接)、经由多个计算系统中的一个或多个之间的直接连接等进
行连接,并且可以交换数据和/或命令或者其它指令等,。
[0006]本文所述主题的一个或多个变体的细节在附图和下面的描述中阐述。本文所述主题的其它特征和优点将从描述和附图以及权利要求中显而易见。
附图说明
[0007]并入本说明书并构成本说明书的一部分的附图展示了本文公开的主题的某些方面,并且与描述一起,有助于解释与公开的实施方式相关联的原理中的一些。在附图中,
[0008]图1示出了根据当前主题的一些实施方式的示例性系统,该示例性系统用于执行对稀有值和/或缺失值的贡献的不确定性级别的确定并且生成针对这样的不确定性可能如何影响应用于数据集的机器学习模型的输出的指示;
[0009]图2示出了根据当前主题的一些实施方式的示例性过程,该示例性过程用于确定分配给输入数据集中包含的变量的贡献的不确定性级别,该变量的值是缺失或稀有的;
[0010]图3是分配给单个变量的贡献关于预测输出的分布的示例性点线图;
[0011]图4是根据当前主题的一些实施方式的示例性实验点线图,该示例性实验点线图针对分配给稀有类别的给定贡献值示出这样的类别的潜在实际贡献的分布;
[0012]图5是根据当前主题的一些实施方式的示出包括数据存储应用的示例性系统的示意图;
[0013]图6是示出图5的系统的细节的示意图;
[0014]图7示出了根据当前主题的一些实施方式的示例性系统;以及
[0015]图8示出了根据当前主题的一些实施方式的示例性方法。
具体实施方式
[0016]为了解决当前可用解决方案的缺陷,当前主题的一个或多个实施方式提供了分析与使用稀有值和/或缺失值作为输入以生成预测输出相关联的不确定性并且生成关于这样的预测的警报的能力。
[0017]现有的人工智能(AI)框架(例如,eXplainable AI(XAI)框架)不提供稀有值或缺失值的贡献的不确定性区间。当这样的现有预测模型针对预测生成不确定性区间时,它们无法指示不确定性的来源或关于与稀有值和/或缺失值相关联的具体不确定性的警报。例如,预测模型在验证数据集上可能95%准确,然而,所有误差可能是使用稀有值/缺失值的结果。在这种情况下,由该模型作出的任何预测可以被描述为95%准确,而系统应该特别警报终端用户关于从稀有值/缺失值中生成的预测的有限准确度。在由预测模型生成的输出被用于作出影响人类、至关重要的计算系统和/或医疗、经济等其它方面的决策的情况下,这一差别可能变得至关重要。
[0018]在一些实施方式中,当前主题可以被配置为查明与可以被机器学习模型用于预测的生成中的缺失值/稀有值相关联的不确定性。在一些示例性的非限制的实施方式中,当前主题可以使用XAI框架(例如,集成在SAP HANA自动预测库(APL)中的SHAP框架,可从德国沃尔多夫的SAP AG获得)以从应用于一组观测的预测模型中提取个体变量贡献。可以理解的是,可以使用提取局部贡献的任何解释框架。
[0019]为了确定与缺失值/稀有值相关联的不确定性的目的,当前主题系统可以假设X可
以是预测模型的输入变量,而O可以是观测。如果X的值对于O来说是缺失的,则当前主题可以生成该值可能是随机缺失的假设。因此,缺失值的贡献的分布可能与样本群体中X的贡献的分布匹配。从该分布中,可以确定随机缺失值的贡献的不确定性区间。
[0020]如果X具有稀有值V(例如,如果X是定类的,则为稀有类别),则可以使用XAI框架提取其对模型的贡献C。稀有值可以随机出现以及机器学习过程可以从少数训练出现中进行归纳的假设可以用于解释不确定性区间的确定。使用数据集中的值可能由于偶然而稀有的假设,可以通过执行对数据集中可用的常见类别的模拟来估计本应分配给该值的类别的贡献。该估计可以包括生成另一版本的数据集,其中一个变量的常见类别中的一个或多个被伪稀有类别替换。例如,如果X是国家,一些原来的国家(例如,“美国”)可以用伪稀有类别(例如,“美国_2”,其用于出现至少两次的稀有类别)替换。可以使用改变后的数据集训练预测模型,以及可以本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种计算机实现的方法,包括:由至少一个处理器接收用于训练预测模型的数据集,所述数据集包括与一个或多个值相关联的多个变量,所述预测模型被配置用于根据所述多个变量中的一个或多个变量确定目标值;由至少一个处理器训练所述预测模型,其中,所述预测模型使用接收到的数据集训练;由至少一个处理器将所述预测模型应用于接收到的数据集中的一个或多个变量以生成预测;由至少一个处理器基于应用生成与一个或多个缺失值的一个或多个贡献相对应的一个或多个不确定性区间,所述一个或多个缺失值对应于所述多个变量中的一个或多个变量;由至少一个处理器基于应用生成与一个或多个稀有值的一个或多个贡献相对应的一个或多个不确定性区间,所述一个或多个稀有值对应于所述多个变量中的一个或多个变量;以及由所述至少一个处理器基于一个或多个生成的不确定性区间生成指示所述预测的警报。2.根据权利要求1所述的方法,其中,所述数据集中的至少一个变量具有未知值或缺失值。3.根据权利要求2所述的方法,其中,所述未知值或缺失值是随机未知值或随机缺失值。4.根据权利要求3所述的方法,其中,所述一个或多个不确定性区间的生成是基于分配给接收到的数据集中的变量的所有值的贡献的分布的。5.根据权利要求1所述的方法,其中,接收到的数据集中的至少一个变量具有分配给稀有类别的值。6.根据权利要求5所述的方法,其中,分配给所述稀有类别的值是随机出现的值。7.根据权利要求1所述的方法,其中,所述一个或多个不确定性区间的生成包括基于由所述预测模型分配的贡献值生成关于稀有值的实际贡献的一个或多个不确定性区间。8.一种系统,包括:至少一个可编程处理器;和非暂时性机器可读介质,其存储指令,当由至少一个可编程处理器执行时,所述指令使所述至少一个可编程处理器执行操作,所述操作包括:由至少一个处理器接收用于训练预测模型的数据集,所述数据集包括与一个或多个值相关联的多个变量,所述预测模型被配置用于根据所述多个变量中的一个或多个变量确定目标值;由至少一个处理器训练所述预测模型,其中,所述预测模型使用接收到的数据集训练;由至少一个处理器将所述预测模型应用于接收到的数据集中的一个或多个变量以生成预测;由至少一个处理器基于应用生成与一个或多个缺失值的一个或多个贡献相对应的一个或多个不确定性区间,所述一个或多个缺失值对应于所述多个变量中的一个或多个变量;
由至少一个处理器基于应用生成与一个或多个稀有值的一个或多个贡献相对应的一个或多个不确定性区间,所述一个或多个稀有值对应于所述多个变量中的一个或多个变量;以及由所述至少一个处...
【专利技术属性】
技术研发人员:Y勒比安尼克,S肖恩,
申请(专利权)人:商业对象软件有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。