【技术实现步骤摘要】
【国外来华专利技术】用于比较机器学习模型的系统、方法和计算机程序产品
[0001]相关申请的交叉引用
[0002]本申请要求
2021
年3月
30
日提交的美国临时专利申请
63/167,882、2022
年1月7日提交的美国临时专利申请
63/297,288
和
2021
年9月
22
日提交的国际专利申请
PCT/US21/51458
的优先权,这些专利的全部公开内容以引用方式并入本文
。
[0003]本公开整体涉及机器学习模型,并且在一些非限制性实施方案或方面中,涉及用于比较机器学习模型的准确率的系统
、
方法和计算机程序产品
。
技术介绍
[0004]分类
(
例如,预测给定数据实例成为不同类别的可能性等
)
是机器学习
(ML)
中的基本问题
。
已针对这个问题提出了许多分类模型,包括传统模型
(
例如,支持向量机
(SVM)、
朴素贝叶斯
( Bayes)
分类器等
)、
集成学习模型
(
例如,随机森林模型
、
树提升模型等
)
,以及深度学习模型
(
例如,卷积神经网络
(CNN)、
递归神经网络
(RNN)
等
)。
这些分 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.
一种用于比较机器学习模型的系统,所述系统包括:至少一个处理器,所述至少一个处理器被编程或配置为:接收数据实例的数据集,其中每个数据实例包括针对多个特征中的每个特征的特征值;基于所述数据实例的数据集生成第一机器学习模型的输出和第二机器学习模型的输出;确定所述第一机器学习模型的所述输出的第一子集和所述第二机器学习模型的所述输出的第二子集;生成不一致矩阵,所述不一致矩阵包括所述第一机器学习模型和所述第二机器学习模型的第一分组输出集以及所述第一机器学习模型和所述第二机器学习模型的第二分组输出集,其中所述第一分组输出集包括满足第一条件的所述第一机器学习模型的多个输出和不满足所述第一条件的所述第二机器学习模型的多个输出,并且其中所述第二分组输出集包括不满足所述第一条件的所述第一机器学习模型的多个输出和满足所述第一条件的所述第二机器学习模型的多个输出;基于所述第一分组输出集和所述第二分组输出集的真标签生成多个真标签矩阵,其中第一真标签矩阵包括满足所述第一条件的所述第一机器学习模型的所述多个输出中的真阳性输出和满足所述第一条件的所述第二机器学习模型的所述多个输出中的真阳性输出,并且其中第二真标签矩阵包括满足所述第一条件的所述第一机器学习模型的所述多个输出中的假阳性输出和满足所述第一条件的所述第二机器学习模型的所述多个输出中的假阳性输出;基于所述第一真标签矩阵训练第一分类器;基于所述第二真标签矩阵训练第二分类器;并且基于所述第一分类器和所述第二分类器确定所述第一机器学习模型的准确率和所述第二机器学习模型的准确率
。2.
如权利要求1所述的系统,其中所述第一机器学习模型的所述输出的所述第一子集和所述第二机器学习模型的所述输出的所述第二子集具有相同数量的值
。3.
如权利要求1所述的系统,其中当确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率时,所述至少一个处理器被编程或配置为:基于在所述第一分类器和所述第二分类器上执行的模型解释技术,确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率
。4.
如权利要求3所述的系统,其中所述模型解释技术是涉及沙普利加和解释
(SHAP)
值的模型解释技术
。5.
如权利要求4所述的系统,其中当确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率时,所述至少一个处理器被编程或配置为:计算针对所述第一分类器的所述数据集的每个数据实例的每个特征值的
SHAP
值;并且计算针对所述第二分类器的所述数据集的每个数据实例的每个特征值的
SHAP
值
。6.
如权利要求5所述的系统,其中当确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率时,所述至少一个处理器被编程或配置为:生成针对所述第一分类器的所述数据集的每个数据实例的每个特征值的所述
SHAP
值
和针对所述第二分类器的所述数据集的每个数据实例的每个特征值的所述
SHAP
值的图
。7.
如权利要求5所述的系统,其中当确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率时,所述至少一个处理器被编程或配置为:生成针对所述第一分类器的所述数据集的每个数据实例的第一特征的多个特征值的多个
SHAP
值和针对所述第二分类器的所述数据集的每个数据实例的所述第一特征的多个特征值的多个
SHAP
值的图
。8.
如权利要求5所述的系统,其中当确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率时,所述至少一个处理器被编程或配置为:计算与所述第一分类器的第一特征的准确率指标相关联的准确率指标值,其中与所述第一分类器的所述第一特征的所述准确率指标相关联的所述准确率指标值是基于针对所述第一分类器的所述数据集的每个数据实例的所述第一特征的多个特征值的多个
SHAP
值;并且计算与所述第二分类器的所述第一特征的所述准确率指标相关联的准确率指标值,其中与所述第二分类器的所述第一特征的所述准确率指标相关联的所述准确率指标值是基于针对所述第二分类器的所述数据集的每个数据实例的所述第一特征的多个特征值的多个
SHAP
值,其中所述准确率指标包括与特征的幅值的度量相关联的指标
、
与特征的一致性的度量相关联的指标
、
与特征的对比度的度量相关联的指标或者与特征的相关性的度量相关联的指标
。9.
一种计算机实现的方法,所述计算机实现的方法包括:利用至少一个处理器来接收数据实例的数据集,其中每个数据实例包括针对多个特征中的每个特征的特征值;利用所述至少一个处理器来基于所述数据实例的数据集生成第一机器学习模型的输出和第二机器学习模型的输出;利用所述至少一个处理器来确定所述第一机器学习模型的所述输出的第一子集和所述第二机器学习模型的所述输出的第二子集;利用所述至少一个处理器来生成不一致矩阵,所述不一致矩阵包括所述第一机器学习模型和所述第二机器学习模型的第一分组输出集以及所述第一机器学习模型和所述第二机器学习模型的第二分组输出集,其中所述第一分组输出集包括满足第一条件的所述第一机器学习模型的多个输出和不满足所述第一条件的所述第二机器学习模型的多个输出,并且其中所述第二分组输出集包括不满足所述第一条件的所述第一机器学习模型的多个输出和满足所述第一条件的所述第二机器学习模型的多个输出;利用所述至少一个处理器来基于所述第一分组输出集和所述第二分组输出集的真标签生成多个真标签矩阵,其中第一真标签矩阵包括满足所述第一条件的所述第一机器学习模型的所述多个输出中的真阳性输出和满足所述第一条件的所述第二机器学习模型的所述多个输出中的真阳性输出,并且其中第二真标签矩阵包括满足所述第一条件的所述第一机器学习模型的所述多个输出中的假阳性输出和满足所述第一条件的所述第二机器学习模型的所述多个输出中的假阳性输出;利用所述至少一个处理器来基于所述第一真标签矩阵训练第一分类器;
利用所述至少一个处理器来基于所述第二真标签矩阵训练第二分类器;以及利用所述至少一个处理器来基于所述第一分类器和所述第二分类器确定所述第一机器学习模型的准确率和所述第二机器学习模型的准确率
。10.
如权利要求9所述的计算机实现的方法,其中所述第一机器学习模型的所述输出的所述第一子集和所述第二机器学习模型的所述输出的所述第二子集具有相同数量的值
。11.
如权利要求9所述的计算机实现的方法,其中确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率包括:基于在所述第一分类器和所述第二分类器上执行的模型解释技术,确定所述第一机器学习模型的所述准确率和所述第二机器学习模型的所述准确率
。12.
如权利要求
11
所述的计算机实现的方法,其中所述模型解释技术是涉及沙普利加和解释
(SHAP)
值的模型解释技术
。13...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。