用于模型解释的方法及装置制造方法及图纸

技术编号：34553802 阅读：18 留言：0更新日期：2022-08-17 12:39

本说明书实施例提供用于模型解释的方法及装置。该方法包括：将待预测数据提供给机器学习模型得到预测结果，该机器学习模型包括基于训练样本集训练出的非线性机器学习模型；根据该预测结果，确定该待预测数据中的第一特征集中的各个特征所对应的特征贡献度；基于所确定出的待预测数据的特征贡献度以及该训练样本集中的各个训练样本的对应特征的特征贡献度，从该训练样本集中确定该待预测数据的相似样本集；以及基于该相似样本集，生成针对该机器学习模型的第一解释信息。器学习模型的第一解释信息。器学习模型的第一解释信息。

全部详细技术资料下载

【技术实现步骤摘要】
用于模型解释的方法及装置

[0001]本说明书实施例涉及人工智能
，具体地，涉及用于模型解释的方法及装置。

技术介绍

[0002]随着人工智能技术的飞速发展，机器学习模型的应用也越来越广泛。训练后的机器学习模型可以针对新数据进行预测，得到预测分数或分类结果。然而在实际业务场景中，只有预测分数或分类结果往往不足以支持模型的使用者进行决策；对于模型开发人员通常也只能使用一些通用评价指标来判断模型的预测结果，却不能实际解释模型为何会输出这样的结果。由此，如何对机器学习模型进行有效地解释成为机器学习领域需要解决的技术问题。

技术实现思路

[0003]提供本
技术实现思路
以便介绍一组概念，这组概念将在以下的具体实施方式中做进一步描述。本
技术实现思路
并非旨在标识所保护主题的关键特征或必要特征，也不旨在用于限制所保护主题的范围。
[0004]根据本说明书实施例的一个方面，提供一种用于模型解释的方法，包括：将待预测数据提供给机器学习模型得到预测结果，所述机器学习模型包括基于训练样本集训练出的非线性机器学习模型；根据所述预测结果，确定所述待预测数据中的第一特征集中的各个特征所对应的特征贡献度；基于所确定出的待预测数据的特征贡献度以及所述训练样本集中的各个训练样本的对应特征的特征贡献度，从所述训练样本集中确定所述待预测数据的相似样本集；以及基于所述相似样本集，生成针对所述机器学习模型的第一解释信息。
[0005]可选地，在上述方面的一个示例中，所述基于所确定出的待预测数据的特征贡献度以及所述训练样本集...

【技术保护点】

【技术特征摘要】
1.一种用于模型解释的方法，包括：将待预测数据提供给机器学习模型得到预测结果，所述机器学习模型包括基于训练样本集训练出的非线性机器学习模型；根据所述预测结果，确定所述待预测数据中的第一特征集中的各个特征所对应的特征贡献度；基于所确定出的待预测数据的特征贡献度以及所述训练样本集中的各个训练样本的对应特征的特征贡献度，从所述训练样本集中确定所述待预测数据的相似样本集；以及基于所述相似样本集，生成针对所述机器学习模型的第一解释信息。2.如权利要求1所述的方法，其中，所述基于所确定出的待预测数据的特征贡献度以及所述训练样本集中的各个训练样本的对应特征的特征贡献度，从所述训练样本集中确定所述待预测数据的相似样本集包括：基于所确定出的待预测数据的特征贡献度以及所述训练样本集中的各个训练样本的对应特征的特征贡献度，计算所述待预测数据与各个训练样本之间的相似性度量；以及根据所述待预测数据与各个训练样本之间的相似性度量，从所述训练样本集中确定所述待预测数据的相似样本集。3.如权利要求1所述的方法，其中，所述训练样本集中的各个训练样本的特征贡献度按照二叉搜索树存储，以及所述基于所确定出的待预测数据的特征贡献度以及所述训练样本集中的各个训练样本的对应特征的特征贡献度，从所述训练样本集中确定所述待预测数据的相似样本集包括：对所述二叉搜索树进行搜索，以搜索出与所述待预测数据的特征贡献度匹配的叶子结点；将所述匹配的叶子结点所对应的训练样本确定为准相似样本；确定所述准相似样本与所述待预测数据之间的相似性度量；自所述匹配的叶子结点起对所述二叉搜索树进行回溯搜索，以生成回溯结果，所述回溯结果用于指示所述二叉搜索树中未被搜索的结点中是否存在所对应的训练样本的相似性度量比所述准相似样本更大的结点；基于所述回溯结果和所述准相似样本，确定所述待预测数据的相似样本集。4.如权利要求2或3所述的方法，其中，所述训练样本和所述待预测数据的所对应的特征贡献度分别以向量形式表征。5.如权利要求1所述的方法，其中，所述第一解释信息包括下述解释信息中的至少一种：基于训练样本的预测结果解释信息；训练样本标签数据调整提示信息；和针对所述待训练数据的特征调整建议信息。6.如权利要求5所述的方法，其中，所述第一解释信息包括所述特征调整建议信息，所述特征调整建议信息包括建议调整特征以及对应调整值，以及所述基于所述相似样本集，生成针对所述机器学习模型的第一解释信息，包括：从所述相似样本集中选取标签数据符合预设选取条件的训练样本作为目标样本集；
根据所述目标样本集中的训练样本的第二特征集中的各个特征的特征值，生成所述待预测数据的对应特征的调整值取值集；根据所生成的各个特征的调整值取值集，确定所述待预测数据中的建议调整特征以及对应的调整值；根据所确定的建议调整特征以及对应的调整值，生成特征调整建议信息。7.如权利要求6所述的方法，其中，所述根据所生成的各个特征的调整值取值集，确定所述待预测数据中的建议调整特征以及对应的调整值包括：根据所生成的各个特征的调整值取值集对所述待预测数据中的特征的特征值进行调整，生成候选调整预测数据集；将所述候选调整预测数据集中的各个候选调整预测数据提供给所述机器学习模型，得到各个候选调整预测数据的预测结果；根据各个候选调整预测数据的预测结果，确定所述待预测数据中的建议调整特征以及对应的调整值。8.如权利要求7所述的方法，其中，所述根据各个候选调整预测数据的预测结果，确定所述待预测数据中的建议调整特征以及对应的调整值，包括：确定各个候选调整预测数据的预测结果与所述待预测数据的预测结果之间的预测结果差异；确定各个候选调整预测数据与所述待预测数据之间的特征差异；计算各个候选调整预测数据的预测结果差异与特征差异的比值，作为各个候选调整预测数据的修改转化率；从各个候选调整预测数据中选取修改转化率最大的候选调整预测数据作为第一目标调整预测数据；根据所述第一目标调整预测数据，确定所述建议调整特征以及对应的调整值。9.如权利要求7所述的方法，其中，所述根据所述目标样本集中的训练样本的第二特征集中的各个特征的特征值，生成所述待预测数据的对应特征的调整值取值集包括：从所述目标样本集中选取与所述待预测数据的相似性度量最大的训练样本作为参考样本；根据所述参考样本的所述第二特征集中的各个特征的特征值和所述待预测数据的对应特征的特征值，生成所述待预测数据的对应特征的调整值取值集；以及所述根据各个候选调整预测数据的预测结果，确定所述待预测数据中的建议调整特征以及对应的调整值包括：从各个候选调整预测数据中选取预测结果符合预设期望的候选调整预测数据作为第一调整预测数据集；将所述第一调整预测数据集中相对于所述待预测数据改动最小的调整预测数据确定为第二目标调整预测数据；以及根据所述第二目标调整预测数据，确定所述建议调整特征以及对应的调整值。10.如权利要求...

【专利技术属性】
技术研发人员：刘晖，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人