基于沙普利可加性解释的风控方法、装置、设备及介质制造方法及图纸

技术编号:37186879 阅读:6 留言:0更新日期:2023-04-20 22:50
本说明书公开了一种基于沙普利可加性解释的风控方法、装置、电子设备及介质。方法包括:获取目标交易业务的原始样本集,并确定出属于强关联的特征组合。基于强关联的特征组合的有效值,构建第一类扰动样本集。基于沙普利可加性解释执行:分别对原始样本集和第一类扰动样本集中的特征进行采样,得到多个采样结果所对应的待解释特征集,第一类扰动样本集对应的至少一种采样结果包含有强关联的特征组合;以及基于每个待解释特征集的准基Shapley值,计算出每个采样得到的特征的SHAP值。根据SHAP值,从每个采样得到的特征中选取出对目标交易业务影响度达到预设标准的目标特征。对目标交易业务中符合目标特征的用户执行预设风控决策。策。策。

【技术实现步骤摘要】
基于沙普利可加性解释的风控方法、装置、设备及介质


[0001]本文件涉及人工智能
,尤其涉及一种基于沙普利可加性解释的风控方法、装置、电子设备及介质。

技术介绍

[0002]支付领域中,支付平台上的各类支付产品经常会被黑产恶意利用以开展非法交易。为此,如何准确及时地识别这些类型的风险并进行管控是支付平台十分重要的工作内容。
[0003]随着人工智能的发展,机器学习的应用也越来越广泛。基于模型机器执行支付产品的风险管理已成了支付平台主流的风控方式之一。但是模型天然存在黑盒属性,具有不透明、非直观以及难以理解的特点。虽然说训练好的模型能够较为准确地进行风险识别,但技术人员无法直接对模型进行解释,难以通过还原手法的方式在业务侧或者技术侧上进行漏洞补防。
[0004]沙普利可加性解释(SHapley Additiveex Planations,SHAP)是目前一种通用的针对模型的解释方法。SHAP具体计算了样本中每个特征对于风险预测的贡献(也称Shapley值),并进一步根据每个特征有无对基准贡献度(比如平均贡献度)造成的影响,来分析其对于风险预测的重要性。
[0005]对于支付领域而言,很多特征之间存在着一定的强关联性。这里以交易为示例,一般在体量较大的支付平台中,交易可能在任何时间、任何地点发生,如果单独根据交易时间或交易地点这两个维度特征的有无,来分析对于风险的影响,显然很容易与事实脱节。但如果将交易时间和交易地点相结合进行分析,则更加合理。但SHAP是在特征之间相互独立的假设上完成计算的,这就忽略掉了特征与特征之间的关联性,从而影响了可解释的有效性。
[0006]为此,在使用沙普利可加性解释对支付领域的业务进行解释时,如何减少无效特征采样对SHAP值计算造成的影响,从而更加准确挖掘出对风控有价值的特征以用于风控决策,是本申请所要解决的技术问题。

技术实现思路

[0007]本说明书实施例提供了一种可解释性的风控方法、装置、电子设备及介质,可有针对性地对目标交易业务中符合实际意义的强关联特征组合进行侧重采样,从而在一定程度上削弱了未完整包含强关联特征组合的无效采样对SHAP值计算所造成的影响;此外,在SHAP值完成计算后,可以根据SHAP值的大小来衡量特征对于目标交易业务的影响,从而筛选出高价值的目标特征以用于风控决策。
[0008]具体地,本说明书实施例是这样实现的:第一方面,提出了一种基于沙普利可加性解释的风控方法,包括:获取目标交易业务的原始样本集,并对所述原始样本集的多个特征进行分析,确定出属于强关联的特征组合;
基于所述强关联的特征组合的有效值,构建第一类扰动样本集,所述第一类扰动样本集中的扰动样本不属于所述原始样本集;基于沙普利可加性解释执行:分别对所述原始样本集和第一类扰动样本集中的特征进行采样,得到多个采样结果所对应的待解释特征集,所述第一类扰动样本集对应的至少一种采样结果包含有所述强关联的特征组合;以及,基于每个待解释特征集的准基Shapley值,计算出每个采样得到的特征的SHAP值;根据SHAP值,从每个采样得到的特征中选取出对目标交易业务影响度达到预设标准的目标特征,其中,特征的SHAP值的大小与该特征对于所述目标交易业务的影响度相关联;对所述目标交易业务中符合所述目标特征的用户执行预设风控决策。
[0009]第二方面,提出了一种基于沙普利可加性解释的风控装置,包括:原始样本获取模块,获取目标交易业务的原始样本集,并对所述原始样本集的多个特征进行分析,确定出属于强关联的特征组合;扰动样本构建模块,基于所述强关联的特征组合的有效值,构建第一类扰动样本集,所述第一类扰动样本集中的扰动样本不属于所述原始样本集;SHAP值计算模块,基于沙普利可加性解释执行:分别对所述原始样本集和第一类扰动样本集中的特征进行采样,得到多个采样结果所对应的待解释特征集,所述第一类扰动样本集对应的至少一种采样结果包含有所述强关联的特征组合;以及,基于每个待解释特征集的准基Shapley值,计算出每个采样得到的特征的SHAP值;解释模块,根据SHAP值,从每个采样得到的特征中选取出对目标交易业务影响度达到预设标准的目标特征,其中,特征的SHAP值的大小与该特征对于所述目标交易业务的影响度相关联;风控执行模块,对所述目标交易业务中符合所述目标特征的用户执行预设风控决策。
[0010]第三方面,提出了一种电子设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:获取目标交易业务的原始样本集,并对所述原始样本集的多个特征进行分析,确定出属于强关联的特征组合;基于所述强关联的特征组合的有效值,构建第一类扰动样本集,所述第一类扰动样本集中的扰动样本不属于所述原始样本集;基于沙普利可加性解释执行:分别对所述原始样本集和第一类扰动样本集中的特征进行采样,得到多个采样结果所对应的待解释特征集,所述第一类扰动样本集对应的至少一种采样结果包含有所述强关联的特征组合;以及,基于每个待解释特征集的准基Shapley值,计算出每个采样得到的特征的SHAP值;根据SHAP值,从每个采样得到的特征中选取出对目标交易业务影响度达到预设标准的目标特征,其中,特征的SHAP值大小与该特征对于所述目标交易业务的影响度相关联;对所述目标交易业务中符合所述目标特征的用户执行预设风控决策。
[0011]第四方面,提出了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电
子设备执行以下操作:获取目标交易业务的原始样本集,并对所述原始样本集的多个特征进行分析,确定出属于强关联的特征组合;基于所述强关联的特征组合的有效值,构建第一类扰动样本集,所述第一类扰动样本集中的扰动样本不属于所述原始样本集;基于沙普利可加性解释执行:分别对所述原始样本集和第一类扰动样本集中的特征进行采样,得到多个采样结果所对应的待解释特征集,所述第一类扰动样本集对应的至少一种采样结果包含有所述强关联的特征组合;以及,基于每个待解释特征集的准基Shapley值,计算出每个采样得到的特征的SHAP值;根据SHAP值,从每个采样得到的特征中选取出对目标交易业务影响度达到预设标准的目标特征,其中,特征的SHAP值大小与该特征对于所述目标交易业务的影响度相关联;对所述目标交易业务中符合所述目标特征的用户执行预设风控决策。
[0012]本说明书实施例的方案在利用沙普利可加性解释对目标交易业务的样本集中的特征进行解释。首先,基于先验知识在目标交易业务的原始样本集中分析出属于强关联的特征组合,并针对强关联的特征组合,按照有效值来构建额外的第一扰动样本集。在计算特征SHAP值的过程中,分别对原始样本集和扰动样本集中的特征进行采样;其中,扰动样本集的采样结果主要提供包含有强关联的特征组合,从而提高强关联的特征组合被整体采样的占比,进而在一定程度上削弱了未完整包含强关联的特征组合的无效采样对SHAP值计算所造成的影本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于沙普利可加性解释的风控方法,包括:获取目标交易业务的原始样本集,并对所述原始样本集的多个特征进行分析,确定出属于强关联的特征组合,所述强关联的特征组合由相互组合后才具有解释意义的至少两个特征组成;基于所述强关联的特征组合的有效值,构建第一类扰动样本集,所述第一类扰动样本集中的扰动样本不属于所述原始样本集;基于沙普利可加性解释执行:分别对所述原始样本集和第一类扰动样本集中的特征进行采样,得到多个采样结果所对应的待解释特征集,所述第一类扰动样本集对应的至少一种采样结果包含有所述强关联的特征组合;以及,基于每个待解释特征集的准基Shapley值,计算出每个采样得到的特征的SHAP值;根据SHAP值,从每个采样得到的特征中选取出对目标交易业务影响度达到预设标准的目标特征,其中,特征的SHAP值大小与该特征对于所述目标交易业务的影响度相关联;对所述目标交易业务中符合所述目标特征的用户执行预设风控决策。2.根据权利要求1所述的方法,还包括:基于所述强关联的特征组合的无效值,构建第二类扰动样本集,所述第二类扰动样本集中的扰动样本不属于所述原始样本集,所述无效值作为特征在所述沙普利可加性解释方中被舍弃采样时所替换的背景值;分别对所述原始样本集和所述第一类扰动样本集中的特征进行采样,得到待解释特征集,包括:分别对所述原始样本集、所述第一类扰动样本集和所述第二类扰动样本集的特征进行采样,得到待解释特征集,其中,所述第二类扰动样本集对应的至少一种采样结果包含有所述强关联的特征组合。3.根据权利要求2所述的方法,还包括:基于多种风控需求相关的语义维度,对所述原始样本集中的多个特征进行分类;基于所述强关联的特征组合的无效值,构建第二类扰动样本集,包括:基于同一分类下的所述强关联的特征组合的无效值,构建第二类扰动样本集。4.根据权利要求3所述的方法,还包括:所述多种风控需求相关的语义维度包括以下至少一者:交易时间的语义维度、交易金额的语义维度以及交易位置的语义维度。5.根据权利要求1所述的方法,获取目标交易业务的原始样本集,包括:获取目标交易业务对应多种事件窗口下的原始样本集,其中,不同事件窗口对应有不同的时间粒度,且不同事件窗口的原始样本互不相同;根据SHAP值,从每个采样得到的特征中选取出对目标交易业务影响度达到预设标准的目标特征,包括:基于每种事件窗口对应的待解释特征集的平均SHAP值由大到小的优先级顺序,从所述多种事件窗口中选取预设数量的目标事件窗口;根据SHAP值,从所述目标事件窗口对应的采样特征中选取出对目标交易业务影响度达到预设标准的目标特征。
6.根据权利要求1所述的方法,所述原始样本集的样本为所述目标交易业务中已确定为非法交易行为的样本,所述原始样本集的多个特征包含有属于用户交易操作的时序特征;对目标交易业务中符合所述目标特征的用户执行预设风控决策,包括:基于所述目标交易业务的历史样本,确定出符合所述目标特征的用户,并将确定出的用户添加至灰名单中;对所述灰名单中的用户进行监控,并在监控出所述灰名单中的用户触发所述目标交易业务的交易事件时,对该交易事件进行风险识别;以及,在所述交易事件的风险识别结果指示具有风险时,对所述交易事件进行拦截。7.根据权利要求1至6任一项所述的方法,基于每个待解释特征集的Shapley准基值,计算出每个采样得到的特征的SHAP值,包括:基于每个待解释特征集与对应的准基Shapley值之间的线性回归关系,...

【专利技术属性】
技术研发人员:宋博文姜冠宇庄福振张天翼
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1