一种基于通信运营商大数据的反欺诈风险算法制造技术

技术编号:26379539 阅读:9 留言:0更新日期:2020-11-19 23:48
本发明专利技术提供了一种基于通信运营商大数据的反欺诈风险算法,通过反欺诈评分算法模型,对信贷申请人的欺诈风险特征进行画像分析评分,用数据评价的风控评级体系,将尽可能多的与金融信用相关性高的数据纳入风控评级指标体系,结合大数据的风控评级模型,减少人工对结果干预,将评级结果应用到那些授信额度较小、调查成本较高的各个金融领域。

【技术实现步骤摘要】
一种基于通信运营商大数据的反欺诈风险算法
本专利技术涉及金融反欺诈风险算法
,尤其涉及一种基于通信运营商大数据的反欺诈风险算法。
技术介绍
在现金贷业务中,主要面临两种风险:信用风险和欺诈风险。信用风险主要是对借款人还款能力和还款意愿进行评估,从而决定放款金额的大小(也可以决定放款利率的大小),而反欺诈直接面临的是欺诈用户,这种用户没有其他目的,就是为了骗钱不还(包括开始想还,后面不还)。如果直接用规则去做反欺诈,有三种局限性:1、策略比较强,命中直接拒绝,无法考虑策略之间深层次的关系;2、无法给出用户的欺诈风险有多大;3、没有考虑用户从信用风险向欺诈风险的转移。反欺诈模型就是为了通过机器学习来完善现在仅仅靠规则来拒人的不足。欺诈有两种,一种是直接欺诈,一种是信用风险向欺诈风险转移(用户原本有微弱的还款意愿,随着时间的推移,微弱的还款意愿没了,还有一种是有还款意愿没有还款能力,所以在选择特征和标签的时候围绕着这几个方向去考虑。1、市场大部分反欺诈评分产品存在数据源不合规(无授权、来源无法说清道明)的情况。运营商反欺诈分产品,基于被人民银行与银保监会认定为“外部可信数据源”的通信运营商海量手机信令数据。2、市场大部分反欺诈评分产品由非金融专业团队打造,选择的数据标签金融相关性不强,对银行等金融机构可参考性不大。运营商反欺诈分产品是与银联数据模型团队共同开发,结合银联数据建模团队在金融风控领域的丰富业务经验和专业建模能力,通过前沿的机器学习算法,在区分度上有很好的表现。3、市场大部分个人风控评分产品覆盖人群不广,而人行征信更是只覆盖到5亿左右的人群。运营商反欺诈分产品基于运营商全国全量数据,覆盖10亿+人群。
技术实现思路
基于上述技术缺陷,本专利技术提供一种基于通信运营商大数据的反欺诈风险算法,解决了上述技术问题中的技术缺陷。本专利技术本专利技术一种基于通信运营商大数据的反欺诈风险算法,包括以下步骤:1)、从通信运营商手机信令数据底层变量中初筛出1000+表现力好的变量;2)、基于通信运营商底层变量,通过多变量组合加工成300+高维可解释衍生变量;3)、基于经授权的金融机构样本标签计算运营商1000+底层变量、300+高维可解释衍生变量WOE(WeightofEvidence)和IV(InformationValue)值;4)、考虑模型重要性指标和业务含义等因素采用递归特征消除RFE模块(RecursiveFeatureElimination)进行自动迭代特征筛选出100+显著变量拟合高维集成树Xgboost(eXtremeGradientBoosting极端梯度提升)模型;5)、通过交叉验证防止过拟合,选择最优模型参数;6)、结合评分卡模型,得到反欺诈评分;7)、反欺诈分用户可以设定合适的阈值,当申请进件的反欺诈分高于该阈值时,拒绝该申请。进一步,所述步骤1中基于通信运营商手机信令数据底层变量初筛出1000+表现力好的变量。进一步,所述步骤2中基于通信运营商底层变量通过多变量组合加工成高维可解释衍生变量,以保证变量的可解释性。进一步,所述步骤3中根据WOE值和IV值来评估步骤1、2的数据指标。进一步,所述步骤4中采用递归特征消除RFE模块进行自动迭代特征筛选获得的显著变量拟合高维集成树XGboost模型。进一步,所述步骤5中,通过交叉验证防止过拟合,选择最优模型参数;结合所述步骤6中的评分卡模型得到反欺诈评分,并通过合适阈值的设定,进行进件申请的审核。本专利技术提供了一种基于通信运营商大数据的反欺诈风险算法,通过反欺诈评分算法模型,对信贷申请人的欺诈风险特征进行画像分析评分,用数据评价的风控评级体系,将尽可能多的与金融信用相关性高的数据纳入风控评级指标体系,结合大数据的风控评级模型,减少人工对结果干预,将评级结果应用到那些授信额度较小、调查成本较高的各个金融领域。附图说明图1为本专利技术流程图。具体实施方式下面结合附图对本专利技术作进一步说明。根据图1所示的本专利技术一种基于通信运营商大数据的反欺诈风险算法,包括以下步骤:1)、从通信运营商手机信令数据底层变量中初筛出1000+表现力好的变量;2)、基于通信运营商底层变量,通过多变量组合加工成300+高维可解释衍生变量;3)、基于经授权的金融机构样本标签计算运营商1000+底层变量、300+高维可解释衍生变量WOE(WeightofEvidence)和IV(InformationValue)值;4)、考虑模型重要性指标和业务含义等因素采用递归特征消除RFE模块(RecursiveFeatureElimination)进行自动迭代特征筛选出100+显著变量拟合高维集成树Xgboost(eXtremeGradientBoosting极端梯度提升)模型;5)、通过交叉验证防止过拟合,选择最优模型参数;6)、结合评分卡模型,得到反欺诈评分;7)、反欺诈分用户可以设定合适的阈值,当申请进件的反欺诈分高于该阈值时,拒绝该申请。进一步,所述步骤1中基于通信运营商手机信令数据底层变量初筛出1000+表现力好的变量。进一步,所述步骤2中基于通信运营商底层变量通过多变量组合加工成高维可解释衍生变量,以保证变量的可解释性。进一步,所述步骤3中根据WOE值和IV值来评估步骤1、2的数据指标。进一步,所述步骤4中采用递归特征消除RFE模块进行自动迭代特征筛选获得的显著变量拟合高维集成树XGboost模型。进一步,所述步骤5中,通过交叉验证防止过拟合,选择最优模型参数;结合所述步骤6中的评分卡模型得到反欺诈评分,并通过合适阈值的设定,进行进件申请的审核。基于通信运营商底层变量,开发高维可解释衍生变量,在底层变量和高维可解释衍生变量中筛选显著变量,构建大宽表。通信运营商大数据具有海量、实时、多样化等特点,拥有3800+个用户标签,20万个互联网产品,5000亿+每日位置记录信息,4亿URL,14000+款APP,4600+手机品牌、11万+终端型号等信息。通过基于运营商海量手机信令数据的1000+不需要做处理的原始的运营商底层变量和基于前者的多个变量组合起来加工处理的300+高维可解释衍生变量,结合经授权的金融机构样本标签,通过WOE和IV计算,考虑模型重要性指标和业务含义等因素采用递归特征消除RFE模块进行自动迭代特征筛选得出对判断是否有风险非常有用的100+显著变量,构建大宽表。变量的WOE和IV,1)WOE的计算公式如下:pnon-event为好样本在该变量取值下的占比;pevent为坏样本在该变量取值下的占比;2)IV值的计算公式如下:其中m为变量分组个数。IV仅作为变量筛选的参考,因此选取IV值大于0.03的有较好表现能力的变量。<本文档来自技高网
...

【技术保护点】
1.一种基于通信运营商大数据的反欺诈风险算法,其特征在于:包括以下步骤:/n1)、从通信运营商手机信令数据底层变量中初筛出1000+表现力好的变量;/n2)、基于通信运营商底层变量,通过多变量组合加工成300+高维可解释衍生变量;/n3)、基于经授权的金融机构样本标签计算运营商1000+底层变量、300+/n高维可解释衍生变量WOE(Weight of Evidence)和IV(Information Value)值;/n4)、考虑模型重要性指标和业务含义等因素采用递归特征消除RFE模块(RecursiveFeature Elimination)进行自动迭代特征筛选出100+显著变量拟合高维集成树Xgboost(eXtreme Gradient Boosting极端梯度提升)模型;/n5)、通过交叉验证防止过拟合,选择最优模型参数;/n6)、结合评分卡模型,得到反欺诈评分;/n7)、反欺诈分用户可以设定合适的阈值,当申请进件的反欺诈分高于该阈值时,拒绝该申请。/n

【技术特征摘要】
1.一种基于通信运营商大数据的反欺诈风险算法,其特征在于:包括以下步骤:
1)、从通信运营商手机信令数据底层变量中初筛出1000+表现力好的变量;
2)、基于通信运营商底层变量,通过多变量组合加工成300+高维可解释衍生变量;
3)、基于经授权的金融机构样本标签计算运营商1000+底层变量、300+
高维可解释衍生变量WOE(WeightofEvidence)和IV(InformationValue)值;
4)、考虑模型重要性指标和业务含义等因素采用递归特征消除RFE模块(RecursiveFeatureElimination)进行自动迭代特征筛选出100+显著变量拟合高维集成树Xgboost(eXtremeGradientBoosting极端梯度提升)模型;
5)、通过交叉验证防止过拟合,选择最优模型参数;
6)、结合评分卡模型,得到反欺诈评分;
7)、反欺诈分用户可以设定合适的阈值,当申请进件的反欺诈分高于该阈值时,拒绝该申请。


2.根据权利要求...

【专利技术属性】
技术研发人员:郝晔朱益平李春陆琦
申请(专利权)人:苏州好懿春数据服务有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1