一种证据权重风险编码方法及装置制造方法及图纸

技术编号:35747598 阅读:16 留言:0更新日期:2022-11-26 18:52
本申请实施例公开了一种证据权重风险编码方法及装置。包括:获取待编码的原始特征数据;对原始特征数据进行数据处理,得到N组第一特征数据;基于N组第一特征数据,训练得到一次多项式回归模型和二次多项式回归模型;N组第一特征数据分别和一次多项式回归模型、二次多项式回归模型确定N组第一WOE编码值和N组第二WOE编码值;N组第一特征数据分别和N组第一WOE编码值、N组第二WOE编码值确定第一拟合优度值和第二拟合优度值,对N组第一WOE编码值和N组第二WOE编码值进行加权处理得到N组第三WOE编码值,用于分析风险趋势。采用本申请实施例,能够解决样本量不足导致的偏差问题,提高风险趋势的可信度。势的可信度。势的可信度。

【技术实现步骤摘要】
一种证据权重风险编码方法及装置


[0001]本专利技术涉及计算机
,尤其涉及一种证据权重风险编码方法及装置。

技术介绍

[0002]随着计算机技术的发展,机器学习与金融行业结合越来越紧密。信贷风控中常用评分卡模型度量客户的信用风险,其中,量化评分卡模型的一个核心处理方法是证据权重(weight of evidence,WOE)风险编码。
[0003]目前,在小微信贷业务中,单家授信机构难以获取海量业务数据供量化模型开发,样本量不足会导致WOE风险编码值与实际业务理解风险值偏差过大,使得分析风险趋势的可信度差。

技术实现思路

[0004]本申请实施例提供一种证据权重风险编码方法及装置,解决样本量不足导致WOE风险编码值与实际业务理解风险值偏差过大问题,提高风险趋势的可信度。
[0005]第一方面,本申请实施例提供了一种证据权重风险编码方法,包括:采用N组第一特征数据与一次多项式回归模型确定N组第一WOE编码值,采用N组第一特征数据与二次多项式回归模型确定第二WOE编码值,根据N组第一特征数据对应的第一WOE编码值和N组第一特征数据中的原始WOE编码值计算得到第一拟合优度(goodness of fit)值,根据N组第一特征数据对应的第二WOE编码值和N组第一特征数据中的原始WOE编码值计算得到第二拟合优度值;根据第一拟合优度值和第二拟合优度值,对每组第一特征数据对应的第一WOE编码值和第二WOE编码值进行加权处理得到第三WOE编码值,第三WOE编码值用于分析风险趋势。通过引入多项式回归模型和加权处理的方式,对N组第一特征数据中的原始WOE编码值进行优化得到第三WOE编码值,通过第三WOE编码值进行风险趋势分析,提高风险趋势的可信度。
[0006]在一种可能的设计中,对每组第一特征数据对应的第一WOE编码值和第二WOE编码值进行加权处理得到第三WOE编码值。将第一拟合优度值乘以每组第一特征数据对应的第一WOE编码值,得到每组第一特征数据对应的第一乘积,将第二拟合优度值乘以每组第一特征数据对应的第二WOE编码值,得到每组第一特征数据对应的第二乘积;确定第一拟合优度值和第二拟合优度值之和;根据每组第一特征数据对应的第一乘积、每组第一特征数据对应的第二乘积、以及第一拟合优度值和第二拟合优度值之和,确定每组第一特征数据对应的第三WOE编码值。通过加权处理,可以解决由于样本量不足导致的偏差问题,定量判断指标的风险趋势方向,提高分析风险趋势的可信度。
[0007]在另一种可能的设计中,根据第一拟合优度值和第二拟合优度值,对每组第一特征数据对应的第一WOE编码值和第二WOE编码值进行加权处理得到第三WOE编码值。计算公式如下:
[0008][0009]其中,Y
1,i
表示N组第一特征数据中第i组第一特征数据对应的第一WOE编码值,Y
2,i
表示N组第一特征数据中第i组第一特征数据对应的第二WOE编码值,Y
3,i
表示N组第一特征数据中第i组第一特征数据对应的第三WOE编码值,R
12
表示第一拟合优度值,R
22
表示第二拟合优度值,i表示大于0小于等于N的整数。
[0010]在另一种可能的设计中,根据N组第一特征数据对应的原始WOE编码值,确定原始WOE编码值的平均值;根据平均值,N组第一特征数据对应的第一WOE编码值和N组第一特征数据中的原始WOE编码值,确定第一拟合优度值;以及根据平均值,N组第一特征数据对应的第二WOE编码值和N组第一特征数据中的原始WOE编码值,确定第二拟合优度值。通过计算拟合优度值,衡量多项式回归模型的预期值与实际值的差距,可以快速判断指标是否存在风险趋势,更加有效地形成风险趋势。
[0011]在另一种可能的设计中,第一拟合优度值R
12
满足:
[0012][0013]第二拟合优度值R
22
满足:
[0014][0015]其中,R
12
表示第一拟合优度值,R
22
表示第二拟合优度值,Y
0,i
表示N组第一特征数据中第i组第一特征数据对应的原始WOE编码值,表示原始WOE编码值的平均值,Y
1,i
表示N组第一特征数据中第i组第一特征数据对应的第一WOE编码值,Y
2,i
表示N组第一特征数据中第i组第一特征数据对应的第二WOE编码值,i表示大于0小于等于N的整数。
[0016]在另一种可能的设计中,对原始特征数据进行分箱处理,得到M组第二特征数据,第二特征数据包括分箱序号和分箱区间,M为大于等于N的整数;对M组第二特征数据中的每组分箱序号和分箱区间进行WOE风险编码处理,确定每组第二特征数据对应的原始WOE编码值和样本占比,得到M组第一特征数据,每组第一特征数据还包括分箱区间;从M组第一特征数据选取N组第一特征数据。通过分箱处理,可以增强鲁棒性,避免过拟合,通过WOE风险编码处理,可以提高业务解释性,消除异常值的影响。
[0017]在另一种可能的设计中,从M组第一特征数据选取N组第一特征数据。确定M组第一特征数据中的每组第一特征数据中的分箱区间是否包含目标特征数据;若M组第一特征数据中的第K组第一特征数据中的分箱区间包含目标特征数据,则将第K组第一特征数据作为N组第一特征数据中的一组第一特征数据,K为大于0小于等于M的整数。通过对M组第一特征数据进行筛选,如果M组第一特征数据中的第K组第一特征数据中的分箱区间包含目标特征数据,则第K组第一特征数据用于训练多项式回归模型和加权处理,如果不包含,则不用于训练多项式回归模型和加权处理。
[0018]第二方面,本申请实施例提供了一种证据权重风险编码装置,包括:
[0019]获取模块,用于获取待编码的原始特征数据,原始特征数据是用户税务相关数据。
[0020]处理模块,用于对原始特征数据进行数据处理,得到N组第一特征数据,N组第一特征数据中的每组第一特征数据包括分箱序号、原始WOE编码值和样本占比,N为大于0的整数。
[0021]所述处理模块,还用于基于N组第一特征数据,训练得到一次多项式回归模型和二
次多项式回归模型。
[0022]所述处理模块,还用于根据每组第一特征数据中的分箱序号和一次多项式回归模型确定每组第一特征数据对应的第一WOE编码值,得到N组第一特征数据对应的第一WOE编码值,根据每组第一特征数据中的分箱序号和二次多项式回归模型确定每组第一特征数据对应的第二WOE编码值,得到N组第一特征数据对应的第二WOE编码值。
[0023]所述处理模块,还用于根据N组第一特征数据对应的第一WOE编码值和N组第一特征数据中的原始WOE编码值计算得到第一拟合优度值,根据N组第一特征数据对应的第二WOE编码值和N组第一特征数据中的原始WOE编码值计算得到第二拟合优度值。
[0024]所述处理模块,还用于根据第一拟合优度值和第二拟合优本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种证据权重风险编码方法,其特征在于,包括:获取待编码的原始特征数据,所述原始特征数据是用户税务相关数据;对所述原始特征数据进行数据处理,得到N组第一特征数据,所述N组第一特征数据中的每组第一特征数据包括分箱序号、原始WOE编码值和样本占比,所述N为大于0的整数;基于所述N组第一特征数据,训练得到一次多项式回归模型和二次多项式回归模型;根据所述每组第一特征数据中的分箱序号和所述一次多项式回归模型确定所述每组第一特征数据对应的第一WOE编码值,得到所述N组第一特征数据对应的第一WOE编码值,根据所述每组第一特征数据中的分箱序号和所述二次多项式回归模型确定所述每组第一特征数据对应的第二WOE编码值,得到所述N组第一特征数据对应的第二WOE编码值;根据所述N组第一特征数据对应的第一WOE编码值和所述N组第一特征数据中的原始WOE编码值计算得到第一拟合优度值,根据所述N组第一特征数据对应的第二WOE编码值和所述N组第一特征数据中的原始WOE编码值计算得到第二拟合优度值;根据所述第一拟合优度值和所述第二拟合优度值,对所述每组第一特征数据对应的第一WOE编码值和所述第二WOE编码值进行加权处理得到第三WOE编码值,所述第三WOE编码值用于分析风险趋势。2.根据权利要求1所述的方法,其特征在于,所述对所述每组第一特征数据对应的第一WOE编码值和所述第二WOE编码值进行加权处理得到第三WOE编码值,包括:将所述第一拟合优度值乘以所述每组第一特征数据对应的第一WOE编码值,得到所述每组第一特征数据对应的第一乘积,将所述第二拟合优度值乘以所述每组第一特征数据对应的第二WOE编码值,得到所述每组第一特征数据对应的第二乘积;确定所述第一拟合优度值和所述第二拟合优度值之和;根据所述每组第一特征数据对应的第一乘积、所述每组第一特征数据对应的第二乘积、以及所述第一拟合优度值和所述第二拟合优度值之和,确定所述每组第一特征数据对应的第三WOE编码值。3.根据权利要求2所述的方法,其特征在于,其中,所述Y
1,i
表示所述N组第一特征数据中第i组第一特征数据对应的第一WOE编码值,所述Y
2,i
表示所述N组第一特征数据中第i组第一特征数据对应的第二WOE编码值,所述Y
3,i
表示所述N组第一特征数据中第i组第一特征数据对应的第三WOE编码值,所述R
12
表示所述第一拟合优度值,所述R
22
表示所述第二拟合优度值,所述i表示大于0小于等于N的整数。4.根据权利要求1至3任一项所述的方法,其特征在于,所述根据所述N组第一特征数据对应的第一WOE编码值和所述N组第一特征数据中的原始WOE编码值计算得到第一拟合优度值,根据所述N组第一特征数据对应的第二WOE编码值和所述N组第一特征数据中的原始WOE编码值计算得到第二拟合优度值,包括:根据所述N组第一特征数据对应的原始WOE编码值,确定所述原始WOE编码值的平均值;根据所述平均值,所述N组第一特征数据对应的第一WOE编码值和所述N组第一特征数据中的原始WOE编码值,确定所述第一拟合优度值;以及根据所述平均值,所述N组第一特征数据对应的第二WOE编码值和所述N组第一特征数据中的原始WOE编码值,确定所述第二拟
合优度值。5.根据权利要求4所述的方法,其特征在于,所述第一拟合优度值R
12
满足:所述第二拟合优度值R
22
满足:其中,所述R
12
表示所述第一拟合优度值,所述R
22
表示所述第二拟合优度值,所述Y
0,i
表示所述N组第一特征数据中第i组第一特征数据对应的原始WOE编码值,所述表示所述原始WOE编码值的平均值,所述Y
1,i
表示所述N组第一特征数据中第i组第一特征数据对应的第一WOE编码值,所述Y
2,i
表示所述N组第一特征数据中第i组第一特征数据对应的第二WOE编码值,所述i表示大于0小于等于N的整数。6.根据权利要求1所述的方法,其特征在于,所述对所述原始特征数据进行数据处理,得到N组第一特征数据,包括:对所述原始特征数据进行分箱处理,得到M组第二特征数据,所述第二特征数据包括分箱序号和分箱区间,所述M为大于等于N的整数;对所述M组第二特征数据中的每组分箱序号和分箱区间进行WOE风险编码处理,确定所述每组第二特征数据对应的原始WOE编码值和样本占比,得到M组第一特征数据,所述每组第一特征数据还包括所述分箱区间;从所述M组第一特征数据选取所述N组第一特征数据。7.根据权利要求6所述的方法,其特征在于,所述从所述M组第一特征数据选取所述N组第一特征数据,包括:确定所述M组第一特征数据中的每组第一特征数据中的分箱区间是否包含目标特征数据;若所述M组第一特征数据中的第K...

【专利技术属性】
技术研发人员:卢智东赵彦晖耿心伟曾源
申请(专利权)人:深圳微众信用科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1