【技术实现步骤摘要】
一种证据权重风险编码方法及装置
[0001]本专利技术涉及计算机
,尤其涉及一种证据权重风险编码方法及装置。
技术介绍
[0002]随着计算机技术的发展,机器学习与金融行业结合越来越紧密。信贷风控中常用评分卡模型度量客户的信用风险,其中,量化评分卡模型的一个核心处理方法是证据权重(weight of evidence,WOE)风险编码。
[0003]目前,在小微信贷业务中,单家授信机构难以获取海量业务数据供量化模型开发,样本量不足会导致WOE风险编码值与实际业务理解风险值偏差过大,使得分析风险趋势的可信度差。
技术实现思路
[0004]本申请实施例提供一种证据权重风险编码方法及装置,解决样本量不足导致WOE风险编码值与实际业务理解风险值偏差过大问题,提高风险趋势的可信度。
[0005]第一方面,本申请实施例提供了一种证据权重风险编码方法,包括:采用N组第一特征数据与一次多项式回归模型确定N组第一WOE编码值,采用N组第一特征数据与二次多项式回归模型确定第二WOE编码值,根据N组第一特征数据对应的第一WOE编码值和N组第一特征数据中的原始WOE编码值计算得到第一拟合优度(goodness of fit)值,根据N组第一特征数据对应的第二WOE编码值和N组第一特征数据中的原始WOE编码值计算得到第二拟合优度值;根据第一拟合优度值和第二拟合优度值,对每组第一特征数据对应的第一WOE编码值和第二WOE编码值进行加权处理得到第三WOE编码值,第三WOE编码值用于分析风险趋势。通过引入多项式 ...
【技术保护点】
【技术特征摘要】
1.一种证据权重风险编码方法,其特征在于,包括:获取待编码的原始特征数据,所述原始特征数据是用户税务相关数据;对所述原始特征数据进行数据处理,得到N组第一特征数据,所述N组第一特征数据中的每组第一特征数据包括分箱序号、原始WOE编码值和样本占比,所述N为大于0的整数;基于所述N组第一特征数据,训练得到一次多项式回归模型和二次多项式回归模型;根据所述每组第一特征数据中的分箱序号和所述一次多项式回归模型确定所述每组第一特征数据对应的第一WOE编码值,得到所述N组第一特征数据对应的第一WOE编码值,根据所述每组第一特征数据中的分箱序号和所述二次多项式回归模型确定所述每组第一特征数据对应的第二WOE编码值,得到所述N组第一特征数据对应的第二WOE编码值;根据所述N组第一特征数据对应的第一WOE编码值和所述N组第一特征数据中的原始WOE编码值计算得到第一拟合优度值,根据所述N组第一特征数据对应的第二WOE编码值和所述N组第一特征数据中的原始WOE编码值计算得到第二拟合优度值;根据所述第一拟合优度值和所述第二拟合优度值,对所述每组第一特征数据对应的第一WOE编码值和所述第二WOE编码值进行加权处理得到第三WOE编码值,所述第三WOE编码值用于分析风险趋势。2.根据权利要求1所述的方法,其特征在于,所述对所述每组第一特征数据对应的第一WOE编码值和所述第二WOE编码值进行加权处理得到第三WOE编码值,包括:将所述第一拟合优度值乘以所述每组第一特征数据对应的第一WOE编码值,得到所述每组第一特征数据对应的第一乘积,将所述第二拟合优度值乘以所述每组第一特征数据对应的第二WOE编码值,得到所述每组第一特征数据对应的第二乘积;确定所述第一拟合优度值和所述第二拟合优度值之和;根据所述每组第一特征数据对应的第一乘积、所述每组第一特征数据对应的第二乘积、以及所述第一拟合优度值和所述第二拟合优度值之和,确定所述每组第一特征数据对应的第三WOE编码值。3.根据权利要求2所述的方法,其特征在于,其中,所述Y
1,i
表示所述N组第一特征数据中第i组第一特征数据对应的第一WOE编码值,所述Y
2,i
表示所述N组第一特征数据中第i组第一特征数据对应的第二WOE编码值,所述Y
3,i
表示所述N组第一特征数据中第i组第一特征数据对应的第三WOE编码值,所述R
12
表示所述第一拟合优度值,所述R
22
表示所述第二拟合优度值,所述i表示大于0小于等于N的整数。4.根据权利要求1至3任一项所述的方法,其特征在于,所述根据所述N组第一特征数据对应的第一WOE编码值和所述N组第一特征数据中的原始WOE编码值计算得到第一拟合优度值,根据所述N组第一特征数据对应的第二WOE编码值和所述N组第一特征数据中的原始WOE编码值计算得到第二拟合优度值,包括:根据所述N组第一特征数据对应的原始WOE编码值,确定所述原始WOE编码值的平均值;根据所述平均值,所述N组第一特征数据对应的第一WOE编码值和所述N组第一特征数据中的原始WOE编码值,确定所述第一拟合优度值;以及根据所述平均值,所述N组第一特征数据对应的第二WOE编码值和所述N组第一特征数据中的原始WOE编码值,确定所述第二拟
合优度值。5.根据权利要求4所述的方法,其特征在于,所述第一拟合优度值R
12
满足:所述第二拟合优度值R
22
满足:其中,所述R
12
表示所述第一拟合优度值,所述R
22
表示所述第二拟合优度值,所述Y
0,i
表示所述N组第一特征数据中第i组第一特征数据对应的原始WOE编码值,所述表示所述原始WOE编码值的平均值,所述Y
1,i
表示所述N组第一特征数据中第i组第一特征数据对应的第一WOE编码值,所述Y
2,i
表示所述N组第一特征数据中第i组第一特征数据对应的第二WOE编码值,所述i表示大于0小于等于N的整数。6.根据权利要求1所述的方法,其特征在于,所述对所述原始特征数据进行数据处理,得到N组第一特征数据,包括:对所述原始特征数据进行分箱处理,得到M组第二特征数据,所述第二特征数据包括分箱序号和分箱区间,所述M为大于等于N的整数;对所述M组第二特征数据中的每组分箱序号和分箱区间进行WOE风险编码处理,确定所述每组第二特征数据对应的原始WOE编码值和样本占比,得到M组第一特征数据,所述每组第一特征数据还包括所述分箱区间;从所述M组第一特征数据选取所述N组第一特征数据。7.根据权利要求6所述的方法,其特征在于,所述从所述M组第一特征数据选取所述N组第一特征数据,包括:确定所述M组第一特征数据中的每组第一特征数据中的分箱区间是否包含目标特征数据;若所述M组第一特征数据中的第K...
【专利技术属性】
技术研发人员:卢智东,赵彦晖,耿心伟,曾源,
申请(专利权)人:深圳微众信用科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。