System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及风险评分,具体地说,涉及一种基于拒绝样本置信标签与知识蒸馏的信用评分方法及系统。
技术介绍
1、在银行信贷业务中,所有申请贷款业务的客户都会经过贷前风险审批,目前授信通过率大致10%~30%,其中10%+又是较为普遍的数字。因此大约80%的客户便失去了授信资格,也就没有借款机会。这些被授信拒绝的用户称为拒绝用户,也是模型中的拒绝样本。拒绝样本由于没有发生借贷行为,自然也没有其是否会违约的标签,而被接受的用户,银行则有其借款行为发生后最终是否按期还款的信息。
2、在风控模型迭代时,只能基于还款表现来定义样本的好坏,并组成建模样本。所以在建立模型时,通常只使用了有标签的样本,即接受用户。由于只使用了部分样本去估计总体,因此带来第一个问题——模型样本偏差,也被称作样本选择性偏差(selection bias)。由于存在“部分样本估计总体”的问题,对全量申请用户的风险估计就会不准确,通常会偏于乐观(风险概率预测偏低)。随着时间推移,训练的模型将越来越偏离实际情况,甚至通过了大量应该被拒绝的坏用户,致使出现大量坏账。为了降低坏账率,风控策略将进一步收紧,这又会导致放贷率难以提升,带来了第二个问题——样本损失,大量的贷款申请用户被银行拒之门外。于是,风控系统就陷入了恶性循环。
3、从样本层面而言,信贷机构在信用评估建模过程中面临着幸存者偏差问题。银行类金融机构在经营消费信贷资产时会受到监管条例的严格限制,以及考虑到自身的盈利目标,会在全量申请客户中有条件地选择部分客户予以准入,而只使用“接受样本”构建的
4、在模型层面上,信贷领域面临着模型复杂度和可解释性之间的权衡难题。传统的评分模型,如线性回归和逻辑回归,能够提供精确的计算结果,并直观地展示评分指标对结果的影响,因此具备较强的可解释性。然而,这些常规统计方法依赖于对潜在概率模型的假设,其计算精度相对较低。相比之下,xgboost模型和其他复杂机器学习方法无需假设数据分布,能够自动从训练样本中提取信息,在信用评分预测精度方面表现出更佳的性能,但由于缺乏可解释性,其应用受到多种制约。对于商业银行和其他金融机构而言,金融业务场景下的模型可解释性要求十分严格,这成为一大痛点。
技术实现思路
1、本专利技术的内容是提供一种基于拒绝样本置信标签与知识蒸馏的信用评分方法及系统,其能够较佳地进行信用风险评分。
2、根据本专利技术的基于拒绝样本置信标签与知识蒸馏的信用评分方法,其包括以下步骤:
3、一、建立基于深度特征和标签置信度联合估计的拒绝样本筛选与标签识别模型,引入拒绝样本,筛选出可信样本并修正其标签;
4、二、基于标签置信度生成复合软标签,引入知识蒸馏,建立基于标签置信度和知识蒸馏的信用评分模型,进行信用风险评分。
5、作为优选,步骤一中,基于深度特征和标签置信度联合估计的拒绝样本筛选与标签识别模型包括深度特征提取网络fe、深度特征拼接p、标签置信度估计模型ce、以及拒绝样本筛选模块;
6、拒绝样本筛选模块,能利用估计好的标签置信度判断每个样本是否保留到干净拒绝样本数据集内以及修正错误的标签;
7、深度特征提取网络fe,用拒绝样本筛选模块输出的干净拒绝样本集加入训练,并提取每个样本和每个类的深度特征;
8、标签置信度估计模型ce,能利用深度特征提取网络fe提取的样本深度特征和类深度特征估计每个样本的标签置信度。
9、作为优选,基于深度特征和标签置信度联合估计的拒绝样本筛选与标签识别模型的步骤为:
10、1)fe深度特征提取网络训练接受样本a;
11、2)fe深度特征提取网络预测拒绝样本r;
12、3)接受样本、拒绝样本进行深度特征拼接,得到a’、r’;
13、4)ce置信度估计模型训练拼接后的接受样本a’;
14、5)ce置信度估计模型预测拼接后的拒绝样本r’;
15、6)根据置信度分布确定划分阈值s1、s2,将拒绝样本r划分为r1、r2、r3子集,并对r2进行标签修正;
16、7)利用划分与修正后的拒绝样本子集对fe、ce进行交替迭代训练,直到拒绝样本子集r1、r2、r3内样本稳定;
17、8)得到最终的拒绝样本可信集r~(r1+r2),与接受样本集合并,成为新样本集。
18、作为优选,深度特征提取网络fe是多个全连接层构成的多层感知机mlp分类器,包括输入层、输出层、隐藏层,激活函数为relu,网络输入训练样本特征,在经过三层全接连神经网络后输出违约预测概率为最后结果;
19、深度特征提取网络fe的损失函数l如下所示:
20、
21、
22、其中i为样本序号;c为类别序号,m为类别数量,n为样本数,yi为样本i的类别标签;pi,c为深度特征提取网络预测的概率分布,即样本i预测为类c的概率,其计算方式如下所示:
23、
24、ai,c=f(xi)
25、其中xi为样本i,f(·)代表深度特征提取网络。
26、作为优选,深度特征拼接p包含类平均深度特征计算、样本特征拼接、对应置信标签构造三个步骤;
27、类平均深度特征计算中,将深度特征提取网络倒数第二层的输出作为深度特征;将类内所有样本的个体特征ai′的平均值作为该类的平均深度特征a′c,记0类为a′c0,1类为a′c1;公式如下:
28、xi∈a
29、
30、其中,a为接受样本,a′为a经过深度特征提取网络后倒数第二层的输出,nc为某类的样本数量;
31、样本特征拼接包括接受样本深度特征拼接和拒绝样本深度特征拼接;
32、接受样本深度特征拼接与置信标签构造中,将其个体深度特征ai′分别与a′c0、a′c1进行拼接,得到a′i,′c,公示如下:
33、
34、a′i,′c为拼接后的接受样本,数目为a的两倍;接受样本置信标签构造中,令a中样本的原始标签置信度为1,相反标签的置信度为0,即个体特征ai′拼接a′cyi作为标签置信度网络输入时,置信度为1,拼接与a′cyi相反类的深度特征时,置信度为0,以此构造置信度网络的训练集,公示如下:
35、
36、si,c为构造得到的接受样本置信标签;
37、拒绝样本深度特征拼本文档来自技高网...
【技术保护点】
1.基于拒绝样本置信标签与知识蒸馏的信用评分方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的基于拒绝样本置信标签与知识蒸馏的信用评分方法,其特征在于:步骤一中,基于深度特征和标签置信度联合估计的拒绝样本筛选与标签识别模型包括深度特征提取网络FE、深度特征拼接P、标签置信度估计模型CE、以及拒绝样本筛选模块;
3.根据权利要求2所述的基于拒绝样本置信标签与知识蒸馏的信用评分方法,其特征在于:基于深度特征和标签置信度联合估计的拒绝样本筛选与标签识别模型的步骤为:
4.根据权利要求3所述的基于拒绝样本置信标签与知识蒸馏的信用评分方法,其特征在于:深度特征提取网络FE是多个全连接层构成的多层感知机MLP分类器,包括输入层、输出层、隐藏层,激活函数为ReLU,网络输入训练样本特征,在经过三层全接连神经网络后输出违约预测概率为最后结果;
5.根据权利要求4所述的基于拒绝样本置信标签与知识蒸馏的信用评分方法,其特征在于:深度特征拼接P包含类平均深度特征计算、样本特征拼接、对应置信标签构造三个步骤;
6.根据权利要求5所述的基
7.根据权利要求6所述的基于拒绝样本置信标签与知识蒸馏的信用评分方法,其特征在于:拒绝样本筛选模块中,包括以下步骤:
8.根据权利要求7所述的基于拒绝样本置信标签与知识蒸馏的信用评分方法,其特征在于:基于标签置信度和知识蒸馏的信用评分模型中,知识蒸馏为老师学生型蒸馏,教师模型有两个,分别是违约概率预测模型与置信度估计模型,学生模型为逻辑回归;
9.根据权利要求8所述的基于拒绝样本置信标签与知识蒸馏的信用评分方法,其特征在于:知识蒸馏的损失函数如下:
10.基于拒绝样本置信标签与知识蒸馏的信用评分系统,其特征在于:其采用如权利要求1-9中任一所述的基于拒绝样本置信标签与知识蒸馏的信用评分方法。
...【技术特征摘要】
1.基于拒绝样本置信标签与知识蒸馏的信用评分方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的基于拒绝样本置信标签与知识蒸馏的信用评分方法,其特征在于:步骤一中,基于深度特征和标签置信度联合估计的拒绝样本筛选与标签识别模型包括深度特征提取网络fe、深度特征拼接p、标签置信度估计模型ce、以及拒绝样本筛选模块;
3.根据权利要求2所述的基于拒绝样本置信标签与知识蒸馏的信用评分方法,其特征在于:基于深度特征和标签置信度联合估计的拒绝样本筛选与标签识别模型的步骤为:
4.根据权利要求3所述的基于拒绝样本置信标签与知识蒸馏的信用评分方法,其特征在于:深度特征提取网络fe是多个全连接层构成的多层感知机mlp分类器,包括输入层、输出层、隐藏层,激活函数为relu,网络输入训练样本特征,在经过三层全接连神经网络后输出违约预测概率为最后结果;
5.根据权利要求4所述的基于拒绝样本置信标签与知识蒸馏的信用评分方法,其特征在于:深度特征拼接p包含类平均深度特征计算、样...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。