System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及信贷金融领域,具体涉及一种基于违约概率分布估计的样本信息量度量方法及装置。
技术介绍
1、在信贷金融领域,机器学习模型已被广泛用于判断和决策。这些机器学习模型的决策成本往往很高,模型的误判可能会带来资金的损失。而受限于样本数据、特征信息、学习算法等因素,机器学习模型大都存在误判,通常用auc、ks等指标来量化机器学习模型在测试样本上的整体性能,模型性能越好误判率越低,通过模型性能指标来评估模型是否可以用于决策。auc、ks这类指标只能评估模型在测试样本上的整体平均性能,无法对单个样本出现误判的可能性进行预测。
技术实现思路
1、为了解决上述现有技术中存在的问题,本专利技术拟提供了一种基于违约概率分布估计的样本信息量度量方法及装置,拟解决现有金融风险预测模型无法对单个样本出现误判的可能性进行预测的问题。
2、一种基于违约概率分布估计的样本信息量度量方法,包括以下步骤:
3、步骤1:收集数据并处理得到数据集d1;
4、步骤2:将处理后的数据制作为数据集并提供数据集训练获得最佳违约模型,所述数据集包括训练集和测试集;
5、步骤3:制作缺失模拟样本并通过最佳违约模型预测得到相应预测结果;
6、步骤4:利用步骤3得到的预测结果计算信息量指标判断模型预测结果的可靠度。
7、优选的,所述步骤1包括:在申请贷款的客户中选取一部分客户作为建模样本,使用客户申请时的征信信息作为数据特征包括还款次数、逾期次数,根据数据
8、对数据集d0进行清洗和预处理,所述预处理包括进线编码、分箱、截断、标准化、归一化,得到数据集d1。
9、优选的,所述步骤2包括:对数据集d1按好坏标签进行抽样,划分训练集和测试集,得到训练集d2train和测试集d2test;选取模型训练算法在d2train上进行多轮训练,得到多个候选模型,将d2test分别输入多个候选模型得到相应预测结果,根据预测结果评估模型性能和稳健性,选取效果最好的模型版本输出,得到最佳违约模型。
10、优选的,所述步骤3包括:
11、步骤3.1:在测试集中随机抽取一定比例的数据样本,同时在抽取的样本上随机抽取60%的特征置为缺失值,将置有缺失值的样本作为缺失模拟样本集;
12、步骤3.2:将缺失模拟样本输入到最佳违约模型中得到相应预测结果并保存;
13、步骤3.3:使用不同的随机种子,将步骤3.1和步骤3.2重复n次,得到n组缺失模拟样本的模拟预测结果,其中n>1000;使用得到的模拟预测结果作为最佳违约模型结果的概率分布采样,计算出均值和标准差σ,假定模型预测结果x服从正态分布,模型结果的分布密度函数为:
14、
15、优选的,所述步骤4包括:利用步骤3中得到的模拟预测结果,计算预测结果的峰度kurt:
16、
17、其中,e表示数学期望,x表示预测结果,μ为样本均值,σ为样本标准差。
18、优选的,所述步骤4包括:使用峰度的相反数作为信息量度量指标,衡量模型在该样本上预测结果的信息量,该指标越大,该样本信息量越大,模型结果越可靠,反之亦然。
19、一种基于违约概率分布估计的样本信息量度量装置,包括以下模块:
20、模型训练模块包括数据集准备子模块、模型训练子模块和模型评估子模块;用于根据收集的样本数据结合机器学习算法对构建的模型进行训练以得到最佳违约模型;
21、概率分布估计模块包括特征缺失模拟子模块、模型结果预测子模块和概率分布估计子模块,用于获取缺失模拟样本输入最佳违约模型时的模拟预测结果概率分布;
22、信息量计算模块用于基于概率分布估计模块输出的模拟预测结果计算峰度,并根据峰度的相反数判断模型的可靠度。
23、优选的,所述数据集准备子模块,用于将收集处理后的样本数据集按客户标签抽样划分为训练集和测试集;
24、所述模型训练子模块,用于利用训练集结合机器学习方法对模型进行多轮训练得到多个候选模型;
25、所述模型评估子模块,用于利用测试集对多个违约模型进行测试,根据测试结果评估多个候选模型的预测效果以选择最佳违约模型。
26、优选的,所述缺失模拟子模块用于制作缺失模拟样本;
27、所述模型结果预测子模块用于使用最佳违约模型对缺失模拟样本进行预测得到预测结果并保存;
28、所述概率分布估计子模块收集多组模型结果预测子模块输出的预测结果并从中获取预测结果的概率分布采样。
29、本专利技术的有益效果包括:
30、利用本专利技术构造的指标可以衡量违约模型样本的信息量,从而评估违约模型预测结果的可靠度,风险政策人员基于该指标指导来决定模型在策略中使用的程度,明确模型的长板和短板,提升模型应用效率;例如,对于信息量较高的客户样本,基于该样本的违约模型预测结果可靠性更高,可在政策中加大模型使用权重,对于信息量较低的样本,基于该样本的违约模型预测会失效,在策略中需要谨慎应用,可显著降低银行的信贷资金损失,有效控制模型风险。
本文档来自技高网...【技术保护点】
1.一种基于违约概率分布估计的样本信息量度量方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于违约概率分布估计的样本信息量度量方法,其特征在于,所述步骤1包括:在申请贷款的客户中选取一部分客户作为建模样本,使用客户申请时的征信信息作为数据特征包括还款次数、逾期次数,根据数据特征定义好坏标签得到数据集D0;
3.根据权利要求1所述的一种基于违约概率分布估计的样本信息量度量方法,其特征在于,所述步骤2包括:对数据集D1按好坏标签进行抽样,划分训练集和测试集,得到训练集D2train和测试集D2test;选取模型训练算法在D2train上进行多轮训练,得到多个候选模型,将D2test分别输入多个候选模型得到相应预测结果,根据预测结果评估模型性能和稳健性,选取效果最好的模型版本输出,得到最佳违约模型。
4.根据权利要求1所述的一种基于违约概率分布估计的样本信息量度量方法,其特征在于,所述步骤3包括:
5.根据权利要求1所述的一种基于违约概率分布估计的样本信息量度量方法,其特征在于,所述步骤4包括:利用步骤3中得到的模拟预测结
6.根据权利要求5所述的一种基于违约概率分布估计的样本信息量度量方法,其特征在于,所述步骤4包括:使用峰度的相反数作为信息量度量指标,衡量模型在该样本上预测结果的信息量,该指标越大,该样本信息量越大,模型结果越可靠,反之亦然。
7.一种基于违约概率分布估计的样本信息量度量装置,其特征在于,包括以下模块:
8.根据权利要求7所述的一种基于违约概率分布估计的样本信息量度量装置,其特征在于,所述数据集准备子模块,用于将收集处理后的样本数据集按客户标签抽样划分为训练集和测试集;
9.根据权利要求7所述的一种基于违约概率分布估计的样本信息量度量装置,其特征在于,
...【技术特征摘要】
1.一种基于违约概率分布估计的样本信息量度量方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于违约概率分布估计的样本信息量度量方法,其特征在于,所述步骤1包括:在申请贷款的客户中选取一部分客户作为建模样本,使用客户申请时的征信信息作为数据特征包括还款次数、逾期次数,根据数据特征定义好坏标签得到数据集d0;
3.根据权利要求1所述的一种基于违约概率分布估计的样本信息量度量方法,其特征在于,所述步骤2包括:对数据集d1按好坏标签进行抽样,划分训练集和测试集,得到训练集d2train和测试集d2test;选取模型训练算法在d2train上进行多轮训练,得到多个候选模型,将d2test分别输入多个候选模型得到相应预测结果,根据预测结果评估模型性能和稳健性,选取效果最好的模型版本输出,得到最佳违约模型。
4.根据权利要求1所述的一种基于违约概率分布估计的样本信息量度...
【专利技术属性】
技术研发人员:杨晓东,
申请(专利权)人:四川新网银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。