一种基于快速构建邻域覆盖的个人信用风险评估方法技术

技术编号:27193689 阅读:33 留言:0更新日期:2021-01-31 11:42
本发明专利技术属于计算机科学与技术领域,具体涉及一种基于快速构建邻域覆盖的个人信用风险评估方法,该方法包括:获取贷款人的个人信息数据,对该信息数据进行预处理;采用K

【技术实现步骤摘要】
一种基于快速构建邻域覆盖的个人信用风险评估方法


[0001]本专利技术属于计算机科学与
,具体涉及一种基于快速构建邻域覆盖的个人信用风险评估方法。

技术介绍

[0002]随着信贷产业不断的发展,信贷数据量呈现爆炸式的增长,仅通过专业人员对贷款人的个人属性确定贷款人的信用好坏,不但会大量消耗人力物力,同时效率低下,甚至无法完成对贷款人评估。其次,贷款人的信息属性不仅多样化,而且属性之间往往具有一定的关联性。而粗糙集理论等数据挖掘方法可应用于个人信用风险评估中,能快速有效挖掘出贷款人的信息属性的关联性,达到较好的个人信用风险评估效果。
[0003]粗糙集是由Pawlak教授于1982提出的一种处理不精确、不一致、不完全信息和知识的重要数学工具,已经被广泛应用于机器学习、知识发现、数据挖掘、决策支持与分析等邻域。但是Pawlak粗糙集只适用于处理离散型数据,而天津大学胡清华教授提出了基于邻域粒化的邻域粗糙集模型,实际上,邻域粗糙集提供了一种构造数据空间的近似方法。从拓扑学的角度,证明了邻域空间比数据空间的概念更一般化,这表明将原始数据空间转化为邻域空间有助于数据的泛化。
[0004]现有技术中对个人信用风险评估的方法中包括5C要素分析法、财务比率综合分析法、多变量信用风险判别模型等等;例如多变量信用风险判别模型是以特征财务比率为解释变量,运用数量统计方法推导建立的标准模型。运用此模型预测某种性质事件发生的可能性,及时发现信用危机信号,使用户能及早的预防。但是上述方法中,需要大量的数据对模型进行训练,且由于训练的数据存在重叠,使得对模型的训练时间较长,消耗的能耗较多,训练得到的结果准确度低;因此,急需一种能提高检测效率的个人信用风险评估方法。

技术实现思路

[0005]为解决以上现有技术存在的问题,本专利技术提出了一种基于快速构建邻域覆盖的个人信用风险评估方法,该方法包括:获取贷款人的个人信息数据,将该信息数据输入到训练好的个人信用风险评估模型中进行风险评估,根据风险评估结果确定是否对贷款人进行贷款;
[0006]对个人信用风险评估模型进行训练的过程包括:
[0007]S1:获取贷款人的原始个人信息数据,将原始个人信息数据转化为决策信息表;
[0008]S2:对决策信息表中的数据进行预处理;
[0009]S3:采用K-means聚类算法对预处理后的数据进行聚类,构建邻域覆盖序列;
[0010]S4:计算邻域覆盖序列中的邻域中心局部密度和相对距离;根据邻域中心的局部密度和相对距离对邻域进行排序;
[0011]S5:对排序后的邻域进行选择,并对选择的邻域进行风险评估预测,得到预测结果。
[0012]优选的,获取贷款人的个人信息数据包括账户状况、信贷历史、贷款金额、资产情况、住房情况、本银行信贷次数以及家庭成员收入情况。
[0013]优选的,对决策信息表中的数据进行预处理的过程包括:采用当前数据属性均值对缺失的数据进行数据填充处理,将填充后的数据信息进行归一化处理。
[0014]优选的,构建邻域覆盖序列的过程包括:
[0015]S31:确定K个初始聚类中心;
[0016]S32:根据初始聚类中心和K-means算法对样本数据进行聚类,得到K个类簇;
[0017]S33:对得到的所有类簇进行初始化;计算所有的样本数据到初始聚类中心的距离;
[0018]S34:根据计算的距离找到距离样本最近的聚类中心,并根据该聚类中心更新类簇;
[0019]S35:根据更新后的类簇重新计算聚类中心,若计算后K个聚类中心不变,则输出K个类簇和聚类中心集合,否则返回步骤S33;
[0020]S36:根据K个类簇和聚类中心集合计算聚类中心对应的邻域半径,根据邻域半径构建邻域。
[0021]进一步的,重新计算聚类中心的公式为:
[0022][0023]进一步的,邻域的公式为:
[0024]O(v
i
)={x
j
∈cl
i
|Δ(x
j
,v
i
)≤r(v
i
)}
[0025]优选的,邻域中心v
i
的局部密度为:
[0026]ρ
i
=|O(v
i
)|
[0027]邻域中心v
i
的相对距离为:
[0028]δ
i
=min{Δ(v
i
,v
j
)|ρ
j
>ρ
i
,O(v
j
)∈O}
[0029]优选的,对选择的邻域进行风险评估预测的过程包括:
[0030]若样本x仅处于单个邻域之中,则将该邻域的类别分配给样本x;
[0031]若样本x处于多个邻域之中,设这多个邻域计算邻域集合O
inner
中邻域中心与x的距离,选择邻域中心到样本x最近的邻域,将最近的邻域的类别分配给样本x;
[0032]若样本x不处于任意邻域之中,计算所有邻域中心与x的距离,选择邻域中心到样本x最近的邻域,将此邻域的类别分配给样本x。
[0033]本专利技术的优点:
[0034]1、通过采用本专利技术使用的方法,工作人员可根据预测结果辅助判断贷款人是否存在信用风险,能够极大的提高工作效率与服务质量;
[0035]2、在传统基于邻域覆盖的规则学习方法中,需要计算所有样本的半径,从而得到初始邻域覆盖,进而通过邻域覆盖约简剔除冗余的邻域,整个过程需要大量的训练时间;本专利技术使用K-means算法形成邻域覆盖,从而减少邻域之间的重叠,能够达到线性的时间复杂度,大幅度减少模型的训练时间,且提出的半径能够规避离群样本的影响;
[0036]3、通过邻域中心的局部密度与相对距离的乘积对邻域进行选择,能够更好的评估邻域的分类能力,使得在更少的邻域(规则)下得到更高的精度。
附图说明
[0037]图1为本专利技术的个人信用风险评估方法流程图;
[0038]图2为本专利技术的第一次聚类的结果图;
[0039]图3为本专利技术的在进行邻域覆盖时的结果图;
[0040]图4为本专利技术的一种实施例的邻域覆盖结果图;
[0041]图5为本专利技术的一种实施例的用户预测结果图。
具体实施方式
[0042]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0043]一种基于快速构建邻域覆盖的个人信用风险评估方法,如图1所示,该方法包括:获取贷款人的个人信息数据,将该信息数据输入到训练好的个人信用风险评估模型中进行风险评估,根据风险评估结果确定是否对贷本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于快速构建邻域覆盖的个人信用风险评估方法,其特征在于,包括:获取贷款人的个人信息数据,将该信息数据输入到训练好的个人信用风险评估模型中进行风险评估,根据风险评估结果确定是否对贷款人进行贷款;对个人信用风险评估模型进行训练的过程包括:S1:获取贷款人的原始个人信息数据,将原始个人信息数据转化为决策信息表;S2:对决策信息表中的数据进行预处理;S3:采用K-means聚类算法对预处理后的数据进行聚类,构建邻域覆盖序列;S4:计算邻域覆盖序列中的邻域中心局部密度和相对距离;根据邻域中心的局部密度和相对距离对邻域进行排序;S5:对排序后的邻域进行选择,并对选择的邻域进行风险评估预测,得到预测结果。2.根据权利要求1所述的一种基于快速构建邻域覆盖的个人信用风险评估方法,其特征在于,所述获取贷款人的个人信息数据包括账户状况、信贷历史、贷款金额、资产情况、住房情况、本银行信贷次数以及家庭成员收入情况。3.根据权利要求1所述的一种基于快速构建邻域覆盖的个人信用风险评估方法,其特征在于,对决策信息表中的数据进行预处理的过程包括:采用当前数据属性均值对缺失的数据进行数据填充处理,将填充后的数据信息进行归一化处理。4.根据权利要求1所述的一种基于快速构建邻域覆盖的个人信用风险评估方法,其特征在于,构建邻域覆盖序列的过程包括:S31:确定K个初始聚类中心;S32:根据初始聚类中心和K-means聚类算法对样本数据进行聚类,得到K个类簇;S33:对得到的所有类簇进行初始化;计算所有的样本数据到初始聚类中心的距离;S34:根据计算的距离找到距离样本最近的聚类中心,并根据该聚类中心更新类簇;S35:根据更新后的类簇重新计算聚类中心,若计算后K个聚类中心不变,则输出K个类簇和聚类中心集合,否则返回步骤S33;S36:根据K个类簇和聚类中心集合计算聚类中心对应的邻域半径,根据邻域半径构建邻域。5.根据权利要求4所述的一种基于快速构建邻域覆盖的个人信用风险评估方法,其特征在于,重新计算聚类中心的公式为:其中,v
i
表示聚类中心,cl
i
表示第i个类簇,x
j
表示类簇cl
i
中第j个样本,|cl
i
|表示类簇cl
i
中样本的个数,...

【专利技术属性】
技术研发人员:张清华艾志华肖嘉瑜陈于思支学超吴成英
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1