个人信用风险评估方法及系统技术方案

技术编号:15842987 阅读:87 留言:0更新日期:2017-07-18 17:23
本发明专利技术公开了一种个人信用评估方法及系统,其中方法包括:获取P2P有效客户的数据将其作为原始数据集,采用bootstrap法从原始数据集中有放回地随机抽取N个样本数据集,并建N棵分类树,进而将抽取的N个样本数据集放到相应的分类树中,每棵分类树输出一个结果,根据所有的分类树的数据结果生成随机森林,最后利用随机森林对P2P客户数据进行判别和分类,并根据判别和分类结果对P2P客户的个人信用风险进行评估。本发明专利技术通过改进的随机森林法能够大大提高用户分类的准确度。

Personal credit risk assessment method and system

The invention discloses a system and a method of personal credit evaluation, the method comprises the following steps: obtaining P2P effective customer data as the original data set, using the bootstrap method from the original data set is put back to N randomly selected sample data set, and the construction of N tree classification tree, then the N data extraction set into the corresponding classification trees, each tree classification tree to output a result, according to the random forest classification tree all the data, finally using the random forest classification of the P2P customer data, and according to the classification results of personal credit risk assessment for P2P customers. The improved random forest method can greatly improve the accuracy of the user classification.

【技术实现步骤摘要】
个人信用风险评估方法及系统
本专利技术涉及计算机
,特别涉及一种个人信用风险评估方法及系统。
技术介绍
伴随着我国经济转型对刺激消费、扩大内需、调整经济发展结构的迫切需求,以及居民收入和消费能力的提升,我国消费信贷市场取得了快速的发展。然而在P2P(个人对个人)在线信贷中投资人承受着巨大的信用风险。其一,多数P2P在线信贷在借贷过程中都没有抵押,借款人一旦毁约,会导致投资方遭受巨大的损失;其二,投资人对借款人的信息认知来自于P2P在线信贷平台,存在信息不对称的因素。所以,借款人的信用风险评估是P2P在线信贷中至关重要的一个环节,其严重影响着一个平台的生命周期。因此,一个稳定、高效的信用风险评估体系显得尤为重要。目前,国际上通用的信用评估要素主要为“5C”、“5P”和“LAPP”,主流商业银行将客户的数据通过一些评分体系,如美国的FICO评分系统,对用户数据进行分析,量化用户的信用评估指标,最后根据不同的权重进行加权得到信用评分。P2P在线信贷由于对用户提供的信息要求并不严格,一般只拥有其基本资产信息、学历、年龄、身份等信息,然后通过第三方的认证平台对借款人进行信息认证,然后评定借款人的信用等级,供投资人进行参考。由于从P2P在线信贷平台获得的数据样本是有限的、非均衡的,所以,利用现有的在线信贷风险评估系统对P2P信贷用户进行分类,其精度较低,难以实现个人信用风险的准确评估。
技术实现思路
本专利技术提供了一种个人信用风险评估方法,包括以下步骤:S100、获取P2P有效客户的数据将其作为原始数据集;S200、采用bootstrap法(自助法)从所述原始数据集中有放回地随机抽取N个样本数据集,并建N棵分类树;S300、将抽取的N个样本数据集放到相应的分类树中,每棵分类树输出一个结果,根据所有的分类树的数据结果生成随机森林;S400、利用所述随机森林对P2P客户数据进行判别和分类,并根据判别和分类结果对所述P2P客户的个人信用风险进行评估。其中,步骤S300中,将抽取的N个样本数据集放到相应的分类树中,每棵分类树输出一个结果,根据所有的分类树的数据结果生成随机森林,包括以下步骤:S310、对每个节点随机选择M个评价指标作为待选特征集,M为整数;S320、在所述待选特征集中选择m(m<M)个评价指标计算其分裂值Φ(α):Φ(α)=β1Ginidivide(S)-β2GiniRatio(A)其中,Ginidivide(S)为:S1,S2为样本集S分隔成的两个子集;Gini(S1)为CART算法划分度量:GiniRatio(A)为改进的C4.5算法中的信息增益率:S330、比较每个评价指标的分裂值Φ(α),将分裂值Φ(α)最小的评价指标作为节点分裂特征,并在待选特征集中删除该评价指标;S340、检查节点的分支所覆盖的样本是否属于同一类;如不属于同一类,则根据该分裂特征将其分为两个子集,在两个子集中分别依次执行步骤S310至S340;如属于同一类,则生成子节点,输出分类结果。基于同一专利技术构思,本专利技术还提供一种个人信用风险评估系统,包括原始数据获取模块、数据抽取模块、随机森林生成模块以及分类模块;所述原始数据获取模块,用于获取P2P有效客户的数据将其作为原始数据集;所述数据抽取模块,用于采用bootstrap法从所述原始数据集中有放回地随机抽取N个样本数据集,并建N棵分类树;所述随机森林生成模块,用于将抽取的N个样本数据集放到相应的分类树中,每棵分类树输出一个结果,根据所有的分类树的数据结果生成随机森林;所述分类模块,用于利用所述随机森林对P2P客户数据进行判别和分类,并根据判别和分类结果对所述P2P客户的个人信用风险进行评估。作为一种可实施方式,所述随机森林生成模块包括选取单元、计算单元、比较单元以及检查单元;所述选取单元,用于对每个节点随机选择M个评价指标作为待选特征集,M为整数;所述计算单元,用于在所述待选特征集中选择m(m<M)个评价指标计算其分裂值Φ(α):Φ(α)=β1Ginidivide(S)-β2GiniRatio(A)其中,Ginidivide(S)为:S1,S2为样本集S分隔成的两个子集;Gini(S1)为CART算法划分度量:GiniRatio(A)为改进的C4.5算法中的信息增益率:所述比较单元,用于比较每个评价指标的分裂值Φ(α),将分裂值Φ(α)最小的评价指标作为节点分裂特征,并在待选特征集中删除该评价指标;所述检查单元,用于检查节点的分支所覆盖的样本是否属于同一类;如不属于同一类,则根据该分裂特征将其分为两个子集,在两个子集中分别依次执行选取单元、计算单元、比较单元的动作;如属于同一类,则生成子节点,输出分类结果。本专利技术相比于现有技术的有益效果在于:本专利技术提供的个人信用风险评估方法及系统,通过获取P2P有效客户的数据将其作为原始数据集,采用bootstrap法从原始数据集中有放回地随机抽取N个样本数据集,并建N棵分类树,进而将抽取的N个样本数据集放到相应的分类树中,每棵分类树输出一个结果,根据所有的分类树的数据结果生成随机森林,最后利用随机森林对P2P客户数据进行判别和分类,并根据判别和分类结果对P2P客户的个人信用风险进行评估。本专利技术通过改进的随机森林法能够大大提高用户分类的准确度。附图说明图1为本专利技术一实施例提供的个人信用风险评估方法的流程示意图;图2为图1所示的个人信用风险评估方法的原理示意图;图3为图1所示的个人信用风险评估方法中的步骤S300的一实施方式的流程示意图;图4为本专利技术另一实施例提供的个人信用风险评估系统的原理示意图。具体实施方式以下结合附图,对本专利技术上述的和另外的技术特征和优点进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术的部分实施例,而不是全部实施例。随机森林算法具有极高的准确率、以及对非均衡样本和噪声良好的容忍度,所以本专利技术将随机森林方法引入P2P在线信贷风险评估中。随机森林方法建模思想是利用bootstrap方法从原始的样本集中随机抽取获得多个子样本集,对每个子样本集进行决策树建模,然后根据投票法对多棵决策树的预测结果进行投票来确定随机森林的预测结果。请参阅图1和图2,本专利技术一实施例提供的个人信用风险评估方法,本专利技术提供了一种个人信用风险评估方法,包括以下步骤:S100、获取P2P有效客户的数据将其作为原始数据集;S200、采用自助法从原始数据集中有放回地随机抽取N个样本数据集,并建N棵分类树;S300、将抽取的N个样本数据集放到相应的分类树中,每棵分类树输出一个结果,根据所有的分类树的数据结果生成随机森林;S400、利用随机森林对P2P客户数据进行判别和分类,并根据判别和分类结果对P2P客户的个人信用风险进行评估。作为一种可实施方式,步骤S300中,将抽取的N个样本数据集放到相应的分类树中,每棵分类树输出一个结果,根据所有的分类树的数据结果生成随机森林,包括以下步骤:S310、对每个节点随机选择M个评价指标作为待选特征集,M为整数;S320、在待选特征集中选择m(m<M)个评价指标计算其分裂值Φ(α):Φ(α)=β1Ginidivide(S)-β2GiniRatio(A)其中,Ginidivide(S)为:S1,S2为样本集本文档来自技高网...
个人信用风险评估方法及系统

【技术保护点】
一种个人信用风险评估方法,其特征在于,包括以下步骤:S100、获取P2P有效客户的数据将其作为原始数据集;S200、采用bootstrap法从所述原始数据集中有放回地随机抽取N个样本数据集,并建N棵分类树;S300、将抽取的N个样本数据集放到相应的分类树中,每棵分类树输出一个结果,根据所有的分类树的数据结果生成随机森林;S400、利用所述随机森林对P2P客户数据进行判别和分类,并根据判别和分类结果对所述P2P客户的个人信用风险进行评估。

【技术特征摘要】
1.一种个人信用风险评估方法,其特征在于,包括以下步骤:S100、获取P2P有效客户的数据将其作为原始数据集;S200、采用bootstrap法从所述原始数据集中有放回地随机抽取N个样本数据集,并建N棵分类树;S300、将抽取的N个样本数据集放到相应的分类树中,每棵分类树输出一个结果,根据所有的分类树的数据结果生成随机森林;S400、利用所述随机森林对P2P客户数据进行判别和分类,并根据判别和分类结果对所述P2P客户的个人信用风险进行评估。2.根据权利要求1所述的个人信用风险评估方法,其特征在于,步骤S300中,将抽取的N个样本数据集放到相应的分类树中,每棵分类树输出一个结果,根据所有的分类树的数据结果生成随机森林,包括以下步骤:S310、对每个节点随机选择M个评价指标作为待选特征集,M为整数;S320、在所述待选特征集中选择m(m<M)个评价指标计算其分裂值Φ(α):Φ(α)=β1Ginidivide(S)-β2GiniRatio(A)其中,Ginidivide(S)为:S1,S2为样本集S分隔成的两个子集;Gini(S1)为CART算法划分度量:GiniRatio(A)为改进的C4.5算法中的信息增益率:S330、比较每个评价指标的分裂值Φ(α),将分裂值Φ(α)最小的评价指标作为节点分裂特征,并在待选特征集中删除该评价指标;S340、检查节点的分支所覆盖的样本是否属于同一类;如不属于同一类,则根据该分裂特征将其分为两个子集,在两个子集中分别依次执行步骤S310至S340;如属于同一类,则生成子节点,输出分类结果。3.一种个人信用风险评估系统,其特征在...

【专利技术属性】
技术研发人员:琚春华赵凯迪鲍福光
申请(专利权)人:浙江工商大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1