一种智能组合的个人信用评估方法及系统技术方案

技术编号:19060262 阅读:33 留言:0更新日期:2018-09-29 12:51
本发明专利技术公开了一种智能组合的个人信用评估方法及系统,所述方法适用于所述系统,所述系统包括样本数据获取模块、样本数据处理模块、数据特征训练模块、评分模型构建模块和评分模型测试模块;所述方法包括步骤:S1由所述样本数据获取模块获取训练模型的样本数据;S2把样本分为训练集Ⅰ、训练集Ⅱ和测试集;S3对训练集Ⅰ、训练集Ⅱ和测试集的样本数据进行特征分组;S4对每组数据特征进行训练,并使每组数据特征产生一个对应的训练好的子模型;S5对训练好的子模型进行预测;及S6由所述评分模型测试模块将最终构建的信用评分模型放在测试集上进行测试,评估模型测试效果。

【技术实现步骤摘要】
一种智能组合的个人信用评估方法及系统
本专利技术涉及数据处理
,尤其涉及一种信用评估的方法及系统。
技术介绍
在中国经济高速发展的时期,个人收入增长较快,信用水平整体较高,但随着经济增速放缓后,个人信用风险中枢水平明显下行,并在一定区域呈现加速释放的现象,因此个人信用评分技术和产品的发展需要加快。对于中国目前的个人信贷业务来说,以纯信用贷款和由抵质押条款的贷款为主,均需要采集申请人的基本信息,如身份信息、收入信息、居住信息、支出信息、资产状况等多维度数据,现行的技术方案主要是由申请人自己准备资料,并到信贷机构网点处提交申请,有的民间借贷结构采用现场方式进行办理,但覆盖率有限,不成规模。此过程中,由申请人提供的资料需由网点人员进行真伪辨识,且由于是集中办理,申请人等待时间过长,一次完整的信用评估流程需要几个小时。互联网时代来临后,大数据征信成为可能。但是互联网企业往往只能获得客户的弱金融属性数据,而不能获得像征信数据这样的强金融属性数据,同时还有一部分互联网金融客户是征信白户:即无征信信息,传统的信用评分模型在没有强金融属性数据特征的情况下,模型的准确性较低,因此用传统的信用评分模型已不适用于新兴的互联网金融行业。
技术实现思路
本专利技术要解决的技术问题是提供了一种智能组合的个人信用评估方法及系统,首先用子模型提取数据特征,然后用权重模型将该特征进行拟合,这种模型组合的方式即满足了模型的可解释性要求,也达成了非线性模型具有的高效性和准确性。本专利技术的技术方案是这样实现的:一种智能组合的个人信用评估方法,该方法适用于一种个人信用评估系统,所述系统包括样本数据获取模块、样本数据处理模块、数据特征训练模块、评分模型构建模块和评分模型测试模块,所述智能组合的个人信用评估方法包括以下步骤:S1由所述样本数据获取模块获取训练模型的样本数据,该样本数据包括至少一个数据特征;S2由所述样本数据处理模块依照随机抽样,把样本分为训练集Ⅰ、训练集Ⅱ和测试集;S3由所述样本数据处理模块根据数据来源或业务维度分别对训练集Ⅰ、训练集Ⅱ和测试集的样本数据进行特征分组;S4由所述数据特征训练模块在训练集Ⅰ上用子模型对每组数据特征进行训练,并使每组数据特征产生一个对应的训练好的子模型;S5由所述评分模型构建模块基于训练集Ⅱ的各组数据特征及其对应的训练集I训练好的子模型,得到训练集Ⅱ各组数据特征的拟合结果,然后使用Adaboosting和逻辑回归模型对训练集Ⅱ各组数据特征的拟合结果进行拟合、训练,并获取拟合模型中的权重信息,利用拟合出的权重信息构建信用评分模型;S6由所述评分模型测试模块将最终构建的信用评分模型放在测试集上进行测试,评估模型测试效果。较佳的,所述样本数据从客户关系管理系统、信贷系统、交易系统、社保数据爬虫系统、网购数据爬虫系统、运营商数据爬虫系统中提取;所述样本数据包括,但不限于客户人口信息、申请信息、社交信息、消费信息、社保公积金信息及征信信息。较佳的,对训练集Ⅰ、训练集Ⅱ和测试集的样本数据进行特征分组后,每个集的数据按照相同标准划分为客户数据、申请数据、社交数据、消费数据和第三方数据,共5组数据特征。较佳的,根据预设的子模型,用训练集Ⅰ的5组数据特征分别训练5个子模型,每组数据特征都对应一个训练好的子模型;所述预设的子模型可选择树状模型、GBDT模型、Xgboost模型或机器学习模型。较佳的,通过训练集Ⅰ各组数据特征训练好的5个子模型,分别用于训练集Ⅱ上对应的数据特征组,拟合训练集Ⅱ各组数据特征,获得各组数据特征的拟合结果,再把各组数据特征的拟合结果放入权重模型进行训练,构建信用风险评分模型,模型最终以评分卡的形式给出结果。较佳的,所述预设的子模型选择随机森林模型对每组数据特征进行训练,每组特征的拟合结果可表示为a0+a1*y1+a2*y2+…an*yn,其中y1,y2,……yn表示随机森林中每个子树的拟合结果,a0,a1,…an表示拟合结果的系数。较佳的,将所述信用风险评分模型放在测试集上进行测试,评估该模型的最终效果,评价指标包括准确率、AUC值、K-S值指标。一种个人信用评估系统,所述系统包括:样本数据获取模块,用于获取训练模型的样本数据;样本数据处理模块,用于将样本分为训练集Ⅰ、训练集Ⅱ和测试集,并根据数据来源或业务维度分别对训练集Ⅰ、训练集Ⅱ和测试集的样本数据进行特征分组;数据特征训练模块,用于在训练集Ⅰ上用子模型对每组数据特征进行训练,并获得每组数据特征对应的训练好的子模型;评分模型构建模块,基于训练集Ⅱ的各组数据特征及其对应的训练集I训练好的子模型,得到训练集Ⅱ各组数据特征的拟合结果,然后使用Adaboosting和逻辑回归模型对训练集Ⅱ各组数据特征的拟合结果进行拟合、训练,并获取拟合模型中的权重信息,利用拟合出的权重信息构建信用评分模型;评分模型测试模块,用于将最终构建的信用评分模型放在测试集上进行测试,评估模型效果。本专利技术的有益效果在于:1.通过本专利技术所述方法构建的组合信用风险评估模型既有非线性模型的高效性、准确性,也具有线性模型的可解释性,同时在训练模型时,子模型、权重模型分别用不同的训练集,保证了模型的鲁棒性,模型的泛化能力更强。2.通过从客户关系管理系统、信贷系统、交易系统、社保数据爬虫系统、网购数据爬虫系统、运营商数据爬虫系统中提取样本数据,使模型训练更具实战性和针对性。3.通过采用相同标准,将数据集划分成训练集Ⅰ、训练集Ⅱ和测试集,每个数据集分成多个特征组,从数据集划分上保证其科学性,使得子模型的训练更加精准和更有解释性。4.将通过训练集Ⅰ各组数据特征训练好的多个子模型,分别用于训练集Ⅱ上对应的数据特征组,拟合训练集Ⅱ各组数据特征,获得各组数据特征的拟合结果,使得拟合结果具有非线性的准确性。5.通过采用本专利技术的个人信用评估系统可大幅提高了风控模型的预测精度,使风控能力大为增强,可比传统评分卡模型的KS值提高约20~50%。附图说明附图1为本专利技术个人信用风险评估方法流程示意图。附图2为本专利技术个人信用风险评估系统结构示意图。具体实施方式下面结合附图对本专利技术的具体实施例做进一步详述:如附图1、2所示,一种智能组合的个人信用评估方法,该方法适用于一种个人信用评估系统,所述系统包括样本数据获取模块、样本数据处理模块、数据特征训练模块、评分模型构建模块和评分模型测试模块,所述智能组合的个人信用评估方法包括以下步骤:S1由所述样本数据获取模块获取训练模型的样本数据,该样本数据包括至少一个数据特征;S2由所述样本数据处理模块依照随机抽样,把样本分为训练集Ⅰ、训练集Ⅱ和测试集;S3由所述样本数据处理模块根据数据来源或业务维度分别对训练集Ⅰ、训练集Ⅱ和测试集的样本数据进行特征分组;S4由所述数据特征训练模块在训练集Ⅰ上用子模型对每组数据特征进行训练,并使每组数据特征产生一个对应的训练好的子模型;S5由所述评分模型构建模块基于训练集Ⅱ的各组数据特征及其对应的训练集I训练好的子模型,得到训练集Ⅱ各组数据特征的拟合结果,然后使用Adaboosting和逻辑回归模型对训练集Ⅱ各组数据特征的拟合结果进行拟合、训练,并获取拟合模型中的权重信息,利用拟合出的权重信息构建信用评分模型;S6由所述评分模型测试模块将最终构本文档来自技高网...

【技术保护点】
1.一种智能组合的个人信用评估方法,该方法适用于一种个人信用评估系统,所述系统包括样本数据获取模块、样本数据处理模块、数据特征训练模块、评分模型构建模块和评分模型测试模块,其特征在于,所述智能组合的个人信用评估方法包括以下步骤:S1由所述样本数据获取模块获取训练模型的样本数据,该样本数据包括至少一个数据特征;S2由所述样本数据处理模块依照随机抽样,把样本分为训练集Ⅰ、训练集Ⅱ和测试集;S3由所述样本数据处理模块根据数据来源或业务维度分别对训练集Ⅰ、训练集Ⅱ和测试集的样本数据进行特征分组;S4由所述数据特征训练模块在训练集Ⅰ上用子模型对每组数据特征进行训练,并使每组数据特征产生一个对应的训练好的子模型;S5由所述评分模型构建模块在训练集Ⅱ上对训练好的子模型进行预测,使用Adaboosting和逻辑回归模型对其进行拟合、训练,并获取拟合模型中的权重信息,利用拟合出的权重信息,构建信用评分模型;S6由所述评分模型测试模块将最终构建的信用评分模型放在测试集上进行测试,评估模型测试效果。

【技术特征摘要】
1.一种智能组合的个人信用评估方法,该方法适用于一种个人信用评估系统,所述系统包括样本数据获取模块、样本数据处理模块、数据特征训练模块、评分模型构建模块和评分模型测试模块,其特征在于,所述智能组合的个人信用评估方法包括以下步骤:S1由所述样本数据获取模块获取训练模型的样本数据,该样本数据包括至少一个数据特征;S2由所述样本数据处理模块依照随机抽样,把样本分为训练集Ⅰ、训练集Ⅱ和测试集;S3由所述样本数据处理模块根据数据来源或业务维度分别对训练集Ⅰ、训练集Ⅱ和测试集的样本数据进行特征分组;S4由所述数据特征训练模块在训练集Ⅰ上用子模型对每组数据特征进行训练,并使每组数据特征产生一个对应的训练好的子模型;S5由所述评分模型构建模块在训练集Ⅱ上对训练好的子模型进行预测,使用Adaboosting和逻辑回归模型对其进行拟合、训练,并获取拟合模型中的权重信息,利用拟合出的权重信息,构建信用评分模型;S6由所述评分模型测试模块将最终构建的信用评分模型放在测试集上进行测试,评估模型测试效果。2.根据权利要求1所述的评估方法,其特征在于:所述样本数据从客户关系管理系统、信贷系统、交易系统、社保数据爬虫系统、网购数据爬虫系统、运营商数据爬虫系统中提取;所述样本数据包括,但不限于客户人口信息、申请信息、社交信息、消费信息、社保公积金信息及征信信息。3.根据权利要求1或2所述的评估方法,其特征在于:对训练集Ⅰ、训练集Ⅱ和测试集的样本数据进行特征分组后,每个集的数据按照相同标准划分为客户数据、申请数据、社交数据、消费数据和第三方数据,共5组数据特征。4.根据权利要求3所述的评估方法,其特征在于:根据预设的子模型,用训练集Ⅰ的5组数据特征分别训练5个子模型...

【专利技术属性】
技术研发人员:李勇陈军叶正茂吕耀中张红月
申请(专利权)人:大连火眼征信管理有限公司
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1