基于随机森林的用户信用积分预测方法和装置制造方法及图纸

技术编号:33894254 阅读:18 留言:0更新日期:2022-06-22 17:30
本申请涉及一种基于随机森林的用户信用积分预测方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取待预测用户的客户信息和预训练的超参数调优后的随机森林回归器;所述超参数调优后的随机森林回归器是基于改进的网格搜索对随机森林回归器进行超参数调优获取的;基于超参数调优后的随机森林回归器和待预测用户的客户信息,对待预测用户的信用积分进行预测。采用本方法能够实现对待预测用户的信用积分的高效预测。待预测用户的信用积分的高效预测。待预测用户的信用积分的高效预测。

【技术实现步骤摘要】
基于随机森林的用户信用积分预测方法和装置


[0001]本申请涉及人工智能
,特别是涉及一种基于随机森林的用户信用积分预测方法、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]信贷服务是商业银行最重要的业务以及收入来源,尤其是对于企业客户的信贷服务更是如此。但是随着国家经济的发展,每一天诞生的中小企业如同雨后春笋,这对商业银行进行贷款对象的选择增加了不少难度。什么样的企业值得重点关注并有希望成为商业银行的客户以及什么样的客户应该规避,这是银行进行信贷时面临的一个关键问题。
[0003]随着机器学习以及深度学习的蓬勃发展,许多银行开始构建属于自己的数据以及模型,并将其应用于客户挖掘、风险防控等方面。并且在算法与模型的选择上往往采用深层神经网络的方法进行应用,这不免产生一些问题,许多分行乃至支行其实并没有数量极大的企业客户,使用深层神经网络的方式会使模型的训练时间以及成本增长许多,且随着数据的增长训练时长增长更快。而且深层神经网络通常并不能告知结果从何而来,也并不告知哪一特征是对企业信用影响最大的特征。在此种情况下,随机森林模型显然会较深层神经网络具有更好的通用性,且其非常善于处理高维度数据,通常来说,随机森林会给到一个并不容易过拟合而且符合期待的结果。
[0004]目前存在的随机森林模型往往是需要调节如基学习器数量、森林最大层数、基学习器最大特征选择数等超参数,常用的方法是使用学习曲线和网格搜索的方式进行超参数的调优。但是这两种方法都有一定的优缺点,通常来说学习曲线会得到一个更加优秀的参数组合,但是由于其验证的参数范围会更加细致导致参数选择时时间花费更多。而网格搜索的方式通常会得到一个比绘制学习曲线差一点的参数组合,且其不需要人工调节、选择参数的时长也会短很多的优点,也广泛被研究者所采用。但是,现有的用户信用积分预测方法存在着不能够兼顾训练时长和预测准确率的技术问题。

技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种能够实现对于待预测用户的信用积分的高效预测的基于随机森林的用户信用积分预测方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0006]第一方面,本申请提供了一种基于随机森林的用户信用积分预测方法。所述方法包括:
[0007]获取待预测用户的客户信息和预训练的超参数调优后的随机森林回归器;所述超参数调优后的随机森林回归器是基于改进的网格搜索对随机森林回归器进行超参数调优获取的;
[0008]基于超参数调优后的随机森林回归器和待预测用户的客户信息,对待预测用户的信用积分进行预测。
[0009]在其中一个实施例中,所述超参数调优后的随机森林回归器通过以下方法获取:
[0010]获取样本用户的客户信息,对样本用户的客户信息进行预处理,删除其中缺失值数量超过预设阈值的客户信息以及缺少信用积分的用户信息;
[0011]对预处理后的样本用户的客户信息中的离散值字段进行哑变量编码处理,对预处理后的样本用户的客户信息中的定量特征进行二值化处理,获取处理完成后的样本用户的客户信息作为样本数据;
[0012]根据所述样本数据获取预设数量的特征以及所述预设数量的特征对应的标签,基于所述预设数量的特征以及预设数量的特征对应的标签构建随机森林回归器;
[0013]基于改进的网格搜索对所述随机森林回归器进行超参数调优处理,获取超参数调优后的随机森林回归器。
[0014]在其中一个实施例中,所述根据所述样本数据获取预设数量的特征包括:
[0015]获取所述样本数据中特征的数量,判断所述样本数据中特征的数量是否达到预设的特征数量阈值;
[0016]若所述样本数据中特征的数量小于或等于预设的特征数量阈值,不进行特征选择;
[0017]若所述样本数据中特征的数量大于预设的特征数量阈值,基于卡方假设进行特征选择,获取选择后的预设数量的特征。
[0018]在其中一个实施例中,所述基于改进的网格搜索对所述随机森林回归器进行超参数调优处理包括:
[0019]获取所述随机森林回归器中需要进行调优处理的超参数数量作为进行网格搜索的次数;
[0020]分别设置超参数调整范围和搜索步长,基于袋外得分对此时的误差进行评估,当袋外得分最高时结束本轮搜索;
[0021]根据上轮搜索确定下轮搜索范围,重复搜索过程,直至步长为1,袋外得分取到最高值时结束搜索。
[0022]在其中一个实施例中,所述基于改进的网格搜索对所述随机森林回归器进行超参数调优处理,获取超参数调优后的随机森林回归器之后还包括:
[0023]基于对称平均百分比误差和/或袋外得分对超参数调优后的随机森林回归器模型效果进行评估;若评估不通过,重新对所述随机森林回归器进行超参数调优处理直至评估通过。
[0024]在其中一个实施例中,所述基于对称平均百分比误差和/或袋外得分对超参数调优后的随机森林回归器模型效果进行评估包括:
[0025]若所述超参数调优后的随机森林回归器的对称平均百分比误差超过预设的对称平均百分比误差阈值和/或所述超参数调优后的随机森林回归器的袋外得分超过预设的袋外得分阈值,则对所述超参数调优后的随机森林回归器的评估为不通过;否则,对所述超参数调优后的随机森林回归器的评估为通过。
[0026]第二方面,本申请还提供了一种基于随机森林的用户信用积分预测装置。
[0027]所述装置包括:
[0028]获取模块,用于获取待预测用户的客户信息和预训练的超参数调优后的随机森林
回归器;所述超参数调优后的随机森林回归器是基于改进的网格搜索对随机森林回归器进行超参数调优获取的;
[0029]预测模块,用于基于超参数调优后的随机森林回归器和待预测用户的客户信息,对待预测用户的信用积分进行预测。
[0030]第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0031]获取待预测用户的客户信息和预训练的超参数调优后的随机森林回归器;所述超参数调优后的随机森林回归器是基于改进的网格搜索对随机森林回归器进行超参数调优获取的;
[0032]基于超参数调优后的随机森林回归器和待预测用户的客户信息,对待预测用户的信用积分进行预测。
[0033]第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
[0034]获取待预测用户的客户信息和预训练的超参数调优后的随机森林回归器;所述超参数调优后的随机森林回归器是基于改进的网格搜索对随机森林回归器进行超参数调优获取的;
[0035]基于超参数调优后的随机森林回归器和待预测用户的客户信息,对待预测用户的信用积分进行预测。
[0036]第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于随机森林的用户信用积分预测方法,其特征在于,所述方法包括:获取待预测用户的客户信息和预训练的超参数调优后的随机森林回归器;所述超参数调优后的随机森林回归器是基于改进的网格搜索对随机森林回归器进行超参数调优获取的;基于超参数调优后的随机森林回归器和待预测用户的客户信息,对待预测用户的信用积分进行预测。2.根据权利要求1所述的方法,其特征在于,所述超参数调优后的随机森林回归器通过以下方法获取:获取样本用户的客户信息,对样本用户的客户信息进行预处理,删除其中缺失值数量超过预设阈值的客户信息以及缺少信用积分的用户信息;对预处理后的样本用户的客户信息中的离散值字段进行哑变量编码处理,对预处理后的样本用户的客户信息中的定量特征进行二值化处理,获取处理完成后的样本用户的客户信息作为样本数据;根据所述样本数据获取预设数量的特征以及所述预设数量的特征对应的标签,基于所述预设数量的特征以及预设数量的特征对应的标签构建随机森林回归器;基于改进的网格搜索对所述随机森林回归器进行超参数调优处理,获取超参数调优后的随机森林回归器。3.根据权利要求2所述的方法,其特征在于,所述根据所述样本数据获取预设数量的特征包括:获取所述样本数据中特征的数量,判断所述样本数据中特征的数量是否达到预设的特征数量阈值;若所述样本数据中特征的数量小于或等于预设的特征数量阈值,不进行特征选择;若所述样本数据中特征的数量大于预设的特征数量阈值,基于卡方假设进行特征选择,获取选择后的预设数量的特征。4.根据权利要求2所述的方法,其特征在于,所述基于改进的网格搜索对所述随机森林回归器进行超参数调优处理包括:获取所述随机森林回归器中需要进行调优处理的超参数数量作为进行网格搜索的次数;分别设置超参数调整范围和搜索步长,基于袋外得分对此时的误差进行评估,当袋外得分最高时结束本轮搜索;根据...

【专利技术属性】
技术研发人员:李兴东
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1