基于随机森林的用户信用积分预测方法和装置制造方法及图纸

技术编号：33894254 阅读：18 留言：0更新日期：2022-06-22 17:30

本申请涉及一种基于随机森林的用户信用积分预测方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：获取待预测用户的客户信息和预训练的超参数调优后的随机森林回归器；所述超参数调优后的随机森林回归器是基于改进的网格搜索对随机森林回归器进行超参数调优获取的；基于超参数调优后的随机森林回归器和待预测用户的客户信息，对待预测用户的信用积分进行预测。采用本方法能够实现对待预测用户的信用积分的高效预测。待预测用户的信用积分的高效预测。待预测用户的信用积分的高效预测。

全部详细技术资料下载

【技术实现步骤摘要】
基于随机森林的用户信用积分预测方法和装置

[0001]本申请涉及人工智能
，特别是涉及一种基于随机森林的用户信用积分预测方法、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]信贷服务是商业银行最重要的业务以及收入来源，尤其是对于企业客户的信贷服务更是如此。但是随着国家经济的发展，每一天诞生的中小企业如同雨后春笋，这对商业银行进行贷款对象的选择增加了不少难度。什么样的企业值得重点关注并有希望成为商业银行的客户以及什么样的客户应该规避，这是银行进行信贷时面临的一个关键问题。
[0003]随着机器学习以及深度学习的蓬勃发展，许多银行开始构建属于自己的数据以及模型，并将其应用于客户挖掘、风险防控等方面。并且在算法与模型的选择上往往采用深层神经网络的方法进行应用，这不免产生一些问题，许多分行乃至支行其实并没有数量极大的企业客户，使用深层神经网络的方式会使模型的训练时间以及成本增长许多，且随着数据的增长训练时长增长更快。而且深层神经网络通常并不能告知结果从何而来，也并不告知哪一特征是对企业信用影响最大的特征。在此种情况下，随机森林模型显然会较深层神经网络具有更好的通用性，且其非常善于处理高维度数据，通常来说，随机森林会给到一个并不容易过拟合而且符合期待的结果。
[0004]目前存在的随机森林模型往往是需要调节如基学习器数量、森林最大层数、基学习器最大特征选择数等超参数，常用的方法是使用学习曲线和网格搜索的方式进行超参数的调优。但是这两种方法都有一定的优缺点，通常来说学习曲线会得到一个更加...

【技术保护点】

【技术特征摘要】
1.一种基于随机森林的用户信用积分预测方法，其特征在于，所述方法包括：获取待预测用户的客户信息和预训练的超参数调优后的随机森林回归器；所述超参数调优后的随机森林回归器是基于改进的网格搜索对随机森林回归器进行超参数调优获取的；基于超参数调优后的随机森林回归器和待预测用户的客户信息，对待预测用户的信用积分进行预测。2.根据权利要求1所述的方法，其特征在于，所述超参数调优后的随机森林回归器通过以下方法获取：获取样本用户的客户信息，对样本用户的客户信息进行预处理，删除其中缺失值数量超过预设阈值的客户信息以及缺少信用积分的用户信息；对预处理后的样本用户的客户信息中的离散值字段进行哑变量编码处理，对预处理后的样本用户的客户信息中的定量特征进行二值化处理，获取处理完成后的样本用户的客户信息作为样本数据；根据所述样本数据获取预设数量的特征以及所述预设数量的特征对应的标签，基于所述预设数量的特征以及预设数量的特征对应的标签构建随机森林回归器；基于改进的网格搜索对所述随机森林回归器进行超参数调优处理，获取超参数调优后的随机森林回归器。3.根据权利要求2所述的方法，其特征在于，所述根据所述样本数据获取预设数量的特征包括：获取所述样本数据中特征的数量，判断所述样本数据中特征的数量是否达到预设的特征数量阈值；若所述样本数据中特征的数量小于或等于预设的特征数量阈值，不进行特征选择；若所述样本数据中特征的数量大于预设的特征数量阈值，基于卡方假设进行特征选择，获取选择后的预设数量的特征。4.根据权利要求2所述的方法，其特征在于，所述基于改进的网格搜索对所述随机森林回归器进行超参数调优处理包括：获取所述随机森林回归器中需要进行调优处理的超参数数量作为进行网格搜索的次数；分别设置超参数调整范围和搜索步长，基于袋外得分对此时的误差进行评估，当袋外得分最高时结束本轮搜索；根据...

【专利技术属性】
技术研发人员：李兴东，
申请(专利权)人：中国工商银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人