基于机器学习的银行对公客户流失预测方法技术

技术编号:29616187 阅读:31 留言:0更新日期:2021-08-10 18:33
本发明专利技术公开了一种基于机器学习的银行对公客户流失预测方法,包括:在期限内收集银行的对公客户行为的原始数据,构建PostgreSQL源数据库;用所述PostgreSQL源数据库读取若干个报表的报表数据;将报表数据整合成为整体,并对报表数据中的所有特征进行全表统计;对统计得到的基本属性数据进行编码,对冗余和缺失的特征值进行编辑处理,得到纠正后的数据集;建立随机森林模型,并将分类后的数据代入随机森林模型进行训练;计算随机森林模型中特征的重要性,并根据计算结果找出的重要性选择特征;根据特征得到模型预测结果并输出可视化结果;通过该模型实现银行客户精准分类,优化企业营销资源,保障客户流失率,从而实现企业利润最大化。

【技术实现步骤摘要】
基于机器学习的银行对公客户流失预测方法
本专利技术涉及银行管理模型领域,具体是基于机器学习的银行对公客户流失预测方法。
技术介绍
在大数据时代,全球经济一体化及金融市场化促使国内商业银行的经营管理模式发生了很大变化,各商业银行纷纷将“以客户为中心”的经营理念作为提高自身盈利能力和核心竞争力的重要基础,并高度关注客户关系管理与客户数据挖掘。在现有技术中有研究表明,吸引新客户要比保留老客户的成本多5倍;向流失客户销售,每4人中会有1人成功,而向潜在客户和目标客户销售,每16人中才有1人可能成功。而客户为公司带来的利润主要是根据客户的生命周期决定的,客户的生命周期越长,给公司带来的利润就会越多。各银行企业营销焦点从产品中心转变为客户中心,客户关系管理成为企业的核心问题。所以如何延长流失的客户的生命周期就成为了公司占领市场份额的决定性策略。但目前在各银行业务板块里,在客户关系管理层面依然存在一些不足,如:①客户分类不完善,不能有效区分哪些是高价值客户,哪些是无价值客户;②无法对客户分类定制个性化服务方案,导致客户流失严重,挽回也困难;③现有营销资源无法精准匹配高价值客户,严重阻碍企业利润的提升。银行根据客户类型可分为银行对公客户和银行零售客户,目前尚未有对银行对公客户流失进行系统化、深度挖掘分析并提出预警的方法。因此如何建立能够银行客户精准分类,优化企业营销资源,保障银行对公客户流失率,实现企业利润最大化的模型便成为银行管理模型领域亟待解决的问题。
技术实现思路
本专利技术的目的在于克服现有技术在银行实际工作中在研究银行对公流失客户时对数据的分析不全面不直观的不足,提供了一种基于机器学习的银行对公客户流失预测方法,通过有效地建立客户流失预测模型,达到能够通过提取数据中的重要性选择特征来全面直观的得出银行对公客户流失预测结果的目的。本专利技术的目的主要通过以下技术方案实现:基于机器学习的银行对公客户流失预测方法,包括以下步骤:S1:设定期限,并在设定期限内收集银行对公客户行为的原始数据,采用所述原始数据构建PostgreSQL源数据库;S2:读取所述PostgreSQL源数据库中各报表的报表数据;S3:将读取到的报表数据整合成为整体,提取报表数据中的所有特征作为第一特征,并对报表数据中的第一特征进行全表统计;S4:对统计得到的基本属性数据进行编码,对冗余和缺失的特征值进行编辑处理,得到纠正后的数据集;S5:计算随机森林模型中特征的重要性,并根据计算结果找出重要性选择特征,在PostgreSQL源数据库中聚合构造完成特征变换后的第二特征;S6:在纠正后的数据集中提取出实际已经流失客户数据集,并根据实际已经流失客户数据集通过投票打分对新的数据进行分类;S7:建立随机森林模型,将分类后的数据代入随机森林模型进行训练;S8:通过分析随机森林模型的偏差与方差选取随机森林模型,并通过格子搜索和交叉验证选取最优参数;S9:得到模型预测结果并输出可视化结果。目前,由于银行的对公客户流失预测中对客户的区分不明确导致客户流失判断的准确率较低,在判断不准确的情况下,银行不能针对性的做出提前应对,会使得客户的流失加剧,从而对银行造成极大的损失;本专利技术中通过对日常的对公客户行为数据进行收集,并将这些数据储存进PostgreSQL源数据库的方式保留好对公客户的原始数据,PostgreSQL是一种特性非常齐全的自由软件的对象-关系型数据库管理系统,具有储存索引都方便的特点,在构建了PostgreSQL源数据库后,用PostgreSQL源数据库读取报表数据,这样便能够将对公客户的行为数据载入PostgreSQL源数据库,通过对报表数据的整合,能够清晰的实现对整体数据的观察,并且能够有效的将特征提取出来,然后对特征进行全表统计,本专利技术中的全表统计包括对观测数据进行不同的统计分析,可统计信息有:样本个数、缺失值个数、平均值、标准差、方差、总和、唯一值、最小值、最大值、上四分位、下四分位、中位数、众数、峰度、偏度等指标;还可使用箱线图和直方图尽可能简单全面表达数据所蕴含的数值范围、分布等信息。在全表统计后能够得到基本属性数据,全表统计实际上统计的是各特征具体表现数据,为了数据在处理过程中便于使用,容易记忆,对各基本属性数据进行编码,本专利技术中可采用的编码包括特征二元化/多元化、独热编码等,对编码后的基本属性数据进行冗余和缺失的编辑处理,将应该删除的部分删除掉,应该填充的部分填充起来,从而实现对基本属性数据的纠正,在对公客户的分类中,实际已经流失客户数据集最能够体现流失客户的情况,所以将新的数据按照实际已经流失客户数据集的情况进行分类,能够更加便捷的识别出流失客户,通过随机森林模型的训练,能够有效的提高本专利技术预测的准确性,在选取了最优参数后,准确性能够得到进一步的提高,根据随机森林模型的计算,能够找出重要性选择特征,采用重要性选择特征来对客户进行识别,能够有效的得出客户是否符合流失预测模型的特征,能够清晰的得到对公客户流失的相关参数,通过这些参数能够有效的采用可视化的方式将结果可视化,从而得到清晰直观的预测结果。本专利技术中的实际已经流失的客户数据集是在银行数据库中(PostgreSQL源数据库)已经存在的,银行直接提供,前几步是把这些数据集进行预处理,并进行缺失值填充,为模型训练提供正确格式和内容的数据集。并且在本专利技术中采用的是先完成特征工程内容即特征重要性计算和特征选择再进行模型训练的方式,随机森林模型的建立是在随机森林模型重要性特征选择出来后进行的,方便后续在训练过程中对模型进行调优。在本专利技术中对于随机森林的方差和偏差问题,使用样本数相同的不同的训练集训练模型进行预测,预测值取平均就得到了学习算法的期望预测,偏差指学习算法的期望预测与真实标记间的差距,方差指学习算法的期望预测与真实标记间的差距。本专利技术中通过对原始数据的处理,并通过数据分析,能够有效地建立客户流失预测模型,达到在选取最优参数的基础上通过重要性特征全面直观的得出客户流失预测模型的目的。进一步的,所述步骤S2中的数据报表包括“挖掘客户各月对公存款年日均表”、“挖掘客户各月对公理财基金年日均表”,最终在步骤S3中整合得到的是包含挖掘客户特征记录的“挖掘整合模型宽表”。本专利技术中的“挖掘客户各月对公存款年日均表”能够有效的反应客户存款相关信息,“挖掘客户各月对公理财基金年日均表”能够有效的反应客户投资的相关信息,从客户的存款和投资两方面能够立体的对客户的信息进行分析,使得得到的结果更加准确,而“挖掘整合模型宽表”为挖掘客户的特征记录作为训练数据,所述特征记录为经过特征变换,便于随机森林算法分类所提取的特征。进一步的,所述步骤S4包括以下步骤:S4.1:以统计得到的基本属性数据为元数据,将元数据按照字符串类型编辑;S4.2:采用独热编码对不同类别的元数据进行标签编码,并对类别进行二进制化处理;S4.3:发现并纠正元数据中的可识别错误得到建模数据。在本文档来自技高网...

【技术保护点】
1.基于机器学习的银行对公客户流失预测方法,其特征在于,包括以下步骤:/nS1:设定期限,并在设定期限内收集银行对公客户行为的原始数据,采用所述原始数据构建PostgreSQL源数据库;/nS2:读取所述PostgreSQL源数据库中各报表的报表数据;/nS3:将读取到的报表数据整合成为整体,提取报表数据中的所有特征作为第一特征,并对报表数据中的第一特征进行全表统计;/nS4:对统计得到的基本属性数据进行编码,对冗余和缺失的特征值进行编辑处理,得到纠正后的数据集;/nS5:计算随机森林模型中特征的重要性,并根据计算结果找出重要性选择特征,在PostgreSQL源数据库中聚合构造完成特征变换后的第二特征;/nS6:在纠正后的数据集中提取出实际已经流失客户数据集,并根据实际已经流失客户数据集通过投票打分对新的数据进行分类;/nS7:建立随机森林模型,将分类后的数据代入随机森林模型进行训练;/nS8:通过分析随机森林模型的偏差与方差选取随机森林模型,并通过格子搜索和交叉验证选取最优参数;/nS9:得到模型预测结果并输出可视化结果。/n

【技术特征摘要】
1.基于机器学习的银行对公客户流失预测方法,其特征在于,包括以下步骤:
S1:设定期限,并在设定期限内收集银行对公客户行为的原始数据,采用所述原始数据构建PostgreSQL源数据库;
S2:读取所述PostgreSQL源数据库中各报表的报表数据;
S3:将读取到的报表数据整合成为整体,提取报表数据中的所有特征作为第一特征,并对报表数据中的第一特征进行全表统计;
S4:对统计得到的基本属性数据进行编码,对冗余和缺失的特征值进行编辑处理,得到纠正后的数据集;
S5:计算随机森林模型中特征的重要性,并根据计算结果找出重要性选择特征,在PostgreSQL源数据库中聚合构造完成特征变换后的第二特征;
S6:在纠正后的数据集中提取出实际已经流失客户数据集,并根据实际已经流失客户数据集通过投票打分对新的数据进行分类;
S7:建立随机森林模型,将分类后的数据代入随机森林模型进行训练;
S8:通过分析随机森林模型的偏差与方差选取随机森林模型,并通过格子搜索和交叉验证选取最优参数;
S9:得到模型预测结果并输出可视化结果。


2.根据权利要求1所述的基于机器学习的银行对公客户流失预测方法,其特征在于,所述步骤S4包括以下步骤:
S4.1:以统计得到的基本属性数据为元数据,将元数据按照字符串类型编辑;
S4.2:采用独热编码对不同类别的元数据进行标签编码,并对类别进行二进制化处理;
S4.3:发现并纠正元数据中的可识别错误得到建模数据。


3.根据权利要求2所述的基于机器学习的银行对公客户流失预测方法,其特征在于,所述步骤S4.3包括以下步骤:
S4.3.1:获取元数据中同一第一特征的两种表现形式,删除其一;
S4.3.2:对元数据中的缺失值进行填充;
S4.3.3:对填充后的数据进行单变量异常值检测,剔除单变量异常值得到建模数据。


4.根据权利要求3所述的基于机器学习的银行对公客户流失预测方法,其特征在于,所述步骤S4.3.3中的单变量异常值检测过程包括以下步骤:
A1:将变量按照其值从小到大进行顺序排列x1,x2.....xn;
A2:计算平均值x拔和标准差S:



计算偏离值,并确定一个可疑值,i为可疑值的序列号;
A3:计算统计量gi,即残差与标准差的比值:



将gi与格拉布斯表给出的临界值GP(n)比较,如果计算的gi值大于表中的临界值GP(n),则能判断该测量数据是异常值,可以剔除。


5.根据权利要求1所述的基于机器学习的银行对公客户流失预测方法,其特征在于,在所述步骤S5中特征重要性计算包括以下步骤:
S5.1:对于随机森林中的每一颗决策树,使用相应的OOB,即袋外数据,计算它的袋外数据误差,记为errOOB1;
S5.2:随机地对袋外数据OOB所有样本的特征X加入噪声干扰,再次计算它的袋外数据误差,记为errOOB2;
S5.3:假设随机森林中有Ntree棵树,那么对于特征X的重要性=;
在所述步骤S5中特征选择包括以...

【专利技术属性】
技术研发人员:阮惠华张成刚黄浩
申请(专利权)人:广州思迈特软件有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1