【技术实现步骤摘要】
基于机器学习的银行对公客户流失预测方法
本专利技术涉及银行管理模型领域,具体是基于机器学习的银行对公客户流失预测方法。
技术介绍
在大数据时代,全球经济一体化及金融市场化促使国内商业银行的经营管理模式发生了很大变化,各商业银行纷纷将“以客户为中心”的经营理念作为提高自身盈利能力和核心竞争力的重要基础,并高度关注客户关系管理与客户数据挖掘。在现有技术中有研究表明,吸引新客户要比保留老客户的成本多5倍;向流失客户销售,每4人中会有1人成功,而向潜在客户和目标客户销售,每16人中才有1人可能成功。而客户为公司带来的利润主要是根据客户的生命周期决定的,客户的生命周期越长,给公司带来的利润就会越多。各银行企业营销焦点从产品中心转变为客户中心,客户关系管理成为企业的核心问题。所以如何延长流失的客户的生命周期就成为了公司占领市场份额的决定性策略。但目前在各银行业务板块里,在客户关系管理层面依然存在一些不足,如:①客户分类不完善,不能有效区分哪些是高价值客户,哪些是无价值客户;②无法对客户分类定制个性化服务方案,导致客户流失严重,挽回也困难;③现有营销资源无法精准匹配高价值客户,严重阻碍企业利润的提升。银行根据客户类型可分为银行对公客户和银行零售客户,目前尚未有对银行对公客户流失进行系统化、深度挖掘分析并提出预警的方法。因此如何建立能够银行客户精准分类,优化企业营销资源,保障银行对公客户流失率,实现企业利润最大化的模型便成为银行管理模型领域亟待解决的问题。
技术实现思路
本专利技术的目的在于克服现 ...
【技术保护点】
1.基于机器学习的银行对公客户流失预测方法,其特征在于,包括以下步骤:/nS1:设定期限,并在设定期限内收集银行对公客户行为的原始数据,采用所述原始数据构建PostgreSQL源数据库;/nS2:读取所述PostgreSQL源数据库中各报表的报表数据;/nS3:将读取到的报表数据整合成为整体,提取报表数据中的所有特征作为第一特征,并对报表数据中的第一特征进行全表统计;/nS4:对统计得到的基本属性数据进行编码,对冗余和缺失的特征值进行编辑处理,得到纠正后的数据集;/nS5:计算随机森林模型中特征的重要性,并根据计算结果找出重要性选择特征,在PostgreSQL源数据库中聚合构造完成特征变换后的第二特征;/nS6:在纠正后的数据集中提取出实际已经流失客户数据集,并根据实际已经流失客户数据集通过投票打分对新的数据进行分类;/nS7:建立随机森林模型,将分类后的数据代入随机森林模型进行训练;/nS8:通过分析随机森林模型的偏差与方差选取随机森林模型,并通过格子搜索和交叉验证选取最优参数;/nS9:得到模型预测结果并输出可视化结果。/n
【技术特征摘要】
1.基于机器学习的银行对公客户流失预测方法,其特征在于,包括以下步骤:
S1:设定期限,并在设定期限内收集银行对公客户行为的原始数据,采用所述原始数据构建PostgreSQL源数据库;
S2:读取所述PostgreSQL源数据库中各报表的报表数据;
S3:将读取到的报表数据整合成为整体,提取报表数据中的所有特征作为第一特征,并对报表数据中的第一特征进行全表统计;
S4:对统计得到的基本属性数据进行编码,对冗余和缺失的特征值进行编辑处理,得到纠正后的数据集;
S5:计算随机森林模型中特征的重要性,并根据计算结果找出重要性选择特征,在PostgreSQL源数据库中聚合构造完成特征变换后的第二特征;
S6:在纠正后的数据集中提取出实际已经流失客户数据集,并根据实际已经流失客户数据集通过投票打分对新的数据进行分类;
S7:建立随机森林模型,将分类后的数据代入随机森林模型进行训练;
S8:通过分析随机森林模型的偏差与方差选取随机森林模型,并通过格子搜索和交叉验证选取最优参数;
S9:得到模型预测结果并输出可视化结果。
2.根据权利要求1所述的基于机器学习的银行对公客户流失预测方法,其特征在于,所述步骤S4包括以下步骤:
S4.1:以统计得到的基本属性数据为元数据,将元数据按照字符串类型编辑;
S4.2:采用独热编码对不同类别的元数据进行标签编码,并对类别进行二进制化处理;
S4.3:发现并纠正元数据中的可识别错误得到建模数据。
3.根据权利要求2所述的基于机器学习的银行对公客户流失预测方法,其特征在于,所述步骤S4.3包括以下步骤:
S4.3.1:获取元数据中同一第一特征的两种表现形式,删除其一;
S4.3.2:对元数据中的缺失值进行填充;
S4.3.3:对填充后的数据进行单变量异常值检测,剔除单变量异常值得到建模数据。
4.根据权利要求3所述的基于机器学习的银行对公客户流失预测方法,其特征在于,所述步骤S4.3.3中的单变量异常值检测过程包括以下步骤:
A1:将变量按照其值从小到大进行顺序排列x1,x2.....xn;
A2:计算平均值x拔和标准差S:
计算偏离值,并确定一个可疑值,i为可疑值的序列号;
A3:计算统计量gi,即残差与标准差的比值:
将gi与格拉布斯表给出的临界值GP(n)比较,如果计算的gi值大于表中的临界值GP(n),则能判断该测量数据是异常值,可以剔除。
5.根据权利要求1所述的基于机器学习的银行对公客户流失预测方法,其特征在于,在所述步骤S5中特征重要性计算包括以下步骤:
S5.1:对于随机森林中的每一颗决策树,使用相应的OOB,即袋外数据,计算它的袋外数据误差,记为errOOB1;
S5.2:随机地对袋外数据OOB所有样本的特征X加入噪声干扰,再次计算它的袋外数据误差,记为errOOB2;
S5.3:假设随机森林中有Ntree棵树,那么对于特征X的重要性=;
在所述步骤S5中特征选择包括以...
【专利技术属性】
技术研发人员:阮惠华,张成刚,黄浩,
申请(专利权)人:广州思迈特软件有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。