一种基于XGBoost与MLP的客户流失预测方法技术

技术编号:35993836 阅读:12 留言:0更新日期:2022-12-17 23:09
本发明专利技术涉及一种基于XGBoost与MLP的客户流失预测方法,所述预测方法使用环境在申威平台上,且能够改善客户流失预测系统的准确性以及时效性,所述预测方法分为两个阶段:第一阶段,提取客户数据中的数值型特征,使用XGBoost算法计算出叶子节点的编号,并转换为one

【技术实现步骤摘要】
一种基于XGBoost与MLP的客户流失预测方法


[0001]本专利技术涉及数据处理技术,尤其是指一种基于XGBoost与MLP的客户流失预测方法。

技术介绍

[0002]随着社会的快速发展以及产品的日趋同质化,企业之间的竞争日趋激烈,对于一家富有活力且经营正常的公司来说,客户是其最重要的资产之一。在业务多元化、市场饱和化以及经济全球化的背景下,企业吸引新客户的成本远远高于保留老客户,因此防止老客户的流失能够有效地提高企业的利润,越来越多的企业开始意识到保留现有客户的重要性。作为以客户为导向的经营策略中不可缺少的一部分,如何精准识别那些具有高度流失概率的客户,具有至关重要的意义。因此,基于客户的历史信息来构建针对客户流失的早期预警系统成为了企业发展的重点。
[0003]通过客户流失预测系统,企业能够及时发现潜在的流失客户并制定相应的策略,来改善客户不满意度并防止客户的流失。具体而言,客户流失预测就是根据客户的历史信息来计算其未来流失的概率值,即终止与公司关系的可能性,这些概率值可以被用来将客户从最不可能流失到最可能流失进行排序,并对最容易流失的客户进行促销优惠活动。在一项研究中,一家拥有500万客户的公司通过客户流失预测系统对10%的潜在流失客户进行了营销保留活动,由此获得了数十万美元的额外利润。
[0004]然而,由于客户历史数据存在复杂度高、冗余度高以及维度高的特点,如何构建预测模型成为了数据挖掘领域中一个重要的课题。近些年来,随着数据挖掘算法的不断优化,客户流失预测领域也得到了长足的发展,预测算法精度不断提高,对于客户历史特征的理解也不断深入。信息化的快速推进,也使得各式各样的营销手段层出不穷,客户经常会收到各种优惠活动,如“分期免息”,“打折促销”与“加送赠品”等。这些手段极大的影响了客户的忠诚度,企业若不能及时发现,并制定相应的策略,极有可能丧失在市场中的竞争力。因此,构建一个精准的客户流失预测系统对企业来说,具有极高的战略价值,特别是服务同质化严重的行业。
[0005]与新客户相比,长期客户往往能使企业更具备竞争力,因此构建客户流失预测系统有着极为现实的意义,其总结如下:(1)成功的企业往往与现有的客户有着长期的关系,这使得这些企业能专注于提高自身的服务质量,而不是一味地吸引新客户,因为新客户最典型的特征就是流失率高;(2)流失的客户会影响他们社交网络中其他的客户;(3)在利润方面,长期客户倾向于购买更多的产品或者服务;(4)在成本方面,由于企业充分掌握了长期客户的信息,并且了解他们的需求,所以降低了服务成本;(5)竞争性的营销活动对长期客户的影响较低;(6)保留一个长期客户的成本往往比吸引新客户的成本低数倍。
[0006]在当今的大数据时代,各家企业的客户数据都有高数量、高维度、高价值的特点,同时由于涉及客户隐私,所以需要兼顾保密性。由于以上特性,构建一个完整客户流失预测系统除了要保证预测准确度外,还要具备较强的计算能力和安全性,因此本专利技术选择国产
的申威3231双路服务器作为底层平台。经过多年的发展,申威CPU处理器的国产化产业链布局完整,软硬件产品可堪重用,在国家多项重大专项项目的支持以及产业界持续的努力下,形成了以自主研发的申威CPU为核心的国产生态体系。不同于海光、兆芯与鲲鹏等其他使用国外指令集架构的国产芯片,申威CPU使用国产自研架构,具备较高的安全性,不会受到国外断供的影响。比如,基于申威3231CPU的双路服务器拥有64个核,可以提供强有力的计算支持。

技术实现思路

[0007]为此,本专利技术所要解决的技术问题在于改善当前客户流失预测系统的准确性低以及时效性差的问题,同时使用国产的申威服务器作为基础平台,解决国产芯片受制于国外的问题。
[0008]为解决上述技术问题,本专利技术提出了一种基于XGBoost与MLP的客户流失预测方法,所述预测方法使用环境在申威平台上,且能够改善客户流失预测系统的准确性以及时效性,包括如下步骤:
[0009]步骤S1:收集相关的客户历史数据包括流失客户与非流失客户的多属性数据,并打上对应的标签以形成相应的训练数据;
[0010]步骤S2:计算特征方差,然后将方差排序并删除方差较低的特征,可以提高预测准确度并降低计算量;
[0011]步骤S3:将数值型特征中缺失的数据替换为该特征的平均值,再进行Z

Score归一化处理;
[0012]步骤S4:使用one

hot编码处理离散型特征,整理预处理后客户数据;
[0013]步骤S5:使用XGBoost算法处理数值型特征,将计算后获得的叶子节点的编号替代原有的数值型特征,然后将更新后的客户数据输入MLP,构建损失函数,使用梯度下降算法训练预测模型;
[0014]步骤S6:将训练好的预测模型部署在申威服务器上,计算出企业客户的流失概率。
[0015]在本专利技术的一个实施例中,所述步骤S1中标签以形成相应的客户数量为M特征数量为N的训练数据D={(x
i
,y
i
)|i=1,

,M},其中客户标签y
i
={0,1}表示如果y
i
=0则客户为非流失客户,y
i
=1则客户为流失客户;另外定义pred
i
为客户流失预测系统的预测值。
[0016]在本专利技术的一个实施例中,所述步骤S2方差的计算公式如下:
[0017][0018]对N个特征分别计算方差后,根据方差将特征从高到低排序,并删除方差低的特征。
[0019]在本专利技术的一个实施例中,所述步骤S3中归一化处理公式,如下:
[0020][0021]在本专利技术的一个实施例中,所述步骤S4中one

hot编码将输入样本处理后转变为高维的稀疏向量,其中的输入样本为[Gender=Male,Weekday=Monday,Country=China]:
[0022][0023]在本专利技术的一个实施例中,所述步骤S4中客户数据处理后整理成相应的客户数量为m,特征数量为n的训练数据D={(x
i
,y
i
)|i=1,

,m},其中
[0024]在本专利技术的一个实施例中,所述步骤S5中XGBoost算法定义为第i个样本在第t次迭代的预测值,T为叶子节点的数量,损失函数则为:
[0025][0026]其中,f
t
(x
i
)表示残差,Ω(f
t
)表示正则化;然后使用二阶泰勒展开式将损失函数展开:
[0027][0028]其中,和分别为一阶导数和二阶导数;常数项l(y
i
,pred
(t

1)
)可以被简化为:
[0029][0030]通过计算可以得出最优权重:
[0031][0032]另外,分裂候选集可通过以下公本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于XGBoost与MLP的客户流失预测方法,所述预测方法使用环境在申威平台上,且能够改善客户流失预测系统的准确性以及时效性,其特征在于,包括如下步骤:步骤S1:收集相关的客户历史数据包括流失客户与非流失客户的多属性数据,并打上对应的标签以形成相应的训练数据;步骤S2:计算特征的方差,然后排序并删除方差较低的特征,可以提高预测准确度并降低计算量;步骤S3:将数值型特征中缺失的数据替换为该特征的平均值,再进行Z

Score归一化处理;步骤S4:使用one

hot编码处理离散型特征,整理预处理后客户数据;步骤S5:使用XGBoost算法处理数值型特征,将计算后获得的叶子节点的编号替代原有的数值型特征,然后将更新后的客户数据输入MLP,构建损失函数,使用梯度下降算法训练预测模型;步骤S6:将训练好的预测模型部署在申威服务器上,计算出企业客户的流失概率。2.根据权利要求1所述的基于XGBoost与MLP的客户流失预测方法,其特征在于:所述步骤S1中标签以形成相应的客户数量为M特征数量为N的训练数据D={(x
i
,y
i
)|i=1,

,M},其中其中客户标签y
i
={0,1}表示如果y
i
=0则客户为非流失客户,y
i
=1则客户为流失客户;另外定义pred
i
为客户流失预测系统的预测值。3.根据权利要求1所述的基于XGBoost与MLP的客户流失预测方法,其特征在于:所述步骤S2方差的计算公式如下:对N个特征分别计算方差后,根据方差将特征从高到低排序,并删除方差低的特征。4.根据权利要求1所述的基于XGBoost与MLP的客户流失预测方法,其特征在于:所述步骤S3中归一化处理公式,如下:5.根据权利要求1所述的基于XGBoost与MLP的客户流失预测方法,其特征在于:所述步骤S4中one

hot编码将输入样本处...

【专利技术属性】
技术研发人员:唐琪张昊朱仪蒋敏范昌华张取义
申请(专利权)人:中电科申泰信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1