筛选属性数据的方法及客户流失预警方法技术

技术编号:21627917 阅读:101 留言:0更新日期:2019-07-17 10:46
筛选属性数据的方法及客户流失预警方法,属于数据处理领域,所述筛选属性数据的方法,包括:使用信息增益法筛选属性数据;使用点双列相关系数法筛选属性数据;根据信息增益法和点双列系数法分别得到若干个属性数据,并二者取交集得到筛选后的属性数据,效果:将信息增益法和点双列相关系数法两种自变量筛选方法结合起来,筛选准确性更好。

The Method of Screening Attribute Data and the Early Warning Method of Customer Loss

【技术实现步骤摘要】
筛选属性数据的方法及客户流失预警方法
本专利技术属于数据处理领域,涉及一种筛选属性数据的方法及客户流失预警方法
技术介绍
目前,随着汽车经销商、维修站数量的不断增加,汽车售后服务市场的竞争愈发激烈,加之客户对服务价格的敏感性和进店服务的满意度的不断提升,使得4S店的客户流失率逐年攀升,客户大量的流失的直接后果便是经济上的损失,从更深程度来思考,这也会间接地影响到4S店的声誉,从而陷入收益与信誉不断降低的恶性循环。那么从4S店的角度思考,如何有效识别流失概率较高的客户,以及如何成功地实现客户的挽留是做好客户关系管理的重中之重。此外,随着数据挖掘技术的不断成熟以及4S店经营数据的不断积累,使得从数据的角度探索客户流失可能性提供了良好的基础。本文专利技术一种方法,在深入利用4S店经营数据的基础上,提出了一种基于决策树算法的客户流失预警模型,通过该模型4S店可以掌握未来一段时间内流失概率较高的客户名单,从而为客户关系维护提供了良好的条件。
技术实现思路
为了解决上述问题,本专利技术提出如下方案:.一种筛选属性数据的方法,包括:使用信息增益法筛选属性数据;使用点双列相关系数法筛选属性数据;根据信息增益法和点双列系数法分别得到若干个属性数据,并二者取交集得到筛选后的属性数据。本专利技术还提出一种一种客户流失预警方法,其特征在于,包括:S1.采集客户的基本属性数据、购买车辆数据及售后进4S店行为数据;S2.确定目标变量、自变量;S3.筛选自变量;S4.构建决策树模型;S5.使用决策树模型实际预测,并在必要时发布流失报警;其中,筛选自变量,以本专利技术任一项所述的筛选属性数据的方法进行筛选。有益效果:将信息增益法和点双列相关系数法两种自变量筛选方法结合起来,从而为分类模型的变量筛选方法提供了一种新的思路,以提高筛选准确性,此外,所选择的属性具有汽车行业客户关系管理的特色,从而使构建的决策树模型更具有行业适用性,为汽车行业客户关系管理提供了一种可行的客户流失预警方案。附图说明图1为客户流失预警流程图。具体实施方式本专利技术主要通过以下技术方案来实现:1.收集每位客户的基本属性数据、购买车辆数据及售后进4S店行为数据,构建数据库1)客户基本属性数据主要包括身份证号码、姓名、性别、年龄、省份、城市、联系方式、教育程度、兴趣好爱、行业等信息;2)购买车辆数据主要包括底盘号、所属经销商、车型、售价等数据;3)售后进4S店行为数据主要包括进店类型(例如维修、保养、出险、索赔等)、进店时间、进店消费金额、进店里程、人工费、备件费、结算日期、维保项目等。2.数据清洗1)缺失值处理:例如缺失的性别、年龄、省份、城市可以由身份证号码相应位数进行翻译后补充;缺失的车型可以根据底盘号进行翻译后补充;缺失的售价可以根据该车车型售价的均值进行补充;缺失的进店消费金额可以根据维保项目及项目单价进行计算后补充等;2)噪声数据的识别与处理:由于数据采集、录入方面的原因,客户售后进店数据会存在部分噪声数据。首先,需要对该部分数据进行识别,本专利技术中主要使用DBSCAN算法(一种基于密度的聚类算法)识别噪声数据;其次,对于识别出来的离群点,使用分箱方法“光滑”数据。3.确定目标变量目标变量(流失或非流失)根据规定时间内客户是否进4S店进行确定,若在规定时间内进4S店则为非流失客户,否则为流失客户,常用的时间窗口为3个月、6个月或者一年,本专利技术中使用一年作为时间窗口。4.计算自变量根据步骤2所得到的经过数据清洗后的数据,计算与客户流失行为相关的若干基本属性,主要包括年龄、售价、车龄、最后一次进4S店里程数、进4S店次数、出险次数、累计出险费用、保养次数、年均保养次数、次均保养费用、超期保养次数、累计保养费用、维修次数、年均维修次数、次均维修费用、累计维修费用。5.筛选自变量结合信息增益法和点双列相关系数法对步骤4中的自变量的重要性进行评估,从而筛选出重要性较高的若干属性。其中,信息增益法的主要过程如下:1)计算将D中观测正确分类的期望信息Info(D)其中,D表示所有观测数据集,pi是D中任意观测属于类Ci的非零概率,并用|Ci,D|/|D|估计;2)计算根据属性A对D中观测进行分类所需要的信息量其中,属性A根据数据集D具有v个不同值{a1,a2,…,αv},可以用属性A将D划分为v个分区域子集{D1,D2,…,Dv},其中Dj包含D中的观测,它们的A值为αj。3)计算属性A的信息增益Gain(A)=Info(D)-InfoA(D)4)设定阈值,去除信息增益很小的基本属性点双列相关系数法主要过程如下:1)计算目标变量Y中取某值的变量比例Yp及取另外一值的变量比例Yq;2)计算自变量X中与Yp对应部分的平均值3)计算自变量X中与Yq对应部分的平均值4)计算自变量X的标准差Sx;5)根据公式计算自变量X和目标变量Y的相关系数。根据信息增益法和点双列系数法可以分别得到若干个重要性较高的自变量,二者取交集便可以得到两种方法的综合结果。经过上述方法的筛选,得到重要性较高的自变量包括最后一次进4S店里程数、出险次数、售价、年均保养次数、次均保养费用、超期保养次数。6.构建决策树模型利用步骤5中筛选所得的自变量构建决策树模型,计算每个属性的信息增益,选择信息增益最大的属性作为根节点,并为该属性的每个取值建立一个分枝,对于每个分枝,对剩下的其他所有属性计算信息增益,同样选择信息增益最大的属性作为新的分裂节点并建立相应分枝,递归以上过程,直到没有任何属性,定义该节点为叶子节点,并将该节点标记为所有样本中个数最多的类别。此外,还需将无任何样本的叶子节点进行剪枝。7.验证模型的准确性将标注流失、非流失标签的客户数据输入构建好的决策树模型进行分析,比较预测结果和实际结果的差异,从而确定模型的准确性并对模型进行修正。8.实际预测,发布流失预警根据修正后的流失预测模型对当前的非流失客户进行预测,重点关注流失概率较高的客户,发布流失预警。本文档来自技高网...

【技术保护点】
1.一种筛选属性数据的方法,其特征在于,包括:使用信息增益法筛选属性数据;使用点双列相关系数法筛选属性数据;根据信息增益法和点双列系数法分别得到若干个属性数据,并二者取交集得到筛选后的属性数据。

【技术特征摘要】
1.一种筛选属性数据的方法,其特征在于,包括:使用信息增益法筛选属性数据;使用点双列相关系数法筛选属性数据;根据信息增益法和点双列系数法分别得到若干个属性数据,并二者取交集得到筛选后的属性数据。2.如权利要求1所述的筛选属性数据的方法,其特征在于,信息增益法筛选属性数据的方法的步骤,包括:1).计算D中观测正确分类的期望信息Info(D)其中,D表示所有观测数据集,pi是D中任意观测属于类Ci的非零概率,并用|Ci,D|/|D|估计,i表示观测的取值序号,m表示观测总量。2)计算根据属性A对D中观测进行分类所需要的信息量其中,属性A根据数据集D具有v个不同值{α1,α2,…,αv},用属性A将D划分为v个分区域子集{D1,D2,…,Dv},Dj包含D中的观测,它们的A值为αj。3)计算属性A的信息增益Gain(A)=Info(D)-InfoA(D);4)设定阈值,根据增益去除部分的基本属性数据,除去D中去除的基本属性数据,剩余基本属性数据为被筛选出了属性数据。3.如权利要求1所述的筛选属性数据的方法,其特征在于,点双列相关系数法筛选属性数据的方法,包括:1)计算目标变量Y中取某值的变量比例Yp及取另外一值的变量比例Yq;2)计算自变量X中与Yp对应部分的平均值3)计算自变量X中与Yq对应部分的平均值4)计算自变量X的标准差Sx;5)根据公式以计算自变量X和目标变量Y的相关系数。4.如权利要求1所述的筛选属性数据的方法,其特征在于,使用筛选后的属性数据,构建决策树模型的方...

【专利技术属性】
技术研发人员:田雨农苍柏唐丽娜
申请(专利权)人:大连楼兰科技股份有限公司
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1