当前位置: 首页 > 专利查询>中南大学专利>正文

一种基于组合分类器的客户流失预测模型制造技术

技术编号:21363668 阅读:19 留言:0更新日期:2019-06-15 09:48
本发明专利技术提出构建结合回声状态网络和支持向量机的流失预测模型。针对单模型预测效果不理想,探索改进分类器构建方法,分类器的构建可以分为训练集构建策略、分类器选择策略和预测值确定策略三个方面。通过融合马氏距离与最大信息系数综合评定特征和类别、特征和特征之间的相关程度,共同衡量特征之间的冗余度以及特征与类别之间的关联度。集合回声状态网络和支持向量机的优点,线性约束解决二次优化问题,从而提高电信客户流失系统的性能,提高客户流失预测模型的预测效果。

A customer churn prediction model based on combined classifier

The invention proposes to construct a loss prediction model combining echo state network and support vector machine. In view of the unsatisfactory prediction effect of single model, this paper explores an improved classifier construction method. The construction of classifier can be divided into three aspects: training set construction strategy, classifier selection strategy and prediction value determination strategy. By fusing Mahalanobis distance and maximum information coefficient, the correlation degree between features and categories, features and features is evaluated comprehensively, and the redundancy between features and the correlation degree between features and categories are measured jointly. By combining the advantages of Echo State Network and Support Vector Machine (SVM), linear constraints are used to solve the quadratic optimization problem, so as to improve the performance of telecom customer churn system and the prediction effect of customer churn prediction model.

【技术实现步骤摘要】
一种基于组合分类器的客户流失预测模型
本专利技术涉及电信客户流失分类领域,特别是一种基于组合分类器的客户流失预测模型。
技术介绍
在当前电信市场环境下,吸引新的客户和挽留己有客户成为电信运营商客户管理系统的两个重要主题。潜在流失客户的预测分析是实施客户挽留策略的一个关键环节,已成为当今学术界和商业界广泛关注的一个热口话题。客户流失预测分析的目的是预测出具有较高流失槪率的客户,正确锁定潜在流失客户群体。在此基础上,分配并调整有限的营销资源,制定有针对性的客户挽留策略,提高客户挽留策略的有效性,提高后续营销活动的投资回报率,进一步减少客户流失带来的经济损失。因此,构建一个商效、准确的电信客户流失预测模型,预测出具有较高流失概率的客户,对电信企业具有重大意义。近年来的文献中,提出了不同类型的基于机器学习的方法来开发流失预测模型,大多数都只考虑了单一机器学习技术进行流失预测,包括决策、人工神经网络、朴素贝叶斯和支持向量机等。单个分类器预测数据必然会导致效率和性能的偏差,在实时和精度要求的范围内,可以通过某种方式使基本分类器以高效的方式协同工作,以便做到最好利用优势和绕过劣势,整合学习优势组合每种算法。因此基于机器学习的集成学习和选择性集成学习研究迅速发展,分类和挖掘的性能优于传统方法,已成为研究客户流失预测的新方法。
技术实现思路
本专利技术的目的是针对单一分类算法模型对电信客户流失预测性能不太理想的问题,提供一种组合分类模型。首先融合马氏距离与最大信息系数综合评定特征和类别、特征和特征之间的相关程度,共同衡量特征之间的冗余度以及特征与类别之间的关联度。在找到最优数据特征的基础上,将ESN的状态空间输出将作为SVM分类器的输入,提出带有SVM训练算法的ESN来预测电信公司的客户流失。为实现本专利技术的目的,构建结合回声状态网络和支持向量机的组合分类模型包括以下步骤:1)数据的预处理,对所收集数据进行分类或分组前所做的审核、筛选、排序等必要的处理。2)使用最大信息系数来度量特征和类别之间的相关性,融合马氏距离与最大信息系数综合评定特征和类别、特征和特征之间的相关程度,共同衡量特征之间的冗余度以及特征与类别之间的关联度,选出数据特征变量集。3)回声状态网络是最简单但有效的递归神经网络之一,回声状态网络的状态空间输出将作为支持向量机分类器的输入。4)得出电信客户数据集流失与否的结果。与经典的单一分类算法模型相比,本专利技术的有益效果是:1)该算法在实时和精度要求的范围内,可以通过某种方式使基本分类器以高效的方式协同工作,以便做到最好利用优势和绕过劣势,整合学习优势组合每种算法。2)该算法使预测模型具有更好的命中率和准确率。附图说明图1是本专利技术的电信客户流失预测系统的总体架构。图2是本专利技术的预测模型应用模块流程图。图3是本专利技术的初始化、训练、使用的具体方案图。图4是本专利技术的整体流程图。具体实施方式为了使本专利技术的目的、特征、优点更加明显易懂,下面结合基础基论、公式附图,按照基本原理、宏观流程、具体步骤的顺序对本专利技术做进一步的详细说明。步骤1、对样本集进行预处理。数据预处理有多种方法:数据清理,数据集成,数据变换,数据归约等。数据清理通过填写缺失值、光滑噪声数据、识别或删除离群点并解决不一致性来清理数据。实现格式标准化,异常数据清除,错误纠正,重复数据的清除。数据集成将多个数据源中的数据结合起来并统一存储,建立数据仓库或数据集市。数据变换通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的形式。数据归约删除原始特征集合中的无用特征、弱相关特征和冗余特征,得到数据集的归约表示的同时保持原数据的完整性。步骤2、对样本集进行特征选择。利用马氏距离和最大信息系数对数据集进行处理,得到特征和类别、特征与特征之间的融合系数,最后根据选择标准,找出需要的特征。样本向量S为X1~Xm,均值为μ,协方差矩为ε,则样本X到μ的马氏距离为:Xi向量到Xj的马氏距离为:对于有限集合D,将D集合分割成x乘y的网格。定义x*y的网格为G,D|G是有限集合D中的点在网格G上的概率分布。通过不断调整网格分辨率,分别得到不同的概率分布。MaxI(D|G)表示在x*y分辨率分割方式中得到的最大互信息值。假设有限集合D的大小为n,网络规模需小于B(n),B(n)为可搜寻网格的上界,其目的是为了限制算法的搜索范围,降低算法的复杂度。则最大信息系数表示为:由于马氏距离在判断特征之间的关系时,其值越大代表特征之间的离散度越大,而最大信息系数值越大,代表特征之间的相关性越大,因此定义融合马氏距离和最大信息系数的融合系数为P。因此P(Xi,Xj)的值越大,说明特征之间的相关性强。特征和类别之间的融合系数为S为特征集合,clas为类别,P(chari,clas)为特征chari和类标签clas之间的融合系数。特征和特征之间的融合系数为xi,xj为不同特征,P(xi,xj)为特征xi和特征xj之间的融合系数。需要保证特征和类别之间的融合最大,具有最大关联,而特征之间的关联度最小,因此最小冗余最大相关特性选择标准为:max(M-R)对求出的所有M-R的值进行排序,找出最大值,选出最优的特征子集。步骤3、组合分类器的构建。回声状态网络的核心结构是一个随机生成且保持不变的储备池(Reservoir);其输出权值是唯一需要调整的部分;简单的线性回归就可完成网络的训练。图中t时刻的输入u(t),一共有K个节点,储备池状态为x(t),N个节点,输出为y(t),L个节点。t时刻的状态为:u(t)=[u1(t),u2(t),···,uk(t)]Tx(t)=[x1(t),x2(t),···,xN(t)]Ty(t)=[y1(t),y2(t),···,yL(t)]T输入层到储备池的连接为Win(N*K阶),储备池到下一个时刻储备池状态的连接为W(N*N阶),储备池到输出层的连接为Wout(L*(K+N+L)阶)。另外还有一个前一时刻的输出层到下一时刻的储备池的连接Wback(N*L阶),这个连接不是必须的(图中虚线表示)。每一时刻输入u(t),储备池都要更新状态,它的状态更新方程为:x(t+1)=f(Win×u(t+1)+Wx(t)+z(t+1))式中,Win和W都是在最初建立网络的时候随机初始化的,并且固定不变,u(t+1)是这个时候的输入,x(t+1)是这个时刻的储备池状态,x(t)是上一个时刻的储备池状态,z(t+1)是不影响的噪声函数,在t=0时刻可以用0初始化,f是DR内部神经元激活函数,通常使用双曲正切函数。在建模的时候,和一般的神经网络一样,会在连接矩阵上加上一个偏置量,所以输入u的是一个长度为1+K的向量,Win是一个[1+K,N]的矩阵,x是一个长度为N的向量。ESN的输出状态方程为:y(t+1)=fout×(Wout×(u(t+1),x(t+1)))式中,fout是输出层神经元激活函数。到这里有了储备池状态,有了ESN输出方式,就可以根据目标输出y(target)来确定Wout,以使得y(t+1)和y(target)的差距尽可能小。储备池是该网络的核心结构,就是随机生成的、大规模的、稀疏连接的递归结构。回声状态网络的储备池内部连接权谱半径SR,其为连接权矩阵W的绝对值本文档来自技高网...

【技术保护点】
1.一种结合回声状态网络和支持向量机的流失预测模型,其特征在于,通过某种方式使基本分类器以高效的方式协同工作,以便做到最好利用优势和绕过劣势,整合学习优势组合每种算法。一种基于机器学习的集成学习和选择性集成学习。研究包括以下步骤:步骤一:数据的预处理,对所收集数据进行分类或分组前所做的审核、筛选、排序等必要的处理。步骤二:使用最大信息系数来度量特征和类别之间的相关性,融合马氏距离与最大信息系数综合评定特征和类别、特征和特征之间的相关程度,共同衡量特征之间的冗余度以及特征与类别之间的关联度,选出数据特征变量集。步骤三:回声状态网络是最简单但有效的递归神经网络之一,回声状态网络的状态空间输出将作为支持向量机分类器的输入。步骤四:得出电信客户数据集流失与否的结果。

【技术特征摘要】
1.一种结合回声状态网络和支持向量机的流失预测模型,其特征在于,通过某种方式使基本分类器以高效的方式协同工作,以便做到最好利用优势和绕过劣势,整合学习优势组合每种算法。一种基于机器学习的集成学习和选择性集成学习。研究包括以下步骤:步骤一:数据的预处理,对所收集数据进行分类或分组前所做的审核、筛选、排序等必要的处理。步骤二:使用最大信息系数来度量特征和类别之间的相关性,融合马氏距离与最大信息系数综合评定特征和类别、特征和特征之间的相关程度,共同衡量特征之间的冗余度以及特征与类别之间的关联度,选出数据特征变量集。步骤三:回声状态网络是最简单但有效的递归神经网络之一,回声状态网络的状态空间输出将作为支持向量机分类器的输入。步骤四:得出电信客户数据集流失与否的结果。2.根据权利要求1所述的方法,其特征在于,所述步骤一具体为:对样本集进行预处理。数据预处理有多种方法:数据清理,数据集成,数据变换,数据归约等。数据清理通过填写缺失值、光滑噪声数据、识别或删除离群点并解决不一致性来清理数据。实现格式标准化,异常数据清除,错误纠正,重复数据的清除。数据集成将多个数据源中的数据结合起来并统一存储,建立数据仓库或数据集市。数据变换通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的形式。数据归约删除原始特征集合中的无用特征、弱相关特征和冗余特征,得到数据集的归约表示的同时保持原数据的完整性。3.根据权利要求2所述的方法,其特征在于,所述步骤二具体为:对样本集进行特征选择。利用马氏距离和最大信息系数对数据集进行处理,得到特征和类别、特征与特征之间的融合系数,最后根据选择标准,找出需要的特征。样本向量S为X1~Xm,均值为μ,协方差矩为ε,则样本X到μ的马氏距离为:Xi向量到Xj的马氏距离为:对于有限集合D,将D集合分割成x乘y的网格。定义x*y的网格为G,D|G是有限集合D中的点在网格G上的概率分布。通过不断调整网格分辨率,分别得到不同的概率分布。MaxI(D|G)表示在x*y分辨率分割方式中得到的最大互信息值。假设有限集合D的大小为n,网络规模需小于B(n),B(n)为可搜寻网格的上界,其目的是为了限制算法的搜索范围,降低算法的复杂...

【专利技术属性】
技术研发人员:曾婷凤刘莉平
申请(专利权)人:中南大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1