The invention proposes to construct a loss prediction model combining echo state network and support vector machine. In view of the unsatisfactory prediction effect of single model, this paper explores an improved classifier construction method. The construction of classifier can be divided into three aspects: training set construction strategy, classifier selection strategy and prediction value determination strategy. By fusing Mahalanobis distance and maximum information coefficient, the correlation degree between features and categories, features and features is evaluated comprehensively, and the redundancy between features and the correlation degree between features and categories are measured jointly. By combining the advantages of Echo State Network and Support Vector Machine (SVM), linear constraints are used to solve the quadratic optimization problem, so as to improve the performance of telecom customer churn system and the prediction effect of customer churn prediction model.
【技术实现步骤摘要】
一种基于组合分类器的客户流失预测模型
本专利技术涉及电信客户流失分类领域,特别是一种基于组合分类器的客户流失预测模型。
技术介绍
在当前电信市场环境下,吸引新的客户和挽留己有客户成为电信运营商客户管理系统的两个重要主题。潜在流失客户的预测分析是实施客户挽留策略的一个关键环节,已成为当今学术界和商业界广泛关注的一个热口话题。客户流失预测分析的目的是预测出具有较高流失槪率的客户,正确锁定潜在流失客户群体。在此基础上,分配并调整有限的营销资源,制定有针对性的客户挽留策略,提高客户挽留策略的有效性,提高后续营销活动的投资回报率,进一步减少客户流失带来的经济损失。因此,构建一个商效、准确的电信客户流失预测模型,预测出具有较高流失概率的客户,对电信企业具有重大意义。近年来的文献中,提出了不同类型的基于机器学习的方法来开发流失预测模型,大多数都只考虑了单一机器学习技术进行流失预测,包括决策、人工神经网络、朴素贝叶斯和支持向量机等。单个分类器预测数据必然会导致效率和性能的偏差,在实时和精度要求的范围内,可以通过某种方式使基本分类器以高效的方式协同工作,以便做到最好利用优势和绕过劣势,整合学习优势组合每种算法。因此基于机器学习的集成学习和选择性集成学习研究迅速发展,分类和挖掘的性能优于传统方法,已成为研究客户流失预测的新方法。
技术实现思路
本专利技术的目的是针对单一分类算法模型对电信客户流失预测性能不太理想的问题,提供一种组合分类模型。首先融合马氏距离与最大信息系数综合评定特征和类别、特征和特征之间的相关程度,共同衡量特征之间的冗余度以及特征与类别之间的关联度。在找到最优数据 ...
【技术保护点】
1.一种结合回声状态网络和支持向量机的流失预测模型,其特征在于,通过某种方式使基本分类器以高效的方式协同工作,以便做到最好利用优势和绕过劣势,整合学习优势组合每种算法。一种基于机器学习的集成学习和选择性集成学习。研究包括以下步骤:步骤一:数据的预处理,对所收集数据进行分类或分组前所做的审核、筛选、排序等必要的处理。步骤二:使用最大信息系数来度量特征和类别之间的相关性,融合马氏距离与最大信息系数综合评定特征和类别、特征和特征之间的相关程度,共同衡量特征之间的冗余度以及特征与类别之间的关联度,选出数据特征变量集。步骤三:回声状态网络是最简单但有效的递归神经网络之一,回声状态网络的状态空间输出将作为支持向量机分类器的输入。步骤四:得出电信客户数据集流失与否的结果。
【技术特征摘要】
1.一种结合回声状态网络和支持向量机的流失预测模型,其特征在于,通过某种方式使基本分类器以高效的方式协同工作,以便做到最好利用优势和绕过劣势,整合学习优势组合每种算法。一种基于机器学习的集成学习和选择性集成学习。研究包括以下步骤:步骤一:数据的预处理,对所收集数据进行分类或分组前所做的审核、筛选、排序等必要的处理。步骤二:使用最大信息系数来度量特征和类别之间的相关性,融合马氏距离与最大信息系数综合评定特征和类别、特征和特征之间的相关程度,共同衡量特征之间的冗余度以及特征与类别之间的关联度,选出数据特征变量集。步骤三:回声状态网络是最简单但有效的递归神经网络之一,回声状态网络的状态空间输出将作为支持向量机分类器的输入。步骤四:得出电信客户数据集流失与否的结果。2.根据权利要求1所述的方法,其特征在于,所述步骤一具体为:对样本集进行预处理。数据预处理有多种方法:数据清理,数据集成,数据变换,数据归约等。数据清理通过填写缺失值、光滑噪声数据、识别或删除离群点并解决不一致性来清理数据。实现格式标准化,异常数据清除,错误纠正,重复数据的清除。数据集成将多个数据源中的数据结合起来并统一存储,建立数据仓库或数据集市。数据变换通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的形式。数据归约删除原始特征集合中的无用特征、弱相关特征和冗余特征,得到数据集的归约表示的同时保持原数据的完整性。3.根据权利要求2所述的方法,其特征在于,所述步骤二具体为:对样本集进行特征选择。利用马氏距离和最大信息系数对数据集进行处理,得到特征和类别、特征与特征之间的融合系数,最后根据选择标准,找出需要的特征。样本向量S为X1~Xm,均值为μ,协方差矩为ε,则样本X到μ的马氏距离为:Xi向量到Xj的马氏距离为:对于有限集合D,将D集合分割成x乘y的网格。定义x*y的网格为G,D|G是有限集合D中的点在网格G上的概率分布。通过不断调整网格分辨率,分别得到不同的概率分布。MaxI(D|G)表示在x*y分辨率分割方式中得到的最大互信息值。假设有限集合D的大小为n,网络规模需小于B(n),B(n)为可搜寻网格的上界,其目的是为了限制算法的搜索范围,降低算法的复杂...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。