【技术实现步骤摘要】
基于改进狼群优化K
‑
means的用户投诉聚类分析方法
[0001]本专利技术属于数据分析
,特指一种基于改进狼群优化K
‑
means的用户投诉聚类分析方法。
技术介绍
[0002]我国电力企业在信息化建设中引进了成熟的信息储存和数据保存技术,各公司客户服务系统均已积累海量、详实的业务数据,具备高容量、多样化和实时性的特点。实际工作中,公司采用传统的数据处理方式,从客户服务数据中提取得到一些统计表格,例如人工服务率、满意率等指标,但这难以发现隐藏于数据中的业务规律,更难抽象出描述业务特点的数学模型。客户服务依赖交涉、反馈、表扬和投诉,不局限在绝对场景。客户对服务的投诉和抱怨直接反映其对服务的不满和最急迫的需求,投诉处理可反映企业员工的业务能力和管理中可能存在的问题,电力公司客户服务系统中积累了大量业务工单数据,其中隐含着客户对业务的需求和服务期望,对企业的业务提升和管理均有指导意义,随着电力企业改革进程的推进和国家营商环境的提高,降低客户投诉率,提升供电公司服务水平尤为重要。
[0003]电力用户投诉风险等级划分本质上是一种聚类分析的问题,可以使用聚类算法实现。K
‑
means具有算法简单、快速而且能有效处理大数据集的优点,可以实现电力用户投诉风险等级的快速、高效分类。通过结合用户信息数据的不同特征,从而成功的实现对电力用户投诉行为的分类。传统K
‑
means算法是随机选择初始聚类中心,这种随机性会对聚类结果造成很大的影响。 >
技术实现思路
[0004]针对电力用户投诉风险等级划分的问题,本专利技术为了提高对K
‑
means算法的聚类准确率和稳定性,解决算法最佳聚类中心的问题,提出一种基于改进狼群的K
‑
means聚类方法。
[0005]为实现上述目的,本专利技术采用的技术方案是:一种基于改进狼群优化K
‑
means的用户投诉聚类分析方法,所述的分析方法包括如下步骤:
[0006]步骤S11:收集电力用户用电信息数据;
[0007]步骤S12:通过数据预处理方法补全用户用电信息数据;
[0008]步骤S13:基于改进狼群优化K
‑
means的聚类算法,将电力用户用电信息数据降维;
[0009]步骤S14:选取电力用户用电信息数据特性向量;
[0010]步骤S15:对电力用户用电信息数据浓度因子分子判断。
[0011]进一步地,基于改进狼群优化K
‑
means的聚类算法,包括如下步骤:
[0012]步骤S21:初始化狼群,设置人工狼位置X
i
,迭代次数k,探狼比例因子α,游走次数T
max
,以及聚类个数N,计算狼群的适应度函数并选出当前最优解X
best
,除头狼外最佳的S匹人工狼为探狼;
[0013]步骤S22:执行交互游走行为,直到某匹探狼i侦察到的猎物气味浓度Y
i
大于头狼
所感知的猎物气味浓度Y
lead
或达到最大游走次数T
max
;
[0014]步骤S23:猛狼根据交互召唤行为向猎物奔袭,若途中感知的猎物气味浓度Y
i
>Y
lead
,则Y
lead
=Y
i
,取代头狼发起召唤行为;
[0015]步骤S24:对猛狼位置进行更新,执行围攻行为;
[0016]步骤S25:按“胜者为王”的头狼产生规则对头狼位置进行更新,再按照“强者生存”的狼群更新机制进行群体更新,根据改进狼群寻优的最新位置计算新的簇中心;
[0017]步骤S26:达到结束条件时结束;否则,返回步骤S23。
[0018]进一步地,所述步骤S11中,采用最大值规范化来对数据进行范数化处理,将数值归一化到[0,1]区间;
[0019]数据归一化的公式所示:
[0020][0021]其中,X代表用户的用电信息数据;X
min
和X
max
分别某用户信息数据符合的最小值、最大值。
[0022]进一步地,所述步骤S12中,对于缺失率大于30%的数据,进行简单的删除处理;对于缺失率小于等于30%的数据,采用插补法进行用电信息数据填充,根据已有的数据求得多项式函数L(x),其拉格朗日插值多项式为:
[0023][0024]之后将缺失值对应的点带入插值多项式得到缺失值的近似值L(x),进而补全数据。
[0025]进一步地,所述步骤S13中,在进行聚类分析之前,采用主成分分析法对影响电力客户的影响因素进行降维,对用电量、电压等级、投诉次数、年龄、性别、总用电量、违规用电量进行主成分分析,其中:
[0026]第i个主成分的方差贡献率为:
[0027][0028]前i个主成分的累计方差贡献率为:
[0029][0030]其中,主成分的方差贡献率α
i
的值越大,与样本的相关性越强。
[0031]进一步地,所述步骤S14中,对电力用户数据集进行特征提取:用相关系数来表示它们之间的属性相关度,可得相关系数R
a
:
[0032][0033]其中,σ
x
、σ
y
表示X、Y的方差,E(X)、E(Y)表示X、Y的期望值,R
a
表示每个用电信息数据相应的相关度,相关性系数R
a
越大,对投诉风险的影响因素越大;所述步骤S15中,在显著性水平为0.05的前提下剔除零假设,初始KMO检验值满足并超过临界值0.5,模型数据符合因子分析方法。
[0034]进一步地,所述步骤S22中,探狼向n个方向进行探索,n越大,寻优精度越高,为了增加探狼间的交互性及提高寻优能力,其搜索方式为:
[0035][0036]其中:y
i,d
表示猎物更新的位置,表示范围内寻求的最优解,x
i,d
表示原来猎物的位置,α
i,d
为[0,1]的随机数,β
i,d
为[
‑
1,1]的随机数,k≠i≠j。
[0037]进一步地,所述步骤S23中:选取更好的聚类中心点Y
i
的方向前进,更新猛狼位置X
i
,选取最佳聚类中心点位置的狼作为头狼。
[0038]进一步地,所述步骤S24中,随着算法迭代次数t增加线性变化的自适应步长,其公式为:
[0039][0040]其中:表示第k+1代群体头狼的位置,表示第k代群体头狼的位置,为第k代群体头狼在第d维空间中的位置,θ为因子,取为(0,1)内随机数:w为{
‑
1,1}内的随机整数
[0041]本专利技术相比现有技术突出且有益的技术效果是:本专利技术针对电力用户本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于改进狼群优化K
‑
means的用户投诉聚类分析方法,其特征在于,所述的分析方法包括如下步骤:步骤S11:收集电力用户用电信息数据;步骤S12:通过数据预处理方法补全用户用电信息数据;步骤S13:基于改进狼群优化K
‑
means的聚类算法,将电力用户用电信息数据降维;步骤S14:选取电力用户用电信息数据特性向量;步骤S15:对电力用户用电信息数据浓度因子分子判断。2.根据权利要求1所述的基于改进狼群优化K
‑
means的用户投诉聚类分析方法,其特征在于,基于改进狼群优化K
‑
means的聚类算法,包括如下步骤:步骤S21:初始化狼群,设置人工狼位置X
i
,迭代次数k,探狼比例因子α,游走次数T
max
,以及聚类个数N,计算狼群的适应度函数并选出当前最优解X
best
,除头狼外最佳的S匹人工狼为探狼;步骤S22:执行交互游走行为,直到某匹探狼i侦察到的猎物气味浓度Y
i
大于头狼所感知的猎物气味浓度Y
lead
或达到最大游走次数T
max
;步骤S23:猛狼根据交互召唤行为向猎物奔袭,若途中感知的猎物气味浓度Y
i
>Y
lead
,则Y
lead
=Y
i
,取代头狼发起召唤行为;步骤S24:对猛狼位置进行更新,执行围攻行为;步骤S25:按“胜者为王”的头狼产生规则对头狼位置进行更新,再按照“强者生存”的狼群更新机制进行群体更新,根据改进狼群寻优的最新位置计算新的簇中心;步骤S26:达到结束条件时结束;否则,返回步骤S23。3.根据权利要求1所述的基于改进狼群优化K
‑
means的用户投诉聚类分析方法,其特征在于:所述步骤S11中,采用最大值规范化来对数据进行范数化处理,将数值归一化到[0,1]区间;数据归一化的公式所示:其中,X代表用户的用电信息数据;X
min
和X
max
分别某用户信息数据符合的最小值、最大值。4.根据权利要求1所述的基于改进狼群优化K
‑
means的用户投诉聚类分析方法,其特征在于:所述步骤S12中,对于缺失率大于30%的数据,进行简单的删除处理;对于缺失率小于等于30%的数据,采用插补法进行用电信息数据填充,根据已有的数据求得多项式函数L(x),其拉格朗日插值多项式为:
之后将缺失值对应的点带入插值多项...
【专利技术属性】
技术研发人员:郑健,杨威,王长春,姜丹丹,韩广忠,杨佳钰,张依娇,杨祺,夏力鹏,郭天超,杨勇,白日明,
申请(专利权)人:国家电网有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。