基于多种聚类算法和多元线性回归的电力客户聚类方法技术

技术编号:32572903 阅读:7 留言:0更新日期:2022-03-09 17:00
本发明专利技术公开了一种基于多种聚类算法和多元线性回归的电力客户聚类方法,包括:通过多种聚类算法对电力客户数据集进行预分类;根据预分类结果对电力客户数据集中的电力客户数据进行关键实例选取;以关键实例为基础建立多元线性回归模型,并构建用于求解每种聚类算法权重系数的目标求解函数,求解目标函数获得每种聚类算法的权重系数;根据每种聚类算法的权重系数进行决策分类的综合计算,实现对电力客户数据的分类。本发明专利技术通过算法间的聚类与交互,弥补了单一聚类算法对电力客户分类的局限性,有效提升了电力客户类型的识别精度,更准确的挖掘出有价值的客户信息。确的挖掘出有价值的客户信息。确的挖掘出有价值的客户信息。

【技术实现步骤摘要】
基于多种聚类算法和多元线性回归的电力客户聚类方法


[0001]本专利技术涉及电力营销用电客户行为数据分析
,更具体的说是涉及一种基于多种聚类算法和多元线性回归的电力客户聚类方法。

技术介绍

[0002]随着电力行业信息化建设的高速发展,电力客户数据变得越来越庞大且繁杂,同时也为电网公司数据分析提出了更高的要求。对于电力行业来说,电力的供给和消费是营销的主要目的所在,其附带的功能及配套服务是营销的后续关键所在,目前电力行业营销数据主要产生于费用缴存、费用查询、低费提醒、活动推送、电力服务通知、故障申报、合作洽谈、客户信息服务等内容。
[0003]电力营销积累了大量用户信息及其用电行为数据,通过对该数据进行有效的聚类和分类分析,可以提取有价值的用户群体和用户用电特征,为后续的电力营销策略提供支持,从而便于电力行业的业务发展以及市场决策的定向。在客户细分的基础上,对客户进行精准定位,关注优质客户、敏感客户,有效提升电力营销专业服务水平,降低业务风险,提高用户满意度,制定出更适合于不同客户的用电方案,保证优秀的服务质量。
[0004]但是,目前基于单一聚类主动学习方法的电力用户的数据分析适用数据集有限且对于不同分布数据集识别效果也会不同,使得电力数据中有价值的客户用电信息不能精准快速的发掘,造成聚类结果不够精确,降低工作效率,从而影响了电力业务的发展。
[0005]因此,如何对电力用户进行精准快速聚类,从而挖掘出有价值的客户信息是本领域技术人员亟需解决的问题。

技术实现思路

[0006]本专利技术的目的在于:为在大数据下的电力客户信息进行快速的分析与挖掘提供一种富有成效的聚类方法。
[0007]为了实现上述目的,本专利技术采用如下技术方案:
[0008]一种基于多种聚类算法和多元线性回归的电力客户聚类方法,包括以下步骤:
[0009](1)通过多种聚类算法对电力客户数据集进行预分类;
[0010](2)根据预分类结果对电力客户数据集中的电力客户数据进行关键实例选取;
[0011](3)以关键实例为基础建立多元线性回归模型,并构建用于求解每种聚类算法权重系数的目标求解函数,求解目标函数获得每种聚类算法的权重系数;
[0012](4)根据每种聚类算法的权重系数进行决策分类的综合计算,实现对电力客户数据的分类。
[0013]优选的,步骤(1)中所述多种聚类算法包括K

Means、DPCA、模糊C均值聚类算法和层次聚类算法。
[0014]优选的,步骤(1)中通过多种聚类算法对电力客户数据集进行预分类,具体包括以下步骤:
[0015]S11、每种聚类算法根据自身的聚类原则,对电力客户数据集进行无类别划分的聚类操作,将电力客户数据集划分成预先设定好的簇数;
[0016]S12、以其中任意一种聚类算法为基础,将该聚类算法聚成的簇数同其余几种聚类算法聚成的簇数进行一一查询比较,根据交集个数最多被分为一类的原则,依次对每种聚类算法的簇数进行分类;
[0017]S13、将每类结果的前几个数据点与专家进行交互获得其真实类别,将这几个数据点中类别相同个数最多的类别标记上伪标签。
[0018]优选的,步骤S13中,已被标记了伪标签的类别不再计算其类别个数,保证所有的类别都被标记上伪标签。
[0019]优选的,步骤(2)中对电力客户数据集中的电力客户数据进行关键实例选取,具体包括:
[0020]S21、定义电力客户数据的局部密度:
[0021][0022]式中:x表示所选取的电力客户数据点的向量形式,x
i
表示局部密度更高的数据点的向量形式,d
c
表示截止距离;dist表示两个数据之间的欧氏距离;χ()为一个判断函数,若括号内的值小于0,则χ=1;若括号内的值大于等于0,则χ=0;
[0023]S22、定义电力客户数据点与局部密度更高的数据点的最小距离:
[0024][0025]S23、根据局部密度及最小距离计算电力客户数据的优先级:
[0026]p=δ
×
ρ
[0027]S24、获取优先级最大的电力客户数据,将优先级最大的电力客户数据循环计算k次,获取k个数据即为电力客户数据中的关键实例,所述循环计算公式为
[0028][0029]式中X
train
为训练集,x
used
为当前已被得到的离x
max
最近的电力客户数据点。
[0030]优选的,所述步骤(3)具体包括:
[0031]S31、根据选取的关键实例结合多元线性回归模型建立数据标签值的计算函数,并计算数据标签值,所述数据标签值的计算函数为
[0032][0033]式中,是每个关键实例的预测标签值向量,n
key
是关键实例的个数;θ=(θ1,θ2,θ3,θ4)是四种算法的权重系数向量;C
label
是包含每个聚类算法伪标签的关键实例矩阵;每个关键实例对应每种聚类算法的伪标签值向量;b是常数项系数向量;
[0034]S32、根据数据标签值构建用于求解权重系数向量θ的目标函数,即:
[0035][0036]式中:H
i
是每个关键实例的预测标签值;y
i
是真实标签值。
[0037]S33、对目标函数进行最小二乘变形求导获取用于求解每种聚类算法权重系数的目标求解函数:
[0038][0039]其中,Y代表一个真实标签向量;
[0040]S34、通过对目标求解函数进行求解后,得到权重系数向量θ=(θ1,θ2,θ3,θ4)。
[0041]优选的,步骤(3)还包括步骤S35、对权重系数向量θ进行归一化处理,获取归一化权重系数向量。
[0042]优选的,所述步骤(4)具体包括:
[0043]根据每种聚类算法的权重系数进行决策分类的综合计算,将计算结果超过阈值的样本点进行分类,计算公式如下:
[0044][0045]式中:ε
r
()是一个判断函数,若括号内的值等r,则ε
r
=1,否则,ε
r
=0;C是每个样本对应每种聚类算法的伪标签值;r是数据集的真实类别数;α是决策阈值。
[0046]优选的,步骤(4)还包括对进行决策分类后仍未被分类的数据点,通过KNN分类方法进行进一步分类。
[0047]经由上述的技术方案可知,本专利技术公开提供了一种基于多种聚类算法和多元线性回归的电力客户聚类方法,与现有技术相比,本专利技术通过算法间的聚类与交互,得到真实且具体的电力客户用电特征,弥补了在单一聚类算法下由于算法的局限性无法进行不同数据集的识别聚类,实现了在电力客户所产生的具有不同特征数据集的情况下用户分类,极大提高了电力营销行业对于客户的识别度,保证服务质量的同时加快了工作效率,促进了电力行业的进一步发展。
...

【技术保护点】

【技术特征摘要】
1.一种基于多种聚类算法和多元线性回归的电力客户聚类方法,其特征在于,所述方法包括以下步骤:(1)通过多种聚类算法对电力客户数据集进行预分类;(2)根据预分类结果对电力客户数据集中的电力客户数据进行关键实例选取;(3)以关键实例为基础建立多元线性回归模型,并构建用于求解每种聚类算法权重系数的目标求解函数,求解目标函数获得每种聚类算法的权重系数;(4)根据每种聚类算法的权重系数进行决策分类的综合计算,实现对电力客户数据的分类。2.根据权利要求1所述的基于多种聚类算法和多元线性回归的电力客户聚类方法,其特征在于,步骤(1)中所述多种聚类算法包括K

Means、DPCA、模糊C均值聚类算法和层次聚类算法。3.根据权利要求1所述的基于多种聚类算法和多元线性回归的电力客户聚类方法,其特征在于,步骤(1)中通过多种聚类算法对电力客户数据集进行预分类,具体包括以下步骤:S11、每种聚类算法根据自身的聚类原则,对电力客户数据集进行无类别划分的聚类操作,将电力客户数据集划分成预先设定好的簇数;S12、以其中任意一种聚类算法为基础,将该聚类算法聚成的簇数同其余几种聚类算法聚成的簇数进行一一查询比较,根据交集个数最多被分为一类的原则,依次对每种聚类算法的簇数进行分类;S13、将每类结果的前几个数据点与专家进行交互获得其真实类别,将这几个数据点中类别相同个数最多的类别标记上伪标签。4.根据权利要求3所述的基于多种聚类算法和多元线性回归的电力客户聚类方法,其特征在于,步骤S13中,已被标记了伪标签的类别不再计算其类别个数。5.根据权利要求1所述的基于多种聚类算法和多元线性回归的电力客户聚类方法,其特征在于,步骤(2)中对电力客户数据集中的电力客户数据进行关键实例选取,具体包括:S21、定义电力客户数据的局部密度:式中:x表示所选取的电力客户数据点的向量形式,x
i
表示局部密度更高的数据点的向量形式,d
c
表示截止距离;dist表示两个数据之间的欧氏距离;χ()为一个判断函数,若括号内的值小于0,则χ=1;若括号内的值大于等于0,则χ=0;S22、定义电力客户数据点与局部密度更高的数据点的最小距离:S23、根据局部密度及最小距离计算电力客户数据的优先级:p=δ
×
ρS24、获取优先级最大的电...

【专利技术属性】
技术研发人员:伍福平李科杨德祥蔺海明黄耀
申请(专利权)人:国网重庆市电力公司市南供电分公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1