本发明专利技术涉及一种电力用户画像自适应聚类方法,属数据挖掘技术领域。采用自动编码机原理实现特征提取,使用恰当的平方损失函数将高维数据降维,获得到更高信息密度的低维信息;采用K均值算法操作进行聚类分析,低维度信息得到在低维度内的初始聚类类别;采用单峰统计测试作为融合的基础算法进行类别融合;集特征提取、聚类分析和类别融合优化于一体,构建集群聚类模式,得到初始聚类类别后计算类别间的单峰统计测试值,根据该值进行类间融合;实现在预先不知道类数的情况下得到合适的类簇数量,有效提升聚类的性能。解决了现有技术将一个集群参数替换为其他参数的方法,对由大型高维数据构建聚类模式效果差强人意,聚类性能无法令人满意的问题。法令人满意的问题。法令人满意的问题。
【技术实现步骤摘要】
一种电力用户画像自适应聚类方法
[0001]本专利技术涉及一种电力用户画像自适应聚类方法,属数据挖掘
技术介绍
[0002]根据电力用户的基本属性、用电行为、缴费行为和诉求行为的差异,开展特征分类和分级,从每种类型中抽取出典型特征,赋予标签的阈值,根据最终标签,结合业务需求场景,开展电力用户个体和群体画像,预测客户行为,准确预估用电量,减少电力供给损失,提高服务满意度,节省电能,是今天电力企业的一项至关重要的工作。进行电力用户个体和群体画像,首先要在大量未标记数据中将数据划分为相似数据点的集群,但实践中通常都不知道有多少集群,构建聚类模式很棘手,现有的基于K表示框架、基于特征提取框架,以及基于密度的框架来构建聚类模式,都是用一个比较容易理解的集群数量参数去交换更复杂的参数,检测到的集群数量在很大程度上受这个较容易理解的集群参数的控制;这类将一个集群参数替换为其他参数的方法对于由大型高维数据:图像、视频和文本组成的现代数据集群而言,构建的聚类模式差强人意,聚类性能难以令人满意。
技术实现思路
[0003]本专利技术的目的在于,针对上述现有技术的不足,提供一种电力用户画像自适应聚类方法,采用自动编码机原理实现特征提取,使用恰当的损失函数将高维数据降维,获得到更高信息密度的低维信息;采用K均值算法操作进行聚类分析,低维度信息得到在低维度内的初始聚类类别;采用单峰统计测试作为融合的基础算法进行类别融合;集特征提取、聚类分析和类别融合优化于一体,构建集群聚类模式,得到初始聚类类别后,计算类别间的单峰统计测试值,根据该值进行类间的融合;实现在预先不知道类数的情况下得到合适的类簇数量,有效提升聚类的性能。
[0004]本专利技术是通过如下的技术方案来实现上述目的的:一种电力用户画像自适应聚类方法,其特征在于:它是通过包括如下的步骤实现的:A、特征提取;B、聚类分析;C、类别融合;特征提取提取实现数据多元化,包括时序数据、类别数据,且无需对数据进行标准化;输入数据首先通过一个编码网络进行特征提取,然后通过K均值算法进行初始聚类,后通过单峰统计测试值矩阵进行类别融合,通过统一的损失函数统一优化,重复特征提取、聚类分析和类别融合上述步骤过程直至稳定,最后输出标签和类簇数量K。
[0005]所述特征提取通过如下子步骤实现:A.1)自动编码机准备:自动编码机分为编码部分enc(
·
)和解码部分dec(
·
),输入为X;
A.2)自动编码机训练:网络的输入和输出是相同的,即X = dec(enc(X)),训练使Loss函数值最小;A.3)特征提取,使用训练好的自动编码机的编码部分得到特征数据:enc(X)。
[0006]所述聚类分析通过如下子步骤实现:B.1)将原始输入特征(X)输入编码部分,得到低维的特征向量enc(X);B.2)将步骤2.1得到的enc(X)使用K均值算法进行聚类,得到原始的类别记为,其中i表示聚类标签;B.3)更新类别中心为最靠近K均值算法所得出的类别中心的实际的向量,得到聚类类别数据标签。
[0007]所述类别融合通过如下子步骤实现:C.1)每两个类别的聚类类别数据标签均投影到两类类别中心的连线上;C.2)每两个类别中心的数据计算单峰统计测试值为Dip值和dip
‑
p
‑
value值,使用dip
‑
p
‑
value值得到一个大小为:类簇数量*类簇数量的单峰统计测试值的对称矩阵Matrix;C.3)对于单峰统计测试矩阵中最大的值,若最大的值大于阈值则融合两个类,同时更新矩阵,直到没有融合合并为止。
[0008]一种电力用户画像自适应聚类方法,其特征在于:所述的自动编码机网络训练过程使用梯度下降法对公式(1)求最小值:最小值:表示自动编码机的损失,其中B表示一个小的输入批次,X表示输入数据,也即自动编码机想要的输出数据,enc(
·
)表示数据经过编码网络编码后的数据,dec(
·
)表示数据经过解码网络后的数据,表示欧式距离的平方。
[0009]一种电力用户画像自适应聚类方法,其特征在于:自动编码机编码后的结果首先通过普通的K均值算法进行一个非常高估的类簇数量的聚类,求取类簇中心,随后对当前类簇构造单峰统计测试值的矩阵,再根据该单峰统计测试值的矩阵进行类簇融合,最后输出类簇数量K和具体的标签。
[0010]一种电力用户画像自适应聚类方法,其特征在于:所述类簇中心按照公式(2)得到:其中表示类簇标签为的类簇中心。表示使用K均值算法得到的类簇中心。
[0011]计算单峰统计测试值的点值由公式(3)得到:
其中是一个一维数据。
[0012]一种电力用户画像自适应聚类方法,其特征在于:聚类的损失评估使用公式(4)得到,并且通过最小化公式(6)对整个过程进行优化:到,并且通过最小化公式(6)对整个过程进行优化:表示聚类的损失,其中是分配给的类簇标签,std(
·
)表示标准差,mean(
·
)表示平均值。表示类簇中心的欧式距离,由公式(5)得到:其中表示自动编码机的损失,表示聚类的损失。
[0013]一种电力用户画像自适应聚类方法,其特征在于:类簇融合后类簇中心通过公式(7)得到:并且通过不断更新单峰统计测试值的矩阵进行合并。
[0014]本专利技术与现有技术相比的有益效果在于:该电力用户画像自适应聚类方法,特征提取通过使用平方损失函数,将高维的数据降维,聚类分析则使用应用范围较广泛的K均值算法进行操作,类别融合阶段则使用单峰统计测试作为融合的基础算法,获得到更高信息密度的低维度信息,从低维度信息得到在低维度内的初始聚类类别;采用单峰统计测试进行类别融合,依据单峰函数的特质,集特征提取、聚类分析和类别融合优选于一体,构建集群聚类模式,得到初始聚类类别后,计算类别间的单峰统计测试值,再根据该值进行类间的融合;实现在预先不知道类数的情况下得到合适的类簇数量,有效提升聚类的性能。解决了现有技术将一个集群参数替换为其他参数的方法,对由大型高维数据构建聚类模式效果差强人意,聚类性能无法令人满意的问题。
附图说明
[0015]图1为本专利技术的特征提取的工作流程示意图;图2为本专利技术的聚类分析的工作流程示意图;图3为本专利技术的整体工作流程示意图。
具体实施方式
[0016]下面结合附图对该电力用户画像自适应聚类方法的实施方式作进一步详细说明(参见图1
‑
3):应当理解,此处所描述的实施示例仅用于说明和解释本专利技术,并不用于限定本专利技术。
[0017]一种电力用户画像自适应聚类方法,其特点是:它是通过包括如下的步骤实现的:步骤A、特征提取;步骤B、聚类分析;步骤C、类别融合;特征提取实现数据多元化,包括时序数据、类别数据,且无需对数据进行标准化;输入数据首先通过一个编码网络进行特征提取,然后通过K均值算法进行初始聚类,后通过单峰统计测试值矩阵进行类本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种电力用户画像自适应聚类方法,其特征在于:它是通过包括如下的步骤实现的:步骤A、特征提取;步骤B、聚类分析;步骤C、类别融合;特征提取提取实现数据多元化,包括时序数据、类别数据,且无需对数据进行标准化;输入数据首先通过一个编码网络进行特征提取,然后通过K均值算法进行初始聚类,后通过单峰统计测试值矩阵进行类别融合,通过统一的损失函数统一优化,重复特征提取、聚类分析和类别融合上述步骤过程直至稳定,最后输出标签和类簇数量K;步骤A、特征提取——通过如下子步骤实现:A.1)自动编码机准备:自动编码机分为编码部分enc(
·
)和解码部分dec(
·
),输入为X;A.2)自动编码机训练:网络的输入和输出是相同的,即X = dec(enc(X)),训练使Loss函数值最小;A.3)特征提取,使用训练好的自动编码机的编码部分得到特征数据:enc(X) ;步骤B、聚类分析——通过如下子步骤实现:B.1)将原始输入特征(X)输入编码部分,得到低维的特征向量enc(X);B.2)将步骤2.1得到的enc(X)使用K均值算法进行聚类,得到原始的类别记为,其中i表示聚类标签;B.3)更新类别中心为最靠近K均值算法所得出的类别中心的实际的向量,得到聚类类别数据标签;步骤C、类别融合——通过如下子步骤实现:C.1)每两个类别的聚类类别数据标签均投影到两类类别中心的连线上; C.2)每两个类别中心的数据计算单峰统计测试值为Dip值和dip
‑
p
‑
value值,使用dip
‑
p
‑
value值得到一个大小为:类簇数量*类簇数量的单峰统计测试值的对称矩阵Matrix;C.3)对于单峰统计测试矩阵中最大的值,若最大的值大于阈值则融合两个类,同时更新矩阵,直到没有融合合并为止。2.根...
【专利技术属性】
技术研发人员:李涛,李凌,吕雪涛,汪波,何年容,王星,贾冰蕾,李成,
申请(专利权)人:国网湖北省电力有限公司荆州供电公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。