一种电力用户画像自适应聚类方法技术

技术编号：31758292 阅读：24 留言：0更新日期：2022-01-05 16:41

本发明专利技术涉及一种电力用户画像自适应聚类方法，属数据挖掘技术领域。采用自动编码机原理实现特征提取，使用恰当的平方损失函数将高维数据降维，获得到更高信息密度的低维信息；采用K均值算法操作进行聚类分析，低维度信息得到在低维度内的初始聚类类别；采用单峰统计测试作为融合的基础算法进行类别融合；集特征提取、聚类分析和类别融合优化于一体，构建集群聚类模式，得到初始聚类类别后计算类别间的单峰统计测试值，根据该值进行类间融合；实现在预先不知道类数的情况下得到合适的类簇数量，有效提升聚类的性能。解决了现有技术将一个集群参数替换为其他参数的方法，对由大型高维数据构建聚类模式效果差强人意，聚类性能无法令人满意的问题。法令人满意的问题。法令人满意的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种电力用户画像自适应聚类方法

[0001]本专利技术涉及一种电力用户画像自适应聚类方法，属数据挖掘

技术介绍

[0002]根据电力用户的基本属性、用电行为、缴费行为和诉求行为的差异，开展特征分类和分级，从每种类型中抽取出典型特征,赋予标签的阈值，根据最终标签，结合业务需求场景，开展电力用户个体和群体画像，预测客户行为，准确预估用电量，减少电力供给损失，提高服务满意度，节省电能，是今天电力企业的一项至关重要的工作。进行电力用户个体和群体画像，首先要在大量未标记数据中将数据划分为相似数据点的集群，但实践中通常都不知道有多少集群，构建聚类模式很棘手，现有的基于K表示框架、基于特征提取框架，以及基于密度的框架来构建聚类模式，都是用一个比较容易理解的集群数量参数去交换更复杂的参数，检测到的集群数量在很大程度上受这个较容易理解的集群参数的控制；这类将一个集群参数替换为其他参数的方法对于由大型高维数据：图像、视频和文本组成的现代数据集群而言，构建的聚类模式差强人意，聚类性能难以令人满意。

技术实现思路

[0003]本专利技术的目的在于，针对上述现有技术的不足，提供一种电力用户画像自适应聚类方法，采用自动编码机原理实现特征提取，使用恰当的损失函数将高维数据降维，获得到更高信息密度的低维信息；采用K均值算法操作进行聚类分析，低维度信息得到在低维度内的初始聚类类别；采用单峰统计测试作为融合的基础算法进行类别融合；集特征提取、聚类分析和类别融合优化于一体，构建集群聚类模式，得到初始聚类类别后，计算类别间的单峰统...

【技术保护点】

【技术特征摘要】
1.一种电力用户画像自适应聚类方法，其特征在于：它是通过包括如下的步骤实现的：步骤A、特征提取；步骤B、聚类分析；步骤C、类别融合；特征提取提取实现数据多元化，包括时序数据、类别数据，且无需对数据进行标准化；输入数据首先通过一个编码网络进行特征提取，然后通过K均值算法进行初始聚类，后通过单峰统计测试值矩阵进行类别融合，通过统一的损失函数统一优化，重复特征提取、聚类分析和类别融合上述步骤过程直至稳定，最后输出标签和类簇数量K；步骤A、特征提取——通过如下子步骤实现：A.1）自动编码机准备：自动编码机分为编码部分enc(
·
)和解码部分dec(
·
)，输入为X；A.2）自动编码机训练：网络的输入和输出是相同的，即X = dec(enc(X))，训练使Loss函数值最小；A.3）特征提取，使用训练好的自动编码机的编码部分得到特征数据：enc(X) ；步骤B、聚类分析——通过如下子步骤实现：B.1）将原始输入特征(X)输入编码部分,得到低维的特征向量enc(X)；B.2）将步骤2.1得到的enc(X)使用K均值算法进行聚类，得到原始的类别记为，其中i表示聚类标签；B.3）更新类别中心为最靠近K均值算法所得出的类别中心的实际的向量，得到聚类类别数据标签；步骤C、类别融合——通过如下子步骤实现：C.1）每两个类别的聚类类别数据标签均投影到两类类别中心的连线上； C.2）每两个类别中心的数据计算单峰统计测试值为Dip值和dip
‑
p
‑
value值，使用dip
‑
p
‑
value值得到一个大小为：类簇数量*类簇数量的单峰统计测试值的对称矩阵Matrix；C.3）对于单峰统计测试矩阵中最大的值，若最大的值大于阈值则融合两个类，同时更新矩阵，直到没有融合合并为止。2.根...

【专利技术属性】
技术研发人员：李涛，李凌，吕雪涛，汪波，何年容，王星，贾冰蕾，李成，
申请(专利权)人：国网湖北省电力有限公司荆州供电公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人