当前位置: 首页 > 专利查询>青海大学专利>正文

一种用户负荷双层聚类方法技术

技术编号:32552456 阅读:11 留言:0更新日期:2022-03-05 11:52
本发明专利技术涉及负荷数据聚类分析技术领域,公开了一种用户负荷双层聚类方法,使用短时互相关系数聚类算法,对用户负荷进行形态相似聚类,得到多个第一聚类簇;使用欧氏距离聚类算法,对多个第一聚类簇依据幅度进行聚类;采用短时互相关系数对负荷曲线进行形态相似聚类,保留了样本间的不相似程度,避免了互相关系数过度位移致使聚类效果不佳。因为限制了序列的位移区间,相较于DTW和k

【技术实现步骤摘要】
一种用户负荷双层聚类方法


[0001]本专利技术涉及负荷数据聚类分析
,特别涉及用于电力用户的一种用户负荷双层聚类方法。

技术介绍

[0002]目前常见的电力负荷聚类方法有层次聚类、模糊C均值聚类、自组织映射神经网络、谱聚类等以传统的欧氏距离作为负荷曲线相似性判据的方法,还有基于余弦相似度和皮尔逊相关系数算法等形态聚类方法,以及动态时间规整算法(DTW)、k

shape算法等考虑负荷曲线时域特性的形态聚类方法。
[0003]首先,欧氏距离量度方法只考虑了负荷曲线对应时间点的数值分布特性,所以难以有效区分距离相近而形态差异较大的负荷曲线,而且对曲线形态识别能力较差。
[0004]其次,用户的负荷数据作为时间序列,或因不同用户本身用电习惯不完全一致,出现不同用户的负荷曲线形态相似,但在时域存在较小差异,或因数据采集设备受到干扰使负荷曲线位移,增加了基于余弦相似度或皮尔逊相关系数的传统形态聚类方法的聚类难度。
[0005]最后,DTW和k

shape算法虽然能够一定程度上满足时间序列的尺度变换不变性和位移变换不变性,减小外部不确定因素对负荷曲线时序特征的影响,对负荷曲线的形态进行识别,但是都存在过度弯曲时间轴导致衡量偏差和无法区分形态相似但幅度不同的典型负荷类型的问题。
[0006]为弥补欧氏距离对负荷曲线形态感知能力不佳的缺点,以及改善基于时间序列形态相似性距离度量方式过度弯曲时间轴和无法精细划分同形态不同幅度典型负荷类型的问题,提出一种基于短时互相关系数和欧氏距离的双层聚类方法,兼顾用户负荷曲线的时域、形态和幅度特性,对用户负荷实现精细划分。

技术实现思路

[0007]本专利技术提供一种用户负荷双层聚类方法,实现了对负荷曲线的精细划分。
[0008]本专利技术提供了一种用户负荷双层聚类方法,包括以下步骤:
[0009]S1、使用短时互相关系数聚类算法,对用户负荷进行形态相似聚类,得到多个第一聚类簇;
[0010]S2、使用欧氏距离聚类算法,对多个第一聚类簇依据幅度进行聚类。
[0011]进一步地,上述步骤S1进行形态相似聚类的过程包括:
[0012]S11、对用户负荷原始数据集进行Z标准化;
[0013]S12、基于短时互相关系数聚类算法,确定形态最佳聚类数;
[0014]S13、根据形态最佳聚类数获得对应的多个第一聚类簇。
[0015]进一步地,所述步骤S2依据幅度进行聚类的过程包括:
[0016]S21、根据多个第一聚类簇使用欧氏距离聚类算法,确定幅度最佳聚类数;
[0017]S22、根据幅度最佳聚类数,输出对应的多个第二聚类簇。
[0018]进一步地,上述短时互相关系数的具体计算过程如下:
[0019]首先,对用户负荷原始数据集序列和序列和序列进行Z标准化,对序列进行Z标准化如式(1)所示:
[0020][0021]式(1)中,为标准化后的序列;为标准化后的序列;
[0022]Z标准化后,每个序列都满足均值为0,标准差为1,消除负荷曲线幅度特征对计算形态相似度的影响;
[0023]然后,将序列固定,序列在序列的时间轴上滑动,序列的移位表示如式(2)所示:
[0024][0025]式(2)中,表示序列移位s的所有情况,s∈[

1,1];当s=0时,表示序列无位移;当s=1时,表示序列在时间轴上向右位移1;当s=

1时,表示序列在时间轴上向左位移1;由此得到长度为3的短时互相关序列定义如式(3)所示:
[0026][0027]式(3)中,利用式(4)依次计算:
[0028][0029]式(4)中,k=ω

2;
[0030]最后,将短时互相关序列系数归一化为如式(5)所示,使其取值范围为[

1,1],
[0031][0032]式(5)中,为序列的自相关;依据式(5),计算出使其取最大的ω值,为
方便表征距离,推导出D
NSCC
作为时间序列的形态相似性度量方式,如式(6)所示:
[0033][0034]式(6)中,的取值范围[0,2],0代表序列和完全相似。
[0035]进一步地,上述步骤S12中确定形态最佳聚类数的过程包括:
[0036]S121、选取初始质心
[0037]使用轮盘法选取初始质心,设聚类数为k,初始化质心的方法如下:
[0038]S1211、从n个样本中随机选取一个样本作为第一个质心,记为定义一个长度为n的距离序列D(i)=(d1,d2,

d
i
),并初始化序列中每一个元素为无穷大;
[0039]S1212、对样本集中的每个样本分别计算与的距离更新距离序列D(i)=(d1,d2,

d
i
),更新规则如下:
[0040]S1213、选择距离序列D(i)中最大的元素d
i
,其对应的样本作为下一个质心
[0041]S1214、重复步骤S1212和S1213,直到选出k个质心为止;
[0042]S122、最佳聚类数的选取
[0043]因D
NSCC
不同于欧氏距离,故对聚类评价指标中的SSE进行适当调整,作为外层形态聚类数k的确定依据,如式(8)所示:
[0044][0045]式(8)中,为类j中的负荷样本;为类j的质心;n
j
为类j中包含的样本个数,随着聚类数k增加,SSE会逐步下降,当下降趋势突然变缓时,所对应的k值即为最佳聚类数,称为“肘部”;
[0046]居民用户的负荷曲线特征较复杂,实际应用中可能出现无法在损失函数的图像上找到明显“肘部”的情况,同时参考轮廓系数和损失函数图像共同确定聚类数k,单个样本的轮廓系数定义如式(9)所示:
[0047][0048]式(9)中,a(i)为样本i和同类其他样本之间的平均距离;b(i)为样本i与其他类所有样本平均距离的最小值,对所有样本的S(i)取均值,能够综合评价聚类数为k时整个样本集的聚类效果,如式(10)所示:
[0049][0050]式(10)中,S(k)的取值范围为[

1,1],当S(k)越接近1,则说明聚类数为k时聚类合理;
[0051]综合肘部原则和轮廓系数,当损失函数图像上只能呈现出“肘部”所在的区间时,参考轮廓系数,在区间内选择使S(k)最大的k作为最佳聚类数;
[0052]S123、聚类算法流程
[0053]形态相似聚类依据式(6)D
NSCC
进行距离度量,其具体执行步骤如下:
[0054]输入:Z标准化后的负荷曲线样本集U和k个初始质心;
[0055]输出:U中每个样本的类标签和各类的质心;
[0056]S1231本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用户负荷双层聚类方法,其特征在于,包括以下步骤:S1、使用短时互相关系数聚类算法,对用户负荷进行形态相似聚类,得到多个第一聚类簇;S2、使用欧氏距离聚类算法,对多个第一聚类簇依据幅度进行聚类。2.如权利要求1所述的用户负荷双层聚类方法,其特征在于,所述步骤S1进行形态相似聚类的过程包括:S11、对用户负荷原始数据集进行Z标准化;S12、基于短时互相关系数聚类算法,确定形态最佳聚类数;S13、根据形态最佳聚类数获得对应的多个第一聚类簇。3.如权利要求2所述的用户负荷双层聚类方法,其特征在于,所述步骤S2依据幅度进行聚类的过程包括:S21、根据多个第一聚类簇使用欧氏距离聚类算法,确定幅度最佳聚类数;S22、根据幅度最佳聚类数,输出对应的多个第二聚类簇。4.如权利要求3所述的用户负荷双层聚类方法,其特征在于,短时互相关系数的具体计算过程如下:首先,对用户负荷原始数据集序列和序列和序列进行Z标准化,对序列进行Z标准化如式(1)所示:式(1)中,为标准化后的序列;Z标准化后,每个序列都满足均值为0,标准差为1,消除负荷曲线幅度特征对计算形态相似度的影响;然后,将序列固定,序列在序列的时间轴上滑动,序列的移位表示如式(2)所示:式(2)中,表示序列移位s的所有情况,s∈[

1,1];当s=0时,表示序列无位移;当s=1时,表示序列在时间轴上向右位移1;当s=

1时,表示序列在时间轴上向左位移1;由此得到长度为3的短时互相关序列定义如式(3)所示:式(3)中,利用式(4)依次计算:
式(4)中,k=ω

2;最后,将短时互相关序列系数归一化为如式(5)所示,使其取值范围为[

1,1],式(5)中,为序列的自相关;依据式(5),计算出使其取最大的ω值,为方便表征距离,推导出D
NSCC
作为时间序列的形态相似性度量方式,如式(6)所示:式(6)中,的取值范围[0,2],0代表序列和完全相似。5.如权利要求4所述的用户负荷双层聚类方法,其特征在于,所述步骤S12中确定形态最佳聚类数的过程包括:S121、选取初始质心使用轮盘法选取初始质心,设聚类数为k,初始化质心的方法如下:S1211、从n个样本中随机选取一个样本作为第一个质心,记为定义一个长度为n的距离序列D(i)=(d1,d2,.....

【专利技术属性】
技术研发人员:陈来军薛小代马恒瑞陈辰
申请(专利权)人:青海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1