基于KPCA的双层聚类算法及在用电行为分析上的应用制造技术

技术编号：44493862 阅读：9 留言：0更新日期：2025-03-04 18:00

本发明专利技术涉及一种基于KPCA的双层聚类算法及在用电行为分析上的应用，属于能源技术领域。本发明专利技术包括以下步骤：先将原始数据通过核函数完成非线性变化，将其映射到高维的线性特征空间，再利用KPCA算法进行特征提取，降低数据的维数；采用双层聚类算法，外层采用基于余弦相似度的谱聚类算法，获得形态相似性负荷类簇，内层在外层形态相似性聚类的基础上采用基于欧式距离的k‑means聚类算法，获得幅值相似性负荷类簇；完成用户用电行为分析。本发明专利技术解决了传统主成分分析算法无法只考虑变量间的线性相关性，并没有探索数据间的非线性逻辑、单一聚类算法无法同时满足聚类效率和聚类质量的问题，本发明专利技术使得聚类有效性和稳定性等方面具有显著提高。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于能源，特别涉及一种基于kpca的双层聚类算法及在用电行为分析上的应用。

技术介绍

1、在能源互联网时代，通过建立电力用户需求侧与电网供给侧双向信息流，推动“源网荷”发展，运用大数据分析技术对信息进行有效价值的挖掘，以实现电力供需双赢双利。配用电数据作为供需双侧的桥梁，对电力系统进行负荷分析规划、需求侧响应等工作具有重要的参考价值，而传统分析方法如数据降维处理、聚类分析等依然存在降维效果不理想、聚类效率不佳等问题，具体体现在，针对传统主成分分析算法无法只考虑变量间的线性相关性，并没有探索数据间的非线性逻辑；针对单一聚类算法无法同时满足聚类效率和聚类质量。

技术实现思路

1、针对现有技术的不足，本专利技术提供了一种基于kpca的双层聚类算法，解决了传统主成分分析算法无法只考虑变量间的线性相关性，并没有探索数据间的非线性逻辑，单一聚类算法无法同时满足聚类效率和聚类质量的问题，使得聚类有效性和稳定性等方面具有显著提高。

2、本专利技术的另一目的在于提供一种基于kpca降维的双层聚类算法在用电行为分析上的应用。

3、为实现以上目的，本专利技术一种基于kpca降维的双层聚类算法，包括以下步骤：

4、步骤一、选取用电负荷数据，进行kpca降维，降低数据的维数；

5、步骤二、采用了双层聚类算法，外层采用基于余弦相似度的谱聚类算法，获得形态相似性负荷类簇，内层在外层形态相似性聚类的基础上采用基于欧式距离的k-means聚类算法，获得幅值相似性负荷类簇；

6、步骤三、完成用户用电行为分析。

7、优选的，所述的步骤一具体为，

8、步骤1.1，将原始数据通过核函数完成非线性变化

9、设xj∈rm，j＝1,2,…,n表示一组零均值数据，核函数通过映射实现点x到f的映射，可以得到的特征空间中心数据需要满足的条件如式(1.1)所示。

10、

11、通过非线性映射，特征空间中映射数据的协方差如式(1.2)所示。

12、

13、t为转置符号；

14、c可通过特征值分解对角化，方法如式(1.3)所示

15、

16、式中，λ表示特征值，v表示特征向量。

17、将式(1.2)代入式(1.3)中可得：

18、

19、考虑到所有λ≠0都存在于φ(x1),φ(x2),…,φ(xn),，将其结果线性表示，如式(1.5)和式(1.6)所示。

20、

21、

22、式中，v＝1,2,…,n；ai为常系数。

23、步骤1.2，通过核函数计算核矩阵k

24、定义n阶矩阵k如式(1.7)所示

25、kiv＝(φ(xi)·φ(xv)) (1.7)

26、化简式(1.7)可以得到：

27、nλkα＝k2α (1.8)

28、其中α＝[α1,α2,…,αn]t为常系数矩阵，n为矩阵阶数，为了方便求解

29、化简式(1.8)可以得到：

30、nλα＝kα (1.9)

31、通过对式(1.9)的求解可以得到对应的特征值和特征向量，而训练样本φ(x)在特征向量空间f中vk方向的投影可以表示为

32、

33、将内积用核函数替换可以得到：

34、

35、若假设式(1.1)不成立，则需调整φ(xi)为：

36、

37、则可以修正核矩阵ki v如式(1.13)所示。

38、

39、其中kiw为ki1，ki2…kin核矩阵,kwv为k1v,k2v…knv核矩阵，kw,τ为k1,1,k2,2…kn,n核矩阵；

40、步骤1.3，通过方差累计贡献率法(cpv)确定非线性主成分的数目

41、其计算公式如下：

42、

43、式中：为非线性主成分的贡献率，是协方差矩阵的前p个样本数量大特征值之和与所有特征值之和的比值；为了确保能够保留数据中的大部分有效信息，主成分贡献率阈值通常情况下设定为cpva≥85％。

44、优选的，所述的步骤二包括：确定初始化聚类中心、确定最佳聚类数目、内层谱聚类和外层k-means聚类。

45、优选的，所述的确定初始化聚类中心具体为，

46、步骤2.1：计算对象之间的平均距离，

47、

48、式中，d(xi,xj)表示对象xi和xj之间的欧式距离；m为总的负荷数目；表示从m个对象中取出2个对象的所有组合的数目；

49、步骤2.2:计算每个对象的密度参数，

50、

51、式中，deventy(p,m)代表密度参数，u代表m-|pi-p|函数关系，p代表循环选取的任意一条负荷数据；pi为其它负荷数据；

52、步骤2.3：选取密度参数最大值对应的数据对象作为第一个聚类中心，并计算数据集中的对象与选出的聚类中心之间的距离，删除此距离小于m的数据对象；

53、步骤2.4:重复步骤1-3，如果平均距离大于目标值，说明样本点之间的距离较远，减小k值；如果密度大于目标值，说明数据集中有较多的聚类中心，增大k值，最终得到其初始化聚类中心。

54、采用dbi指标作为内层聚类数目的选择依据，并将dbi指标中关于欧式距离的计算改为余弦相似度作为外层聚类数目的选择依据，即

55、

56、式中，oi表示第i类数据与聚类中心间的余弦距离标准误差；oj表示第j类数据与聚类中心间的余弦距离标准误差；k表示聚类数目；dcij表示第i类和第j类的聚类中心的余弦距离；最佳聚类数目的选择流程包括下述步骤：

57、步骤3.1，确定聚类数目的最大最小值；

58、步骤3.2，谱聚类返回聚类类别；

59、步骤3.3，计算聚类中心的坐标；

60、步骤3.4，计算聚类dbi/dbo指标；

61、步骤3.5，判断是否达到设定聚类数目的上限；若达到，排序选择最佳聚类数；若未达到，聚类数目加1后返回步骤3.2。

62、优选的，所述的内层谱聚类具体为，

63、步骤4.1：设向量a为(x1,y1)、向量b为(x2,y2)根据计算负荷曲线之间的相似度；选用相似性判据进行相似度计算，计算出来的距离转换成方阵

64、步骤4.2：利用高斯核函数来构建相似度矩阵，代替邻接矩阵，具体公式为：

65、

66、式中，sin(xi,xj)2是第一步相似度计算得到的矩阵中的元素；γ是高斯核函数的参数；

67、步骤4.3：本文档来自技高网...

【技术保护点】

1.一种基于KPCA的双层聚类算法，其特征在于包括以下步骤：

2.根据权利要求1所述的一种基于KPCA的双层聚类算法，其特征在于，所述的步骤一具体为，

3.根据权利要求1所述的一种基于KPCA的双层聚类算法，其特征在于，所述的步骤二包括：确定初始化聚类中心、确定最佳聚类数目、内层谱聚类和外层k-means聚类。

4.根据权利要求3所述的一种基于KPCA的双层聚类算法，其特征在于，所述的确定初始化聚类中心具体为，

5.根据权利要求3所述的一种基于KPCA的双层聚类算法，其特征在于，所述的确定最佳聚类数目具体为，

6.根据权利要求3所述的一种基于KPCA的双层聚类算法，其特征在于，所述的内层谱聚类具体为，

7.根据权利要求3所述的一种基于KPCA的双层聚类算法，其特征在于，所述的外层k-means聚类为，

8.根据权利要求1所述的一种基于KPCA的双层聚类算法，其特征在于，在用电行为分析上的应用。

【技术特征摘要】

1.一种基于kpca的双层聚类算法，其特征在于包括以下步骤：

2.根据权利要求1所述的一种基于kpca的双层聚类算法，其特征在于，所述的步骤一具体为，

3.根据权利要求1所述的一种基于kpca的双层聚类算法，其特征在于，所述的步骤二包括：确定初始化聚类中心、确定最佳聚类数目、内层谱聚类和外层k-means聚类。

4.根据权利要求3所述的一种基于kpca的双层聚类算法，其特征在于，所述的确定初始化聚类中心具...

【专利技术属性】
技术研发人员：刘帅，杨春，吕延哲，张妍妍，陈强，王向宇，李岩，衡俊良，杨适泽，刘芳，李天娇，李东明，张志遥，陈奕文，郭在津，李鹏博，李鹏儒，陈扬淽，
申请(专利权)人：国网辽宁省电力有限公司铁岭供电公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人