一种基于集成聚类的支柱性产业的判定方法技术

技术编号:36180464 阅读:54 留言:0更新日期:2022-12-31 20:37
一种基于集成聚类的支柱性产业的判定方法,包括:构建多源电力指标,明确各指标类型,对于多源电力指标中的极小型以及区间型指标进行转换,对各指标数据进行数据预处理,对各指标数据进行降维,将不同的聚类算法作为个体学习器分别得到聚类结果,通过学习法的结合策略将各个体学习器的输出结果通过聚类算法结合;采用DBSCAN密度聚类作为次级学习器以结合各个体学习器的输出;进行支柱性产业类簇判定。本发明专利技术构建多源电力指示,并根据指标特性,大致将其分为经济贡献度、能源消耗、能源消费结构、节能环保四个层面,对指标进行解析,通过熵权法给多源电力指标赋予权重,结合各聚类簇产业的多源电力指标数据,判定出支柱性产业簇。簇。簇。

【技术实现步骤摘要】
一种基于集成聚类的支柱性产业的判定方法


[0001]本专利技术属于大数据及机器学习算法的
,尤其涉及一种基于集成 聚类的支柱性产业的判定方法。

技术介绍

[0002]支柱性企业在地区的发展中起着极为重要的作用,它能为适应社会需求 结构变化、优化调整产业结构提供正确选择,也能成为地区提高产业竞争力 的有效途径,从而提高地区财政税收收入,对于当地其它产业起到引领、示 范性作用,对于产业能效的分析也应首先针对支柱性产业展开。
[0003]随着计算机和互联网技术的迅速发展,物联网、大数据、云计算等新型 信息技术在与产业系统深度融合将使整个产业体系进入智慧化的进程。且数 据采集技术在各产业的深入应用,各类传感器和智能设备数量的增加及功能 不断完善,使得产业的各类数据愈加透明容易获取。我国的产业也从基础的 生产自动化逐步走向数据信息化,大量的产业数据通过成熟的数据采集与存 储系统保存下来,为支柱性产业的新型定义提供足够的数据支撑。
[0004]节能环保产业将成为新一轮的支柱性产业。仅基于经济层面定义的支柱 性产业在能效利用方面显然不再具有完整的示范作用。此时,支柱性产业应 该有更广泛领域地认定,在考虑其在经济方面的推动及引领作用之外,还需 考虑其在能源利用方面的效率。由于能源利用是针对电力等能源的利用,所 以还需要从电力等领域对产业的支柱性展开分析。

技术实现思路

[0005]本专利技术所要解决的技术问题在于提供了一种多源电力数据背景下的基于 集成聚类的支柱性产业的判定方法。
[0006]本专利技术是这样实现的:一种基于集成聚类的支柱性产业的判定方法,包括如下步骤:步骤一、构建多源电力指标:将经济贡献度、能源消耗、能源消费结构、节能环保四个方面指标构建 为多源电力指标;其中,所述经济贡献度指标,包括:产业总产值S1、总产值同比增长S2、 利润总额S3;所述能源消耗指标,包括:用电量S4、油品消耗量S5、燃气消耗量S6、 万元产值能耗S7;所述能源消费结构,包括:电力占能源比重S8、煤炭占能源比重S9、油 品占能源比重S10、燃气占能源比重S11;所述节能环保指标,包括:煤炭消耗量S12;
步骤二、明确各指标类型:产业总产值S1、总产值同比增长S2、利润总额S3、燃气消耗量S6、燃 气占能源比重S11属于极大型指标;油品消耗量S5、万元产值能耗S7、煤炭占能源比重S9、油品占能源比 重S10、煤炭消耗量S12属于极小型指标;用电量S4、电力占能源比重S8属于区间型指标;步骤三、对于多源电力指标中的极小型以及区间型指标进行转换:对于极小型指标,转换为:对于区间型指标,转换为:式(1)(2)中:x代表原始指标数据;代表转换后的指标数据;[q1, q2]为区间型指标数据的最佳稳定区间;M、m代表分别为x允许的上下界;步骤四、对各指标数据进行数据预处理:采用极差标准化如式(3)所示:其中,x
ij
代表第i个指标的第j个数据,x
ij

代表经过数据预处理后的第i标准化后的新数据,变量的极大值为1,极小值为0,其余的数值均在0 与1之间;步骤五、对各指标数据进行降维:使用主成分分析法PCA对数据进行降维,其降维的核心是正交分解,通 过相互正交的空间基向量来表示原始数据;将数量较少的几个重要的的主成 分向量作为向量基,然后用重构的方法来实现原始特征的维度降低;步骤六、将不同的聚类算法作为个体学习器分别得到聚类结果,通过学 习法的结合策略将各个体学习器的输出结果通过聚类算法结合;采用 DBSCAN密度聚类作为次级学习器以结合各个体学习器的输出;步骤七:进行支柱性产业类簇判定:首先求出各多源电力指标下,各类簇各样本占整体样本的平均比重:式中:x
ijk
代表第k类簇的样本,i代表第i个产业样本,j代表第j维多源 电力指标;
n
k
为第k类产业簇的样本数量;n代表所有产业样本的个数;M
jk
表示在第j维多源电力指标上k类簇中各样本占整体样本的平均比重。由于一共有12个多源电力指标,得到k类簇样本占比矩阵 则M=[M1,M2,...,M
12
]作为在各维特征属性上各类簇各样 本占整体样本的平均比重矩阵,为k*12的矩阵。然后结合特征权重给给类簇评分:P=M
·
ω
ꢀꢀꢀ
(10)式中:ω=[ω1,ω2,


12
]′
是各多源电力指标的权重,为12*1矩阵;P为各类 簇产业得分,为k*1矩阵。进一步地,所述步骤五中,PCA降维是指:找到一个n维的向量,然后 获取另一个低维的向量空间,再把想n维向量映射到获取到的低维向量空间; 关于nD—>kD降维表示新的向量空间由这k个向量来定义,再将样本映射到 这个向量空间来;在具体的操作中,首先通过奇异值分解方法计算样本数据的协方差矩阵 特征值与特征向量;在协方差矩阵中,所有特征向量用U表示,特征向量用降维公式见式(4):Z=X
·
U
k
ꢀꢀꢀ
(4)式(4)表示对矩阵X进行降维,X为m*n的矩阵,Uk为n*k的矩阵, 降维后为m*k矩阵;对于选择降维参数k的值,即贡献率,就是降维矩阵中U所包含的特征 向量的数量;k越大,如果U中的特征向量比较多,累积贡献率越大,包含 的原始特征数据信息越多,那么降维产生的误差就比较小,然而可能造成的 后果是数据维度仍然过大;因此具体取值需视实际情况而定;算法步骤如下:(1)计算样本的协方差矩阵Σ=XXT;(2)对协方差矩阵Σ=XXT做特征值分解,取最大的前k个特征值所对 应的特征向量u1,u2,

,uk组成转换矩阵U;(3)生成降维后的样本集Z={z1,z2,

,zm},zi=UTxi,i=1,2,

,m。进一步地,所述步骤七中,多源电力指标权重值的确定方法采用熵值法, 其计算步骤如下:(1)假设样本数据为n
×
14的矩阵,先对样本数据进行预处理,预处理后 的数据以表示。(2)计算j维指标下第i个样本的指标比重,见式(11)(3)计算j维指标的熵值,见式(12)
(4)求取j维指标的权重,见式(13)进一步地,所述步骤六中的个体学习器,包括:K

means聚类算法、AGNES 层次聚类算法、DBSCAN密度聚类算法、GMM高斯混合聚类算法和FCM模 糊聚类。
[0007]本专利技术的优点在于:
[0008]1、提出了新型的基于多源电力支柱性产业判定指标。并根据指标特性, 大致将其分为经济贡献度、能源消耗、能源消费结构、节能环保4个层面, 对指标进行解析。
[0009]2、提出使用集成聚类方法基于多源电力数据对支柱性产业进行判定,通 过将K

means聚类、AGNES层次聚类、DBSCAN密度聚类、GMM模型聚类 及FCM模糊聚类作为集成聚类的个体学习器,结合策略采用学本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于集成聚类的支柱性产业的判定方法,其特征在于:包括如下步骤:步骤一、构建多源电力指标:将经济贡献度、能源消耗、能源消费结构、节能环保四个方面指标构建为多源电力指标;其中,所述经济贡献度指标,包括:产业总产值S1、总产值同比增长S2、利润总额S3;所述能源消耗指标,包括:用电量S4、油品消耗量S5、燃气消耗量S6、万元产值能耗S7;所述能源消费结构,包括:电力占能源比重S8、煤炭占能源比重S9、油品占能源比重S10、燃气占能源比重S11;所述节能环保指标,包括:煤炭消耗量S12;步骤二、明确各指标类型:产业总产值S1、总产值同比增长S2、利润总额S3、燃气消耗量S6、燃气占能源比重S11属于极大型指标;油品消耗量S5、万元产值能耗S7、煤炭占能源比重S9、油品占能源比重S10、煤炭消耗量S12属于极小型指标;用电量S4、电力占能源比重S8属于区间型指标;步骤三、对于多源电力指标中的极小型以及区间型指标进行转换:对于极小型指标,转换为:对于区间型指标,转换为:式(1)(2)中:x代表原始指标数据;代表转换后的指标数据;[q1,q2]为区间型指标数据的最佳稳定区间;M、m代表分别为x允许的上下界;步骤四、对各指标数据进行数据预处理:采用极差标准化如式(3)所示:其中,x
ij
代表第i个指标的第j个数据,x
ij

代表经过数据预处理后的第i个指标的第j个数据;标准化后的新数据,变量的极大值为1,极小值为0,其余的数值均在0与1之间;步骤五、对各指标数据进行降维:使用主成分分析法PCA对数据进行降维,其降维的核心是正交分解,通过相互正交的空间基向量来表示原始数据;将数量较少的几个重要的的主成分向量作为向量基,然后用重构的方法来实现原始特征的维度降低;
步骤六、将不同的聚类算法作为个体学习器分别得到聚类结果,通过学习法的结合策略将各个体学习器的输出结果通过聚类算法结合;采用DBSCAN密度聚类作为次级学习器以结合各个体学习器的输出;步骤七:进行支柱性产业类簇判定:首先求出各多源电力指标下,各类簇各样本占整体样本的平均比重:式中:x
ijk
代表第k类簇的样本,i代表第i个产业样本,j代表第j维多源电力指标;n
k
为第k类产业簇的样本数量;n代表所有产业样本的个数;M
jk
表示在第j维多源电力指标上k类簇中各样本占整体样本的平均比重。由于一共有12个多源电力指标,得到k类簇样本占比矩阵则M=[M1,M2,...,M
12
]作为在各维特征属性上各类簇各样本占整体样本的平均比重矩阵,为k*12的矩阵。然后结合特征权重给给类簇评分:P=M
...

【专利技术属性】
技术研发人员:黄必成张敏童浪兴刘勇吴绍华杨荣坪钱大庆左宇陈经玮方涛王天龙吴逸鸣林康玮黄雪斌熊磊吴涛罗孝峰
申请(专利权)人:国家电投集团江西电力工程有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1