一种基于分层聚类与特征选择的建筑抽样方法技术

技术编号：42339044 阅读：12 留言：0更新日期：2024-08-14 16:15

本发明专利技术公开了一种基于分层聚类与特征选择的建筑抽样方法，包括以下步骤：(1)使用DBSCAN算法对数据集进行异常值检测与处理；(2)通过CH指数选择最佳聚类数；(3)使用EWKM算法对建筑能耗样本进行分层；(4)利用DBSCAN算法消除分层结果中的离群点，优化样本分层结果；(5)使用极限梯度提升算法对建筑能耗影响因子进行重要性评估；(6)通过PCA保留主要特征；(7)使用Bootstrap方法进行多次抽样；(8)计算样本的标准误差确定置信区间；(9)通过贝叶斯优化确定最小样本量；(10)对建筑样本进行分层抽样，使用轮廓系数评估分层效果。本发明专利技术优化了建筑样本分层结果，提高了样本的代表性和预测精度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于建筑能耗预测，具体涉及一种基于分层聚类与特征选择的建筑抽样方法。

技术介绍

0、技术背景

1、随着全球城市化和经济发展的加速推进，建筑能耗显著增加，尤其是制冷和采暖方面的能耗问题日益突出。有效的能源管理成为重要议题。建筑业目前占全球总能耗的36％，因此，许多研究致力于通过制定节能策略来减少能耗，实现可持续发展。然而，分析建筑节能策略需要准确和具有代表性的建筑能耗数据。

2、目前，许多建筑能耗监测平台在建筑运营期间收集并存储大量能耗数据。然而，对某个区域的所有建筑进行详细的能源调查是不现实的，因而需要代表性抽样。建筑抽样能够显著减少能耗分析的工作量，并提高节能策略的有效性。分层抽样作为一种统计学衍生方法在此起到关键作用。

3、目前，对建筑抽样的研究相对较少，仅有的一篇文献报道是杨建雄在2013年发表的《荆州市既有居住建筑能耗抽样调查分析》(杨建雄.荆州市既有居住建筑能耗抽样调查分析[j].中华建设,2013,(12):73-75.)中，介绍了一种基于建筑年份和材料等因素进行分层抽样的方法。虽然这种方法在一定程度上提高了抽样的准确性，但存在代表性不足、分层过程过于主观、计算效率低和样本量确定不准确等显著问题，无法全面反映区域内建筑能耗的实际情况且难以应对大规模数据。现有的建筑抽样方法存在代表性不足、计算效率低、样本量确定不准确等问题，难以满足高效和精确的能耗分析需求。仅根据建筑的有限特征，如建筑年份和建筑材料等，进行建筑的分层抽样，未能深入挖掘建筑与能耗之间的潜在联系。

技术实现思路

1、本专利技术旨在提供一种基于分层聚类与特征选择的建筑抽样方法，以解决现有技术中分层抽样代表性差和样本量确定不准确的问题。

2、为了解决上述技术问题，本专利技术采用以下技术方案：

3、一种基于分层聚类与特征选择的建筑抽样方法，包括以下步骤：

4、步骤一：使用基于密度的带噪声的空间聚类应用(density-based spatialclustering ofapplications with noise，dbscan)算法对数据集进行异常值检测与处理；

5、步骤二：通过calinski-harabasz(ch)指数选择最佳聚类数；

6、步骤三：使用熵加权k-means(ewkm)算法对建筑能耗样本进行初步分层；

7、步骤四：利用dbscan算法消除分层结果中的离群点，优化建筑样本分层结果；

8、步骤五：使用xgboost算法对建筑能耗数据中的影响因子进行重要性评估；

9、步骤六：通过主成分分析(principal component analysis,pca)进一步减少冗余特征，保留95％方差信息的主要特征；

10、步骤七：使用bootstrap方法对初始样本进行多次抽样；

11、步骤八：计算样本的标准误差确定置信区间；

12、步骤九：通过贝叶斯优化确定满足精度要求的最小样本量；

13、步骤十：根据样本层次进行建筑样本的分层抽样并使用轮廓系数评估分层效果。

14、进一步地，步骤一中使用dbscan算法对数据集进行异常值检测与处理的过程包括以下步骤：

15、(1)设定dbscan算法的邻域参数eps和最小样本数；

16、(2)利用dbscan算法对数据集进行密度聚类，检测并处理异常值。

17、进一步地，步骤二中通过ch指数选择最佳聚类数的步骤包括以下内容：

18、(1)使用ewkm算法对数据进行多次聚类；

19、(2)利用ch指数验证每次聚类效果；

20、(3)根据ch指数结果选择最佳聚类数。

21、进一步地，步骤三中使用ewkm算法对建筑能耗样本进行初步分层的过程包括以下步骤：

22、(1)通过ewkm算法将建筑样本点根据最小距离原则分配至不同的聚类类别；

23、(2)根据ch指数选择的最佳聚类数进行初步分层聚类。

24、进一步地，步骤四中利用dbscan算法消除分层结果中的离群点的步骤包括以下内容：

25、(1)将初步分层后的建筑样本数据输入dbscan算法中；

26、(2)设定dbscan算法的邻域参数eps和最小样本数

27、(3)通过dbscan算法检测并消除离群点，优化分层结果。

28、进一步地，步骤五中使用xgboost算法对建筑能耗数据中的影响因子进行重要性评估的步骤包括以下内容：

29、(1)设定xgboost算法的参数，例如树的数量、学习率、最大深度等；

30、(2)利用xgboost算法对建筑能耗数据中的影响因子进行重要性评估；

31、(3)根据影响因子的重要性得分选择排名前15的关键影响因子。

32、进一步地，步骤六中通过pca进一步减少冗余特征的步骤包括以下内容：

33、(1)对xgboost算法筛选后的影响因子数据进行标准化处理；

34、(2)利用pca对数据进行降维分析，保留95％方差信息的主要特征；

35、(3)将保留的特征作为分层抽样的输入数据。

36、进一步地，步骤七中使用bootstrap方法对初始样本进行多次抽样的步骤包括以下内容：

37、(1)设定bootstrap抽样的样本数量和次数；

38、(2)利用bootstrap方法对初始样本进行多次抽样；

39、(3)计算每次抽样的样本标准误差，确定置信区间。

40、进一步地，步骤九中通过贝叶斯优化确定满足精度要求的最小样本量的步骤包括：

41、(1)设定贝叶斯优化的目标函数，优化建筑样本量；

42、(2)利用贝叶斯优化算法进行样本量的最优化求解；

43、(3)根据优化结果确定满足精度要求的最小样本量。

44、进一步地，步骤十中根据样本层次进行建筑样本的分层抽样的步骤包括：

45、(1)根据ewkm与dbscan算法的分层结果，设定每个层次的样本量；

46、(2)在每个层次中根据样本量要求进行随机抽样，确保样本的代表性；

47、(3)运用轮廓系数对根据建筑能耗数据对建筑分层抽样的结果进行评估，确保建筑分层抽样本文档来自技高网...

【技术保护点】

1.一种基于分层聚类与特征选择的建筑抽样方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于分层聚类与特征选择的建筑抽样方法，其特征在于，步骤一中使用DBSCAN算法对数据集进行异常值检测与处理的过程包括以下步骤：

3.根据权利要求1所述的基于分层聚类与特征选择的建筑抽样方法，其特征在于，步骤二中通过CH指数选择最佳聚类数的步骤包括以下内容：

4.根据权利要求1所述的基于分层聚类与特征选择的建筑抽样方法，其特征在于，步骤三中使用EWKM算法对建筑能耗样本进行初步分层的过程包括以下步骤：

5.根据权利要求1所述的基于分层聚类与特征选择的建筑抽样方法，步骤四中利用DBSCAN算法消除分层结果中的离群点的步骤包括以下内容：

6.根据权利要求1所述的基于分层聚类与特征选择的建筑抽样方法，步骤五中使用XGBoost算法对建筑能耗数据中的影响因子进行重要性评估的步骤包括以下内容：

7.根据权利要求1所述的基于分层聚类与特征选择的建筑抽样方法，步骤六中通过PCA进一步减少冗余特征的步骤包括以下内容：

9.根据权利要求1所述的基于分层聚类与特征选择的建筑抽样方法，其特征在于，步骤九中通过贝叶斯优化确定满足精度要求的最小样本量的步骤包括：

10.根据权利要求1所述的基于分层聚类与特征选择的建筑抽样方法，其特征在于，步骤十中根据样本层次进行建筑样本的分层抽样的步骤包括：

...

【技术特征摘要】

1.一种基于分层聚类与特征选择的建筑抽样方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于分层聚类与特征选择的建筑抽样方法，其特征在于，步骤一中使用dbscan算法对数据集进行异常值检测与处理的过程包括以下步骤：

3.根据权利要求1所述的基于分层聚类与特征选择的建筑抽样方法，其特征在于，步骤二中通过ch指数选择最佳聚类数的步骤包括以下内容：

4.根据权利要求1所述的基于分层聚类与特征选择的建筑抽样方法，其特征在于，步骤三中使用ewkm算法对建筑能耗样本进行初步分层的过程包括以下步骤：

5.根据权利要求1所述的基于分层聚类与特征选择的建筑抽样方法，步骤四中利用dbscan算法消除分层结果中的离群点的步骤包括以下内容：

6.根据权利要求1...

【专利技术属性】
技术研发人员：雷蕾，郑润，张纪诺，梁利霞，胡佳敏，
申请(专利权)人：浙江理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人