一种基于XGBoost算法的PM制造技术

技术编号：33385915 阅读：16 留言：0更新日期：2022-05-11 23:00

本发明专利技术公开了一种基于XGBoost算法的PM

全部详细技术资料下载

【技术实现步骤摘要】
一种基于XGBoost算法的PM
2.5
数据异常识别方法

[0001]本专利技术涉及空气质量监测
，尤其涉及一种基于XGBoost算法的PM
2.5
数据异常识别方法。

技术介绍

[0002]国家空气监测站主要负责监测全国各地的环境空气质量，目前共建有近2000个国控级别的空气质量监测站，监测6项常规污染物，分别为CO、 O3、SO2、NO2、PM
2.5
和PM
10
。每小时会产生1个小时监测数据，一天产生24 条小时数据。国控站由运维公司进行运维，空气质量监测数据先由运维公司的审核人员对数据进行审核，对仪器质检、故障、运行不稳定期间产生的数据做无效处理，并进行提交给环境监测总站对数据进行复核。目前国控空气站数据复核采用人工复核的方式，数据复核人员根据多站点单污染物、单站点多污染物的相关性、差异性变化趋势等对异常数据进行判断，结合数据趋势异常的时间点或时间段，如数据异常偏高或异常偏低的时间段，查看疑似异常时间段的监测仪器运行状态，将异常值反馈给运维人员，核实数据是否异常，每天都要进行数据复核，由于人工复核工作量大，需要大量的人力成本，在复核过程中可能会因为人的局限性和主观性导致数据异常识别时发生遗漏和错判等问题。
[0003]针对现有技术存在的问题，需要选择合适的数据异常识别算法用于大气监测异常数据的识别，同时构建合适的特征用于数据异常识别算法，在数据复核部分时，及时发现数据中存在的异常值，以辅助人工复核。

技术实现思路
/>[0004]本专利技术所要解决的技术问题在于，提供一种基于XGBoost算法的PM
2.5
数据异常识别方法。
[0005]为了解决上述技术问题，本专利技术提供了一种基于XGBoost算法的PM
2.5
数据异常识别方法，包括以下步骤：
[0006]步骤1：采集国控站六项污染物的小时数据，形成原始数据；
[0007]步骤2：数据预处理，对原始数据进行预处理，提高原始数据质量；
[0008]步骤3：从原始数据中提取特征，对原始数据进行观察，构建四大类特征；
[0009]步骤4：模型训练与测试，确定XGBoost算法作为训练模型并测试；
[0010]步骤5：异常数据分析，对于模型识别后的异常数据，进一步进行分析，分析后的数据用于后续调整模型参数，改善模型性能；
[0011]步骤6：运维事件标识并去除，数据分析时，将运维前、后的时间段对数据造成影响的，去除相应时段的监测数据；
[0012]步骤7：气象监测要素整合，通过分析点位气象参数，结合数据情况综合判断数据有效性；
[0013]步骤8：仪器设备参数异常判定，对其他原因导致的站点数据发生变化，进行数据
分析时再次判定关键参数的异常情况。
[0014]其中，所述步骤2包括对数据预处理过程中产生的带标识数据定为异常值缺失数据并进行插补，使用关系系数矩阵确定缺失值取值排序，关系系数R计算公式为：
[0015][0016]其中，cov((X
i
,X
j
))＝E((X
i
‑
E(X
i
))
·
(X
j
‑
E(X
j
)))。
[0017]其中，所述步骤3中四大类特征为基础特征、相关污染物特征、气象特征和历史数据特征。
[0018]其中，所述步骤4包括定义XGBoost算法的目标函数：
[0019][0020]其中，
[0021][0022][0023]其中，(x
i
,y
i
)为数据集样本，x
i
表示特征向量，y
i
表示样本标签，模型包含K棵树，f
K
(x)表示第K棵决策树。
[0024]其中，所述步骤5具体包括以下步骤：
[0025]步骤5
‑
1：将城市进行聚类，目标城市与周边城市PM2.5数据逐月对比分析，通过相对偏差法和相邻月相对偏差变幅法研判该城市整体数据质量异常变化情况，其中，相对偏差法的计算公式为：
[0026]相对偏差(％)＝(目标城市月均值
‑
除目标城市外其他城市月均值的均值)/除目标城市外其他城市月均值的均值*100％，
[0027]相邻月相对偏差变幅法的计算公式为：
[0028]相对偏差变幅(％)＝本月偏差
‑
上月偏差；
[0029]步骤5
‑
2：将分析后得到的最优参数组合作为XGBoost参数重新训练模型，并对测试集进行预测；
[0030]步骤5
‑
3：评估测试集结果，在该参数上进行调优。
[0031]其中，所述步骤6具体包括以下步骤：
[0032]步骤6
‑
1：对运维前数据分析是在决策树分裂过程中，在每个节点分裂前预先进行评估，若该节点由于运维因素影响分裂后不能使决策树泛化能力提升，则该节点不分裂；
[0033]步骤6
‑
2：对运维后数据分析则是先构造一颗完全决策树，自底向上对非叶子节点进行评估，若将该叶子节点剪枝有助于决策树模型泛化能力的提升，则将该节点子树剪去，使其变为叶子节点。
[0034]其中，所述步骤7具体包括以下步骤：
[0035]步骤7
‑
1：确定需要进行分类的监测指标，按照环境空气质量标准进行等级划分，对原始数据进行训练集和测试集的划分，利用训练集的数据构建决策树；
[0036]步骤7
‑
2：建好决策树后利用测试集数据进行验证，验证决策树构建的效果，并根据测试结果优化和调整模型；
[0037]步骤7
‑
3：构建最终模型树型结构，输出分类结果中每个类别对应的监测指标取值范围以及每个树枝预测的准确率；
[0038]步骤7
‑
4：对于分类准确率小于85％的树枝重新进行样本的选择和决策树的训练，给予预测率较低的级别以较大的权重进入到训练集中，重复以上步骤，直到分类准确率均在85％以上为止；
[0039]步骤7
‑
5：输出各树型对应的监测参数范围，利用反推过程对多个监测指标的检测样本进行质量控制，多个监测指标的检测样本的某个参数对应标准范围之外判断为异常值，反之为正常监测，直到遍历完多有的待检测样本为止。
[0040]其中，所述步骤8具体包括以下步骤：
[0041]步骤8
‑
1：查看站点参数曲线，若参数曲线变动在规定范围内，可判断为正常监测，否则进行下一步验证；
[0042]步骤8
‑
2：查看巡检工单是否注明修改参数，短时参数变动，可判断为正常监测，否则进行下一步验证；
[0043]步骤8...

【技术保护点】

【技术特征摘要】
1.一种基于XGBoost算法的PM
2.5
数据异常识别方法，其特征在于，包括以下步骤：步骤1：采集国控站六项污染物的小时数据，形成原始数据；步骤2：数据预处理，对原始数据进行预处理，提高原始数据质量；步骤3：从原始数据中提取特征，对原始数据进行观察，构建四大类特征；步骤4：模型训练与测试，确定XGBoost算法作为训练模型并测试；步骤5：异常数据分析，对于模型识别后的异常数据，进一步进行分析，分析后的数据用于后续调整模型参数，改善模型性能；步骤6：运维事件标识并去除，数据分析时，将运维前、后的时间段对数据造成影响的，去除相应时段的监测数据；步骤7：气象监测要素整合，通过分析点位气象参数，结合数据情况综合判断数据有效性；步骤8：仪器设备参数异常判定，对其他原因导致的站点数据发生变化，进行数据分析时再次判定关键参数的异常情况。2.根据权利要求1所述的一种基于XGBoost算法的PM2.5数据异常识别方法，其特征在于，所述步骤2包括对数据预处理过程中产生的带标识数据定为异常值缺失数据并进行插补，使用关系系数矩阵确定缺失值取值排序，关系系数R计算公式为：其中，cov((X
i
，X
j
))＝E((X
i
‑
E(X
i
))
·
(X
j
‑
E(X
j
)))。3.根据权利要求1所述的一种基于XGBoost算法的PM
2.5
数据异常识别方法，其特征在于，所述步骤3中所述四大类特征为基础特征、相关污染物特征、气象特征和历史数据特征。4.根据权利要求1所述的一种基于XGBoost算法的PM
2.5
数据异常识别方法，其特征在于，所述步骤4包括定义XGBoost算法的目标函数：其中，其中，其中，(x
i
,y
i
)为数据集样本，x
i
表示特征向量，y
i
表示样本标签，模型包含K棵树，f
K
(x)表示第K棵决策树。5.根据权利要求1所述的一种基于XGBoost算法的PM
2.5
数据异常识别方法，其特征在于，所述步骤5具体包括以下步骤：步骤5
‑
1：将城市进行聚类，目标城市与周边城市PM
2.5
数据逐月对比分析，通过相对偏差法和相邻月相对偏差变幅法研判该城市整体数据质量异常变化情况，其中，相对偏差法
的计算公式为：相对偏差(％)＝(目标城市月均值
‑
除目标城市外其他城...

【专利技术属性】
技术研发人员：汪太明，侯玉婧，孟双双，王启蒙，尤洋，刘超，郭亚静，
申请(专利权)人：广东旭诚科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人