空气质量站点监测数据异常的自动化识别方法技术

技术编号:19824014 阅读:59 留言:0更新日期:2018-12-19 15:30
一种空气质量站点监测数据异常的自动化识别方法,包括:步骤A:接收站点监测数据;步骤B:对所接收的站点监测数据进行初级检查,识别显著异常的观测数据;步骤C:对完成初级检查后的数据进行时空一致性检查,识别时空不一致异常;步骤D:步骤C后,使用四项补充检查识别未被初级检查和时空一致性检查识别的异常;步骤E:输出经过质控后的观测数据、时空一致性估计值、及各项检查中的概率值;所述方法用以缓解现有技术自动化异常识别方法中难以识别特有的周期性异常、延滞异常、以及对于正定的,更接近于对数正态的空气质量监测数据(PM2.5,PM10,SO2,NO2,CO和O3)的异常识别效果较差,难以识别数值较低或观测误差小于观测标准差的异常数据等技术问题。

【技术实现步骤摘要】
空气质量站点监测数据异常的自动化识别方法
本公开涉及大气污染领域,尤其涉及一种空气质量站点监测数据异常的自动化识别方法。
技术介绍
大范围、准确的常规污染物观测数据是衡量空气质量的重要依据和相关研究的基础。然而,由于仪器故障、恶劣环境、以及监测方法的局限异常观测数据出现不可避免。在实际应用过程中,通常需要人工对监测数据进行审核和质控,以剔除异常的观测数据。这种方法通常能有效剔除大气污染监测中异常数据。其主要缺点是非常繁杂,需要耗费大量人力和时间,很难快速获得大量的质控数据,制约了数据的快速应用。此外,不同人的质控标准具有一定主观性,难以完全一致,从而可能给质控数据集引入一定的偏差。因此,有必要建立一种客观的、具有统一标准的质控技术方法。气象观测数据的自动化质控较为成熟,已成为各气象数据集归档时不可或缺的一部分,在质控中,会根据观测变量特有的异常特征针对性地设计算法识别风向、风速、降雨、降雪等变量的异常观测数据;同时,会依据观测数据在时间和空间上的一致性判断数据合理性;在海洋观测(温度,深度,盐度)和土壤观测(温度,湿度)中,质控也有一些较为成熟的研究,但在大气污染领域,美国国家环境保护局、欧洲环境署、英国环境部都制定了观测质控的规范手册,但其核心是观测操作规范和仪器维护,大范围的大气污染监测数据自动化质控研究仍然非常少,在实际应用过程中,通常以人工审核的方式,或借用其他领域的通用自动化质控方法识别异常监测数据。现有的主流空气质量监测数据的异常识别方法有两种,一种是以人工审核的方式识别异常数据,另一种借用其他领域的通用自动化质控方法识别异常监测数据。人工审核的方法依赖质控员的经验,通过人眼从监测的时间序列或空间分布等其他图件或表格中,挑出可以的观测数据。对可疑的监测数据可以通过组织相关人员进行站点周边的实地考核,进一步确认该监测数据是否异常。通用的质控方法可参考气象数据异常识别中常用的z-score方法,该方法分三步。第一步计算监测值平均,第二步计算监测值的标准差,第三部将偏离均值几倍标准差的数据标记为异常,现有的两种异常识别方法都存在各自的缺陷,其中人工审核效率低下,难以适用于实时或大规模的监测数据应用,例如在线监测数据发布、将在线监测数据同化进空气质量预报系统以改进预报效果、以及构建全国多年的空气质量再分析场,于此同时,人工审核的方法缺少原理支撑,其结果易受质控员的主观经验的影响;另一种异常识别方法,即通用的自动化异常识别方法未针对中国环境空气质量监测网设计,难以识别其特有的周期性异常、延滞异常(异常定义在本公开技术方案中介绍),并且通用方法常隐含监测数据正态分布的假设,对于正定的,更接近于对数正态的空气质量监测数据(PM2.5,PM10,SO2,NO2,CO和O3)的异常识别效果较差,难以识别数值较低的异常数据。因此,迫切需要发展一种针对大气环境监测网络的常规大气污染物监测数据的典型异常类型的自动化质控新方法。公开内容(一)要解决的技术问题本公开提供了一种空气质量站点监测数据异常的自动化识别方法,以缓解现有技术自动化异常识别方法中难以识别其特有的周期性异常、延滞异常、以及对于正定的,更接近于对数正态的空气质量监测数据(PM2.5,PM10,SO2,NO2,CO和O3)的异常识别效果较差,难以识别数值较低或观测误差小于观测标准差的异常数据等技术问题。(二)技术方案本公开提供一种空气质量站点监测数据异常的自动化识别方法,包括:步骤A:接收站点监测数据;步骤B:对步骤A所接收的站点监测数据进行初级检查,识别显著异常的观测数据;步骤C:对步骤B完成初级检查后的数据进行时空一致性检查,识别时空不一致异常;步骤D:经步骤C后,使用四项补充检查识别未被初级检查和时空一致性检查识别的异常;以及步骤E:输出经过质控后的观测数据、时空一致性估计值、及各项检查中的概率值。在本公开实施例中,所述步骤B中的初级检查,包括:步骤B1:完整性检查;步骤B2:超量程检查,对监测数据进行上下限检查,将超出仪器量程的错误记录剔除;以及步骤B3:大观测误差检查,剔除超出合理值很多的观测,以减弱其对时空连续性检查性能的影响。在本公开实施例中,步骤C中所述时空一致性检查,包括:时间一致性回归;以及空间一致性回归。在本公开实施例中,所述时间一致性回归,利用检验点邻近时刻的观测数据,计算检验点的时间回归值,回归方法采用低通滤波,即:其中Ft为滤波估计值,i为检验点的时次,k代表滤波时间窗口从检验点往前和往后的时间长度,f为原始观测,h为滤波系数。在本公开实施例中,所述空间一致性回归,是结合邻近空间范围内的观测值计算得到检验点的估计值,具体计算公式如下:其中Fs(i)为目标站点在i时刻的空间一致性估计值。fr为第r个参考站点的观测值。ar为检验站点与参考站点间的一致性指标,采用以下方法进行计算:其中fr(i+k)为参考站点在i+k时刻的观测值,为滑动窗口内的观测平均值。在本公开实施例中,所述空间一致性回归,权重cr采用Gaspari-Cohn(高斯-康恩)方案计算:其中d为目标站点与参考站点之间的距离,dc为截止距离。在本公开实施例中,根据所述时间和空间的一致性估计值Ft和Fs,计算检验点的归一化估计残差Zt和Zs,再计算残差相关系数:进而计算残差概率:其中i为目标时次,ρ为时空残差的相关系数,Zt,Zs分别为归一后的时间和空间的回归残差,分别为滑动窗口内时间和空间的归一残差平均,i-n和i+n分别为滑动窗口起始和结束时间。在本公开实施例中,步骤D所述的四项补充检查,包括:小变化异常检查,观测值呈现出长时间常值或过于缓慢的异常时段,与实际大气污染变化特征不吻合,所述异常时段数据剔除;周期性异常检查,识别周期出现的异常并进行剔除;PM10<PM2.5异常检查,当PM2.5与PM10浓度出现倒挂时,将PM10观测数据剔除;以及有效数据量检查,即对每个观测数据,统计其前后12小时内的有效数据,若有效数据少于5个则对其进行剔除。在本公开实施例中,所述小变化异常检查中异常时段的残差概率Pa计算如下式:其中Ra、Sa、Za为延滞时段的回归残差、回归残差标准差和归一化的回归残差,Rs、Ss为上面内容中计算的空间回归残差及其标准差,b和e分别为延滞时段的开始和结束时次,计算得到小变化异常残差概率Pa,残差概率Pa小于设定阈值时的观测值识别为异常并剔除,所述阈值为10-3~10-9。在本公开实施例中,所述周期性异常检查,首先,以24小时为间隔,对原始观测f进行滑动平均计算,如下:其中i为待检查时次,然后,对fc进行中值滤波,如下:Fc(i)=M(fc(i+k),k∈[-1,1])其中M为集合的中位数,计算得到回归值Fc,滑动窗口长度取3个时次,接着,通过fc和Fc计算得到回归残差Rc,并以94百分位的回归残差作为回归残差的标准差,使得得到的标准差σc大于一天中第二大的回归残差,公式如下:Sc(i)=g(Rc(i+k),k∈[-72,72])其中g为集合的94百分位,最后,将Rc和Sc一起代入下列公式:计算得到周期性异常残差概率Pc,残差概率Pc小于阈值的观测识别为异常并进行剔除,所述阈值为10-2~10-4。(三)有益效果从上述技术方案可以看出本文档来自技高网...

【技术保护点】
1.一种空气质量站点监测数据异常的自动化识别方法,包括:步骤A:接收站点监测数据;步骤B:对步骤A所接收的站点监测数据进行初级检查,识别显著异常的观测数据;步骤C:对步骤B完成初级检查后的数据进行时空一致性检查,识别时空不一致异常;步骤D:经步骤C后,使用四项补充检查识别未被初级检查和时空一致性检查识别的异常;以及步骤E:输出经过质控后的观测数据、时空一致性估计值、及各项检查中的概率值。

【技术特征摘要】
1.一种空气质量站点监测数据异常的自动化识别方法,包括:步骤A:接收站点监测数据;步骤B:对步骤A所接收的站点监测数据进行初级检查,识别显著异常的观测数据;步骤C:对步骤B完成初级检查后的数据进行时空一致性检查,识别时空不一致异常;步骤D:经步骤C后,使用四项补充检查识别未被初级检查和时空一致性检查识别的异常;以及步骤E:输出经过质控后的观测数据、时空一致性估计值、及各项检查中的概率值。2.根据权利要求1所述的自动化识别方法,其中,所述步骤B中的初级检查,包括:步骤B1:完整性检查;步骤B2:超量程检查,对监测数据进行上下限检查,将超出仪器量程的错误记录剔除;以及步骤B3:大观测误差检查,剔除超出合理值很多的观测,以减弱其对时空连续性检查性能的影响。3.根据权利要求1所述的自动化识别方法,其中,步骤C中所述时空一致性检查,包括:时间一致性回归;以及空间一致性回归。4.根据权利要求3所述的自动化识别方法,其中,所述时间一致性回归,利用检验点邻近时刻的观测数据,计算检验点的时间回归值,回归方法采用低通滤波,即:其中Ft为滤波估计值,i为检验点的时次,k代表滤波时间窗口从检验点往前和往后的时间长度,f为原始观测,h为滤波系数。5.根据权利要求3所述的自动化识别方法,其中,所述空间一致性回归,是结合邻近空间范围内的观测值计算得到检验点的估计值,具体计算公式如下:其中Fs(i)为目标站点在i时刻的空间一致性估计值。fr为第r个参考站点的观测值。ar为检验站点与参考站点间的一致性指标,采用以下方法进行计算:其中fr(i+k)为参考站点在i+k时刻的观测值,为滑动窗口内的观测平均值。6.根据权利要求5所述的自动化识别方法,其中,所述空间一致性回归,权重cr采用Gaspari-Cohn(高斯-康恩)方案计算:其中d为目标站点与参考站点之间的距离,dc为截止距离。7.根据权利要求4或5所述的自动化识别方法,其中,根据所述时间和空间的一致性估计值Ft和Fs,计算检验点的归一化估计残差Zt和...

【专利技术属性】
技术研发人员:吴煌坚唐晓王自发朱江
申请(专利权)人:中国科学院大气物理研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1