当前位置: 首页 > 专利查询>武汉大学专利>正文

一种湖泊水位长时间序列监测数据的异常值剔除方法技术

技术编号:34351000 阅读:19 留言:0更新日期:2022-07-31 05:42
本发明专利技术公开了一种湖泊水位长时间序列监测数据的异常值剔除方法,包括将湖水位监测数据集成,形成湖水位长时间序列图,对湖水位长时间序列图进行统计分析,获取湖水位时间序列监测数据的分布特征;设置宽度合适的上下限,对湖水位时间序列监测数据进行阈值剔除,获取湖水位阈值剔除监测数据集;对湖水位阈值剔除监测数据集,进行滑动绝对中位差法异常值剔除,获取湖水位滑动绝对中位差法异常值剔除监测数据集;对湖水位滑动绝对中位差法阈值剔除监测数据集进行密度聚类异常值剔除,设定距离阈值以及样本数阈值,获取湖水位密度聚类异常值剔除监测数据集,得到最终结果,获取更精确的有效数据。的有效数据。的有效数据。

An outlier elimination method for long time series monitoring data of lake water level

【技术实现步骤摘要】
一种湖泊水位长时间序列监测数据的异常值剔除方法


[0001]本专利技术涉及数据处理应用
,具体涉及一种湖泊水位长时间序列监测数据的异常值剔除方法。

技术介绍

[0002]随着测绘以及遥感技术的发展,各类监测数据逐渐成为人们最有价值的资产之一。但是,由于气候等环境因素的影响,大多数监测数据是冗余的,且长期内存在有一致的变化趋势。所以,对各类监测数据进行异常值剔除且保证数据本身变化特征是极为重要的。
[0003]目前,对于一般的大数据集的异常值剔除,有较多的数学处理办法。一些主流的异常值清洗方法一般是基于数学理论的。对于大规模数据而言,可以采用拉依达法则、肖维勒准则等方法进行异常值检测。但是,这些主流方法的使用前提为数据集是符合正态分布的。然而,在气候变化的影响下,湖水位数据是长期有趋势变化,且短期季节性波动的,不符合正态分布。仅仅依据简单的数学处理方法,往往会造成正常存在的湖水位监测数据的峰值数据被不合理剔除的后果。

技术实现思路

[0004]根据现有技术的不足,本专利技术的目的是提供一种湖泊水位长时间序列监测数据的异常值剔除方法,能够有效解决季节性有趋势变化数据的不合理剔除问题,从而获取更精确的有效数据,分析湖泊水位的实际变化趋势。
[0005]为了解决上述技术问题,本专利技术采用的技术方案为:一种湖泊水位长时间序列监测数据的异常值剔除方法,包括:步骤S1、将湖水位监测数据集成,形成湖水位长时间序列图,对湖水位长时间序列图进行统计分析,获取湖水位时间序列监测数据的分布特征;步骤S2、设置宽度合适的上下限,对上下限以外的湖水位时间序列监测数据进行阈值剔除,获取湖水位阈值剔除监测数据集;步骤S3、对步骤S2得到的湖水位阈值剔除监测数据集,进行滑动绝对中位差法异常值剔除,获取湖水位滑动绝对中位差法异常值剔除监测数据集;步骤S4、对步骤S3得到的湖水位滑动绝对中位差法阈值剔除监测数据集,进行密度聚类异常值剔除,设定密度聚类邻域的距离阈值以及样本数阈值,获取湖水位密度聚类异常值剔除监测数据集,得到最终结果。
[0006]进一步地,所述步骤S1包括:步骤S101、通过地面传感器或卫星高度计监测得到湖水位数据,依照地面传感器或卫星高度计提供的数据预处理方法,对得到的湖水位监测数据进行预处理,去除系统误差值;步骤S102、依照监测时间点,对预处理完毕的湖水位监测数据建立湖水位长时间序列图;步骤S103、统计分析分析湖水位长时间序列图,分析水位数据的集中趋势以及离
散趋势,计算出整体平均值、众数、中位数以及方差,得到湖水位时间序列的整体分布情况;步骤S104、作出湖水位时间序列监测数据散点图,横坐标为时间,纵坐标为湖水位高度。
[0007]进一步地,所述步骤S2中,依据步骤S1中的数据的分布特征,设置宽度合适的阈值A,阈值A包括上限和下限,上限和下限之间为数据分布最密集的带状区域,包含波峰最高点以及波谷最低点,设置好合适的阈值A后,对湖水位监测数据进行过滤,清洗大于阈值A上限以及小于阈值下限的监测数据,得到分布在最密集的带状区域的监测数据。
[0008]进一步地,所述步骤S3中,设定滑动时间窗口D,依据时间序列长短,将二者相除取整,确定子时间序列的数量a,切分序列得到各个子时间序列数据集,剔除子数据集内大于三倍绝对中位差的异常数据。
[0009]进一步地,子时间序列的数量a计算公式如下:其中:: 整个数据集的时间区间大小;: 滑动时间窗口D的区间大小;绝对中位差的计算公式如下:其中,为数据集中第i个数据的大小;为数据集的中位数大小。
[0010]进一步地,所述步骤S4具体包括:步骤S401、随机选择一个未被监测的数据作为中心点,计算其他所有数据与该中心点的欧式距离,作为衡量二者相似性的标准;步骤S402、统计与中心点的欧式距离小于距离阈值E的点数,满足条件的数据称为邻点,若邻点数目大于样本数阈值M,则记录该中心点为核心点,若邻点数目小于等于样本数阈值M,检测邻点中是否存在核心点,若存在核心点,则记录该中心点为边界点;若该中心点既不属于核心点也不属于边界点,确定该点与正常范围内的数据差异较大,被视作异常点;步骤S403、将所有湖水位数据遍历完毕后,剔除被标记为异常点的湖水位监测值,以完成异常值剔除。
[0011]进一步地,在步骤S401中,欧式距离的计算公式如下:其中,为当前中心点的湖水位监测值;为除中心点之外其他点的湖水位监测值,;b为所有湖水位监测值的数量。
[0012]进一步地,步骤S402的计算方法为:
其中,为距离阈值;M为样本数阈值;为中心点c的邻点个数;为中心点c的邻点集合;为所有核心点的集合;为所有边界点的集合;为所有异常点的集合。
[0013]进一步地,距离阈值E为湖水位滑动绝对中位差法阈值剔除监测数据集中所有滑动窗口内数据极差的平均数的二分之一,样本数阈值M为湖水位滑动绝对中位差法阈值剔除监测数据集中所有滑动窗口内数据量的中位数,距离阈值E以及样本阈值M的计算公式如下:其中,为第i个滑动时间窗口内子数据集的最大值大小;为第i个滑动时间窗口内子数据集的最小值大小,为第i个滑动时间窗口内子数据集的数据量;为子时间序列的数量。
[0014]进一步地,还包括步骤S5,根据湖水位密度聚类异常值剔除监测数据集对距离阈值E和样本数阈值M进行调整,调整完毕后,跳转步骤S4。
[0015]与现有技术相比,本专利技术具有以下优点和有益效果:本专利技术所述的一种湖泊水位长时间序列监测数据的异常值剔除方法,能够解决湖水位长时间序列监测数据在异常值剔除过程中,极值数据被不合理剔除的问题,从而帮助用户更快捷精确的提取到有效数据,保留真实数据的变化趋势。
附图说明
[0016]下面将结合附图及实施例对本专利技术作进一步说明,附图中:图1是本专利技术一种湖泊水位长时间序列监测数据的异常值剔除方法整体流程图;图2是本专利技术一种湖泊水位长时间序列监测数据的异常值剔除方法具体流程图;图3是某湖泊监测得到的长时间序列水位未处理时的分布情况;图4是滑动绝对中误差法异常值剔除的算法流程图;图5是对某湖泊监测得到的长时间序列水位阈值法处理后滑动窗口的分布情况;图6是基于密度的聚类异常值剔除的算法流程图;图7是本专利技术处理的某湖泊长时间序列水位数据与未处理的数据、水位真实值的分布图。
具体实施方式
[0017]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完
整地描述。
[0018]一般来说,湖水位长时间序列监测数据在正常波动范围内是存在有极大极小值的,而且这些波峰波谷数据大多是真实数据值,不应该被剔除。同时,在气候变化的影响下,这些数据有自身的变化趋势,长时间内变化趋势一致,采用现有的数据处理方法,往往会造成正常存在的湖水位监测数据的峰值数据被不合理剔除的后果。
[0019]因此,本专利技术提出了一种湖泊水位长时间序列监测数据的异常值剔除方法,能够有效解决季节性有趋势变化数据的不合理剔除问题,从而获取更精确的有效数据,分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种湖泊水位长时间序列监测数据的异常值剔除方法,其特征在于,包括:步骤S1、将湖水位监测数据集成,形成湖水位长时间序列图,对湖水位长时间序列图进行统计分析,获取湖水位时间序列监测数据的分布特征;步骤S2、设置宽度合适的上下限,对上下限以外的湖水位时间序列监测数据进行阈值剔除,获取湖水位阈值剔除监测数据集;步骤S3、对步骤S2得到的湖水位阈值剔除监测数据集,进行滑动绝对中位差法异常值剔除,获取湖水位滑动绝对中位差法异常值剔除监测数据集;步骤S4、对步骤S3得到的湖水位滑动绝对中位差法阈值剔除监测数据集,进行密度聚类异常值剔除,设定密度聚类邻域的距离阈值以及样本数阈值,获取湖水位密度聚类异常值剔除监测数据集,得到最终结果。2.根据权利要求1所述的湖泊水位长时间序列监测数据的异常值剔除方法,其特征在于,所述步骤S1包括:步骤S101、通过地面传感器或卫星高度计监测得到湖水位数据,依照地面传感器或卫星高度计提供的数据预处理方法,对得到的湖水位监测数据进行预处理,去除系统误差值;步骤S102、依照监测时间点,对预处理完毕的湖水位监测数据建立湖水位长时间序列图;步骤S103、统计分析分析湖水位长时间序列图,分析水位数据的集中趋势以及离散趋势,计算出整体平均值、众数、中位数以及方差,得到湖水位时间序列的整体分布情况;步骤S104、作出湖水位时间序列监测数据散点图,横坐标为时间,纵坐标为湖水位高度。3.根据权利要求1所述的湖泊水位长时间序列监测数据的异常值剔除方法,其特征在于:所述步骤S2中,依据步骤S1中的数据的分布特征,设置宽度合适的阈值A,阈值A包括上限和下限,上限和下限之间为数据分布最密集的带状区域,包含波峰最高点以及波谷最低点,设置好合适的阈值A后,对湖水位监测数据进行过滤,清洗大于阈值A上限以及小于阈值下限的监测数据,得到分布在最密集的带状区域的监测数据。4.根据权利要求1所述的湖泊水位长时间序列监测数据的异常值剔除方法,其特征在于:所述步骤S3中,设定滑动时间窗口D,依据时间序列长短,将二者相除取整,确定子时间序列的数量a,切分序列得到各个子时间序列数据集,剔除子数据集内大于三倍绝对中位差的异常数据。5.根据权利要求4所述的湖泊水位长时间序列监测数据的异常值剔除方法,其特征在于:子时间序列的数量a计算公式如下...

【专利技术属性】
技术研发人员:孟安迪谭喜成饶骆文
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1