本发明专利技术提供一种基于时间序列异常检测技术的海洋信息管理系统。该系统主要包括数据采集、数据预处理、异常检测、数据存储、数据管理和数据展示六个功能模块。海洋数据质量直接影响海洋信息管理系统的科学性。由于海洋信息数据库数据量太大,往往易受噪声、丢失数据和不一致数据的侵扰,因此,提出了一种基于累积变化量的时间序列异常检测方法,能够有效的检测出海洋数据中的异常点,再选择适当的修正方法对异常点进行修正,为海洋信息数据库提供干净、准确、简洁的数据,从而建立一套完善的海洋信息管理系统,有效的对海洋数据进行管理,为我国的数字海洋建设提供有力支持。
【技术实现步骤摘要】
本专利技术涉及海洋信息数据的预处理方法,时间序列异常检测技术和海洋数据管理方法。
技术介绍
目前数据挖掘的研究主要集中在 数据挖掘算法的探讨,而忽视了对数据预处理的研究。而实际系统中的数据一般很少能直接满足数据挖掘算法的要求,严重影响了数据挖掘算法的执行效率,甚至会造成挖掘结果的偏差。据统计,数据预处理所花费的时间和成本占数据挖掘全过程的60%左右。因此,对数据源进行有效的归纳和预处理,已经成为数据挖掘系统实现过程中的关键问题。随着国家用海需求的日益增长及海洋经济的快速发展,对海洋局的管理和服务能力提出了更高的要求。为了满足海洋局对海洋数据管理和海洋数据分析统计的需求,建设海洋信息管理系统势在必行。然而,高质量的决策必然依赖于高质量的数据,如何提高海洋数据的质量控制效率和水平,更高效的利用海洋数据,使之符合挖掘算法的规范和要求,是国家973项目的ー个重要研究内容。海洋数据质量的好坏直接影响海洋信息管理系统决策的科学性,目前国内还没有系统的海洋数据质量控制方法,一般采用手工校正处理进行控制,针对大量的海洋数据,使用基于累计变化量的时间序列异常检测技木,对采集的海洋数据进行异常检测,将合格的数据及异常修正后的合法数据,存储到海洋信息数据库中,对海洋数据进行管理及应用展示。
技术实现思路
本专利技术提供ー种基于时间序列异常检测技术的海洋信息管理系统。该系统主要包括数据采集、数据预处理、异常检测、数据存储、数据管理和数据展示六个功能模块。其中,数据预处理是为海洋信息管理系统提供高质量数据的关键。海洋数据质量直接影响海洋信息管理系统的科学性。由于海洋信息数据库数据量太大,往往易受噪声、丢失数据和不一致数据的侵扰,因此,提出了一种基于累积变化量的时间序列异常检测方法,能够有效的检测出海洋数据中的异常点,再选择适当的修正方法对异常点进行修正,为海洋信息数据库提供干净、准确、简洁的数据,从而建立一套完善的海洋信息管理系统,有效的对海洋数据进行管理,为我国的数字海洋建设提供有力支持。附图说明图I为本专利技术的海洋信息管理系统架构图。图2为本专利技术的基于累计变化量的时间序列异常点检测方法的流程图。具体实施例方式本专利技术公开了ー种基于时间序列异常检测技术的海洋信息管理系统,下面结合附图对实施方式进行说明。请參考图I。图I为本专利技术的海洋信息管理系统架构图。包含数据采集,数据预处理,异常检测,数据存储,数据管理,数据展示六个功能模块。数据采集模块包括气象传感器、水文传感器和生物传感器。气象传感器采集气象类数据,包括风速风向,气温,降水量和雾等数据;水文传感器采集数据包括水温、盐度、海流、波浪、潮位、含沙量和悬沙等;生物传感器采集浮游动物、浮游植物和底栖生物等数据。通过分析,发现海洋信息管理系统中的元数据存在以下问题 I.海洋信息管理系统的数据库在某些字段上存在空值。所以需要对这些数据进行一些转换和集成工作,对空值字段需进行数据的智能填充。2.各个站点关于台站信息的数据在结构上基本相同,但在数据的完整性和一致性上很差。3.来自不同数据表的同类数据,具有不同的数据类型。如同样是表示日期数据,有的用日期型,有的用字符型。4.各台站的海洋数据中或多或少的含有噪声数据,在装入数据仓库前必须进行清洗。综上所述,海洋信息管理系统中的原始数据存在数据不一致性、数据空缺、数据冗余等情况。可见,海洋数据并不能直接用于后继的数据开采,对海洋数据的预处理是进行数据挖掘的前提。数据预处理模块主要是通过对数据进行清理、集成、变换和归约等四个方面的エ作来实现。数据清理例程通过填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性来“清理”数据。主要是达到如下目标格式标准化,异常数据清除,错误纠正,重复数据的清除。数据集成例程将多个数据源中的数据结合起来并统一存储,建立数据仓库的过程实际上就是数据集成。通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的形式。数据挖掘时往往数据量非常大,在少量数据上进行挖掘分析需要很长的时间,数据归约技术可以用来得到数据集的归约表示,它小得多,但仍然接近于保持原数据的完整性,并结果与归约前结果相同或几乎相同。异常检测模块主要是使用基于累计变化量的时间序列异常点检测方法,对采集的海洋数据进行异常检测,对于合格的数据进行数据存储,对于不合格的数据,对其进行异常点存储,并进行异常分析,再选择适当的修正方法对异常点进行修正。数据存储模块主要是将经过时间序列异常检测后的合格数据及异常修正后的合法数据,存储到海洋信息数据库中。数据管理模块包括海洋气象、海洋水文和海洋生物等数据进行查询,数据分析。对于查询功能,通过精确查询和模糊查询两种查询方式,实现对海洋数据进行全方位多条件的查询。数据分析功能是通过台站比较和多年比较,对某一海洋要素的某一历史时间变化趋势和某一海洋要素正常值进行分析,将海洋数据的规律总结出来,并给予用户提示信息,为决策者提供帮助。另外,还可以对数据进行增加,删除,修改,数据导入,统计打印等功能。其中,数据导入功能可以对数据进行批量增加,可以将整个Excel表中的数据导入到数据库中,使得批量数据的导入工作更加快捷方便,提高工作效率。数据展示模块将数据分析模块的结果通过图表多种形式进行展示,展示的客户端包括涉海单位、政府用户、公众等。数据展示模块和数据管理模块之间采用GIS服务器,Web服务器,移动信息服务器等实现实时通信和展示。请參考图2。图2为本专利技术的基于累计变化量的时间序列异常点检测方法的流程图。在数据挖掘过程中,常常存在与数据模型或数据一般规律不符合的数据对象,这类与其它数据不一致的数据对象就称为异常数据,它们往往容易被人们所忽略。然而,这些数据对象可能是具有特殊意义的,而且相对于那些普通的数据而言,这类异常的数据往往提供了更多的有用信息,它们往往更具有研 究价值。按照异常的表现形式不同,时间序列的异常可以分为序列异常,点异常和模式异常。本专利技术主要是针对海洋时间序列数据的特点,设计了基于累计变化量的时间序列异常点检测方法,用于检测海洋时间序列中的异常点。定义I :海洋时间序列异常点定义给定一段海洋时间序列X = <xl = (vl,tl) ,x2 = (v2, t2), ...,xn= (vn, tn) >,点xi = <vi, ti>表示时间序列在ti时刻的观测值为vi。用〈NI, N2, .··, Nk)表示点xi的k个邻居点集合,其观测值集合记为〈vNl,vN2,…,vNk>,给定阈值T,若点xi与其k个邻居点的累积变化量(Accumulative Change)大于T,则判定点xi为这段时间序列中的一个异常点,这ー判定条件用公式表示为 叫· Iv, l+w2-| V,-Vw I 十…+Wi-I V,-V I-!---- > T Accumulative Change =W1+W2+.+ wん式中的<wl,w2,…,wk>为权值向量,赋予每个变化量不同的权重。一般来说,在时间轴上,越接近点xi的邻居点赋予的权值越大;阈值T是用户给定的ー个常量,点xi的累积变化量和阈值的大小关系,是判定Xi是否为一个异常点的依据。本专利技术涉及ー个平均变化量的统计量,本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.ー种基于时间序列异常检测技术的海洋信息理系统,其特征在于,应该包括 一数据采集模块,负责采集海洋数据; 一数据预处理模块,负责对海洋数据进行预处理; 一异常检测模块,负责检测海洋数据中的异常点; 一数据存储模块,负责存储海洋数据; ー数据管理模块,负责对海洋数据进行查询、分析、增、删、改及统计打印等操作; ー数据展示模块,负责对海洋数据的分析与查询结果进行展示。2.根据权利要求I所述的数据采集装置,其特征在于包括台站,浮标,船舶,卫星等海洋数据采集装置,具体包括各种传感器气象传感器,水文传感器、生物传感器等海洋数据采集中用到的各类传感器。3.根据权利要求I所述的数据预处理方法,其特征在于包括数据清理、数据集成、数据交換和数据归约四个步骤。4.根据权利要求I所述的异常检测模块,其特征在于使用基于累计变化量的时间序列异常点检测方法,对海洋数据进行异常检测,...
【专利技术属性】
技术研发人员:黄冬梅,田瑜基,王建,
申请(专利权)人:上海海洋大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。