当前位置: 首页 > 专利查询>浙江大学专利>正文

一种支持动态更新的在线属性异常点检测方法技术

技术编号:4057978 阅读:207 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种支持动态更新的在线属性异常点检测方法。通过分析实际应用及用户需求,提出全新的属性异常点定义,在考虑数据集内部各个数据点间属性相关性的前提下检测异常点,提供相对于传统定义更加有效的异常信息,结合实际流数据系统应用,通过使用滑动窗口、在线聚类方法达到支持对动态更新的流数据进行在线属性异常点检测,能够为用户提供实时检测结果反馈。并且针对流数据系统应用中实际出现的系统过载情况,提出一套有效的降载方法,能够保证检测方法在海量的流数据更新情况下仍能实时反馈检测结果,且结果误差在用户可控范围,达到检测方法在运行效率和结果精度之间的有效平衡。

【技术实现步骤摘要】

本专利技术涉及数据挖掘、离群点检测和流数据系统管理技术,特别是涉及一种支持动态更新的在线属性异常点检测方法
技术介绍
异常点检测是数据挖掘领域中最重要的应用技术方法之一,不同于其它常见的数据挖掘方法,异常点检测是力求在海量数据中找出相对孤立、离群的异常点以及异常模式。早期的数据挖掘系统大多只将数据中的异常点看作噪音,而异常点检测也主要用于对噪音进行清洗处理。但是随着海量数据的产生,异常数据往往能够体现更大的价值,因此异常点检测在现实中的应用也愈加广泛,如网络入侵检测、银行信用欺诈等。进行异常点检测的一个首要前提是给出合理的异常点定义,继而应用相关的方法进行检测。现有的异常点检测方法所基于的异常点定义都可以称为分类异常点,其根本思想是将分类数据中的孤立类别数据定义为异常点。然而,这种定义在现实应用中缺乏灵活性以及实用性,用户需要检测的异常点往往是仅针对于整体数据集中用户关注的某一部分数据,传统的分类异常点显然无法解决此类实际需求。此外,随着互联网技术的飞速发展以及对海量数据的处理需求,流数据系统应用越来越普遍,且大部分重要系统均需要实时监测异常点,如视频监控、银行交易安全监测等。此类流数据系统的特点是数据量无限且持续产生到达,限于存储及内存限制应用系统无法保存所有数据,而且限于实时要求往往只有单遍扫描机会。因此,对于流数据系统需要支持基于滑动窗口的查询检测,窗口内的数据随时间动态滑动更新,此时需要检测方法能够实时针对最新数据给出当前异常点。由于流数据系统往往需要对大量动态数据进行实时检测,而在多数情况下实际部署机器无法提供相应处理及存储能力,需要提供一种高效的检测方法。流数据系统中的异常点检测是一个崭新的研究领域并有着重要的实用价值,但目前仍然缺乏一个成熟的技术方案,因此需要提供能够支持动态更新的在线属性异常点检测方法,在保证检测结果精度的前提下能够通过近似方法处理流数据系统中的海量动态数据。
技术实现思路
针对上述
技术介绍
中存在的问题,为了向用户提供更加灵活、能够反映数据属性相关性的异常点检测结果,提过针对流数据系统的在线异常点检测,能够保证在高负载压力下为用户提供准确实时的检测结果输出,本专利技术的目的在于提供一种支持动态更新的在线属性异常点检测方法。本专利技术采用的技术方案的步骤如下:(1)选取符合流数据系统在数据生成、检测方式和用户需求三方面的要求的数据模型维护持续动态更新的流数据;-->(2)使用在线聚类方法对流数据进行持续动态聚类,实现基于数据属性相关性的聚类划分;(3)动态维护流数据更新下的聚类划分,并持续更新数据点之间的邻居关系和距离信息,在线维护聚类相关信息,随着数据的动态更新保持维护相关概要信息结构;(4)建立数据降载方法,根据流数据系统中实际负载以及对实时性的要求,选取能够达到流数据系统实时性要求的降载方法以及近似技术保证检测方法的实时完成,并能保证最后近似结果的误差可控;(5)根据聚类划分及数据点邻居两方面相关数据信息及属性异常点评价方法,在每个聚类划分中检测异常点作为最终属性异常点结果输出。所述步骤(1)选取符合流数据系统在数据生成、检测方式和用户需求三方面的要求的数据模型维护持续动态更新的流数据,该步骤选取的数据模型需要满足能够快速高效维护数据动态更新,满足在主流应用服务器部署实施,因此采用当前业内主流应用模型滑动窗口模型,对于流数据仅保存并保持更新最近一部分作为滑动窗口,并基于当前最新窗口进行查询处理。所述步骤(2)使用在线聚类方法对流数据进行持续动态聚类,此线聚类方法需要对持续更新的流数据进行动态聚类划分,并且针对流数据内容漂移的特性,在线聚类方法能够始终维护保持反映最新数据内容的聚类划分状态;方法的具体实施包含以下内容:1)在流数据更新之前建立初始化聚类划分,在初始化阶段对当前滑动窗口内数据进行聚类,并利用计算数据点之间几何距离来衡量数据之间的属性相关性,根据数据点间距离聚集相似、相关数据形成初始的聚类划分;2)建立简洁的时间聚类特征数据结构维护聚类划分概要信息,描述每个划分的关键特征,能够根据概要信息还原聚类的中心以及划分范围半径;3)针对动态更新的流数据在线维护聚类划分,流数据系统中每一时刻都有大量新生成数据到达,在线聚类方法需要实时的对这些新数据进行聚类,即时完成对划分的更新;4)对时间聚类特征切片维护,实现聚类信息的动态更新,在完成对新生成数据的动态聚类后,需要及时更新聚类特征概要信息,由于采用滑动窗口模型,数据不断更新,产生新数据的同时大量陈旧数据需要过期,因此在对新数据聚类的同时还需要消除过期数据的概要信息;5)根据在线聚类划分总数,进行必要的聚类合并操作保持聚类结果的质量以及总数的稳定;由于采用的聚类方法的特点,以及流数据不断生成的大量全新数据点,滑动窗口内将出现大量的微型聚簇,这些微型划分会严重降低最终聚类结果质量,同时将会占用大量内存,消耗系统资源,因此需要进行聚类合并。所述步骤(3)动态维护流数据更新下的聚类划分,并持续更新数据点之间的邻居关系和距离信息,需要在线维护后续异常点检测步骤中所需要的数据相关信息,采用基于距离的度量来计算数据点间的相关性以及检测异常点,因此对于每个数据点需要计算在在其指定距离领域内的邻居数目,当邻居总数低于用户指定阈值时,则说明该数据点异常,另外由于属性异常点的特点实际检测过程发生在每个独立的聚类划分中,所以在数据相关信息的维护过程中对每个聚类仅需维护更新其内部数据点相关信息。-->所述步骤(3)在线维护聚类相关信息,随着数据的动态更新保持维护相关概要信息结构,在线维护过程中还需要针对动态更新的流数据对链表进行动态维护更新操作,具体步骤包括:1)对于刚进入聚类的新数据点,生成对应节点加入链表尾部,接下来对链表进行反向遍历,计算各个前序节点与新节点的距离及邻居关系;2)随着滑动窗口的滑动,将过期数据对应节点由链表中移除,保证之后检测过程中在其后序邻居的前向邻居数组中节点号为无效;3)在发生聚类合并操作后,同时需要合并两个聚类的链表及更新节点信息。所述步骤(4)建立数据降载方法,根据流数据系统中实际负载以及对实时性的要求,选取能够达到流数据系统实时性要求的降载方法以及近似技术保证检测方法的实时完成,流数据系统应用中经常会出现大量的数据动态更新,不断有海量的新生成数据涌入滑动窗口,此时应用服务器的内存、处理器等计算能力将不足以胜任对这些海量新数据进行异常点检测,也无法为用户提供实时检测结果,因此需要应用降载方法,减少相应工作负荷,保证检测处理的效率及实时性,应用的降载方法的核心思路是根据实际应用负载压力放弃部分数据,以此减轻进行属性异常点检测时的处理运算压力吗,而降载方法丢弃数据需要保证以下几点原则:1)不丢弃最新未处理数据,同时保留丢弃数据在其所属聚类中信息,保证降载方法不对数据属性相关性及聚类划分产生影响;2)降载方法在丢弃数据点时保证对最终检测结果影响最小,具体表现为:a)不丢弃当前是属性异常点的数据点;b)不丢弃将来可能成为属性异常点的数据点;所述步骤(4)保证最后近似结果的误差可控,鉴于要保证对最终结果影响最小的降载原则,需要把当前滑动窗口内每个聚类中的安全点作为丢弃数据的候选集,所谓安全点是指其后序邻居数目超过用户本文档来自技高网
...
一种支持动态更新的在线属性异常点检测方法

【技术保护点】
一种支持动态更新的在线属性异常点检测方法,其特征在于该方法的步骤如下:(1)选取符合流数据系统在数据生成、检测方式和用户需求三方面的要求的数据模型维护持续动态更新的流数据;(2)使用在线聚类方法对流数据进行持续动态聚类,实现基于数据属性相关性的聚类划分;(3)动态维护流数据更新下的聚类划分,并持续更新数据点之间的邻居关系和距离信息,在线维护聚类相关信息,随着数据的动态更新保持维护相关概要信息结构;(4)建立数据降载方法,根据流数据系统中实际负载以及对实时性的要求,选取能够达到流数据系统实时性要求的降载方法以及近似技术保证检测方法的实时完成,并能保证最后近似结果的误差可控;(5)根据聚类划分及数据点邻居两方面相关数据信息及属性异常点评价方法,在每个聚类划分中检测异常点作为最终属性异常点结果输出。

【技术特征摘要】
1.一种支持动态更新的在线属性异常点检测方法,其特征在于该方法的步骤如下:(1)选取符合流数据系统在数据生成、检测方式和用户需求三方面的要求的数据模型维护持续动态更新的流数据;(2)使用在线聚类方法对流数据进行持续动态聚类,实现基于数据属性相关性的聚类划分;(3)动态维护流数据更新下的聚类划分,并持续更新数据点之间的邻居关系和距离信息,在线维护聚类相关信息,随着数据的动态更新保持维护相关概要信息结构;(4)建立数据降载方法,根据流数据系统中实际负载以及对实时性的要求,选取能够达到流数据系统实时性要求的降载方法以及近似技术保证检测方法的实时完成,并能保证最后近似结果的误差可控;(5)根据聚类划分及数据点邻居两方面相关数据信息及属性异常点评价方法,在每个聚类划分中检测异常点作为最终属性异常点结果输出。2.根据权利要求1所述的一种支持动态更新的在线属性异常点检测方法,其特征在于:所述步骤(1)选取符合流数据系统在数据生成、检测方式和用户需求三方面的要求的数据模型维护持续动态更新的流数据,该步骤选取的数据模型需要满足能够快速高效维护数据动态更新,满足在主流应用服务器部署实施,因此采用当前业内主流应用模型滑动窗口模型,对于流数据仅保存并保持更新最近一部分作为滑动窗口,并基于当前最新窗口进行查询处理。3.根据权利要求1所述的一种支持动态更新的在线属性异常点检测方法,其特征在于:所述步骤(2)使用在线聚类方法对流数据进行持续动态聚类,此线聚类方法需要对持续更新的流数据进行动态聚类划分,并且针对流数据内容漂移的特性,在线聚类方法能够始终维护保持反映最新数据内容的聚类划分状态;方法的具体实施包含以下内容:1)在流数据更新之前建立初始化聚类划分,在初始化阶段对当前滑动窗口内数据进行聚类,并利用计算数据点之间几何距离来衡量数据之间的属性相关性,根据数据点间距离聚集相似、相关数据形成初始的聚类划分;2)建立简洁的时间聚类特征数据结构维护聚类划分概要信息,描述每个划分的关键特征,能够根据概要信息还原聚类的中心以及划分范围半径;3)针对动态更新的流数据在线维护聚类划分,流数据系统中每一时刻都有大量新生成数据到达,在线聚类方法需要实时的对这些新数据进行聚类,即时完成对划分的更新;4)对时间聚类特征切片维护,实现聚类信息的动态更新,在完成对新生成数据的动态聚类后,需要及时更新聚类特征概要信息,由于采用滑动窗口模型,数据不断更新,产生新数据的同时大量陈旧数据需要过期,因此在对新数据聚类的同时还需要消除过期数据的概要信息;5)根据在线聚类划分总数,进行必要的聚类合并操作保持聚类结果的质量以及总数的稳定;由于采用的聚类方法的特点,以及流数据不断生成的大量全新数据点,滑动窗口内将出现大量的微型聚簇,这些微型划分会严重降低最终聚类结果质量,同时将会占用大量内存,消耗系统资源,因此需要进行聚类合并。4.根据权利要求1所述的一种支持动态更新的在线属性异常点检测方法,其特征在于:所述步骤(3)动态维护流数据更新下的聚类划分,并持续更新数据点之间的邻居关系和距离信息,需要在线维护后续异常点检测步骤中所需要的数据相关信息,采用基于距离的度量来计算数据点间的相关性以及检测异常点,因此对于每个数据点需要计算在在其指定距离领域内的邻居数目,当邻居总数低于用户指定阈值时,则说明该数据点异常,另外由于属性异常点的特点实际检测过程发生在每个独立的聚类划分中,所以在数据相关信息的维护过程中对每个聚类仅需维护更新其内部数据点相关信息。5.根据权利要求1所述的一种支持动...

【专利技术属性】
技术研发人员:陈刚寿黎但胡天磊陈珂曹晖
申请(专利权)人:浙江大学
类型:发明
国别省市:86[中国|杭州]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1