当前位置: 首页 > 专利查询>河海大学专利>正文

一种大规模高维数据中离群数据的检测方法技术

技术编号:12516087 阅读:219 留言:0更新日期:2015-12-16 14:12
本发明专利技术公开了一种大规模高维数据中离群数据的检测方法,属于离群数据挖掘技术领域,具体包括以下几个步骤:(1)计算各数据点的余弦距离平均值;(2)计算各数据点的余弦距离;(3)计算各数据点的余弦距离平均间距;(4)分类划分余弦距离平均间距,选取余弦距离平均间距最小的几个点为数据离群度最大的离群点;(5)确定离群数据。本发明专利技术可以高效快速地从大规模高维数据中发现隐藏在其中的离群数据。

【技术实现步骤摘要】

本专利技术涉及离群数据挖掘
,特别涉及一种大规模高维数据中离群数据的 检测方法。
技术介绍
离群数据挖掘技术是目前数据挖掘领域的研究热点之一,广泛应用于网络流量入 侵检测、信用卡欺诈检测、视频监控异常行为检测等领域。目前已有的离群数据挖掘主要基 于距离或最近邻概念进行离群挖掘,在高维数据中,如果还是根据高维空间距离和最近邻 概念来考察数据的相邻点,就会出现大部分数据都被判定为离群数据的情况。如果在高维 数据中,根据向量的余弦距离进行检测,则可以发现隐藏在高维数据中的离群数据,因为离 群点与其它点组成的向量的夹角变化不大,而非离群点被包围在数据点中,非离群点与其 它点组成的向量的夹角变化较大,因此根据夹角变化的大小可以发现隐藏在高维数据中的 离群数据。
技术实现思路
本专利技术提出了,可以高效快速地从大 规模高维数据中发现隐藏在其中的离群数据,可以广泛应用于信用卡欺诈检测、视频监控 异常行为检测、网络流量入侵检测等高维数据中。 为了达到上述目的,本专利技术所采用的技术方案为: -种大规模高维数据中离群数据的检测方法,包括以下步骤: (1)计算大规模高维数据中每个数据点的余弦距离平均值,即对于每个数据点A, 分别计算A点到其余所有任意两个点B和C组成的向量::^和:^的余弦距离的平均值; (2)计算每个数据点A的余弦距离; (3)计算每个数据点A的所有余弦距离的平均间距; (4)分类划分余弦距离平均间距,选取余弦距离平均间距最小的几个点为数据离 群度最大的离群点; (5)确定离群点。 前述的步骤(1)包括以下步骤: 1-1)形式化数据集,所述大规模高维数据形式化为: 对于给定的大规模高维数据集刀e#,范数M · I I定义为Rd- R +,内积< ·,· > 定义为RdXRd- R, V点 A,B e D,表;示向量I-蒼, 其中Rd表示d维实数空间,R +表示正实数,R d- R +表示d维实数空间上的元素到 正实数的一个映射,RdX Rd- R表示d维实数空间上的两个向量作内积运算; 1-2)对于大规模高维数据集D中的所有点分别计算每个点A到其余两个点的向量 夹角余弦距离之和,表示为Me (A),计算公式为: 其中,< >表不向量仙和水7的内积,f和JC分别表不向量淑:和 的范数; 1-3)计算大规模高维数据集D中每个点A余弦距离的平均值,计算公式 为: 〇. 前述的步骤(2)计算数据点A的余弦距离,即对于每个数据点A,分别计算A点到 任意两点B和C组成的向量M和;1己的余弦距离/VG(瓦疋),计算公式为: G 前述的步骤(3)计算每个数据点A的所有余弦距离的平均间距AMe (A),即累计 计算步骤2)与步骤1)获得的每个点的余弦距离与余弦距离平均值^^的差 的绝对值,计算公式为: 前述的步骤(4)包括以下步骤: 4-1)按从小到大的顺序排序所述步骤(3)中所有点的余弦距离平均间距,得到平 均间距序列L ; 4-2)划分平均间距序列L为2类(;和C Β, 分类算法步骤为:依次比较平均间距序列L中的前后数据,如果数值变化大于某 一阈值ε,则该数据及其后面所有的数据都划分为类C b,其中,ε由用户确定,BP VZi e i, Ca= Φ,C B= L 如果 d = I li+1_li I < ε,则 Ca= C A U {1 J 否则,Cb= C B\ {1J, 其中,I1表示平均间距序列L中的第i个数据,Φ表示空集。 前述的步骤(5)确定离群点,具体方法为: 检查所述步骤(4)中获得的类别Ca,如果Ca的数据个数大于某一阈值δ,则该大 规模高维数据中没有检测到离群点,否则(;中所有数据对应的点为离群点,其中,δ由用户 设定。 本专利技术与已有技术相比,其效果是积极和明显的。本专利技术具有以下优点: 本专利技术提供的大规模高维数据中离群数据的检测方法,基于向量夹角余弦距离, 能有效克服基于高维距离和最近邻等离群检测方法的"维度灾难"问题,利用本专利技术可以广 泛应用于信用卡欺诈检测、视频监控异常行为检测、网络流量入侵检测等高维数据中。【附图说明】 图1为本专利技术的大规模高维数据中离群数据检测方法的流程图。【具体实施方式】 现结合附图和【具体实施方式】,对本专利技术做进一步说明: 本专利技术的大规模高维数据中离群数据检测方法,如图1所示,包括以下步骤: 1)计算大规模高维数据中每个数据点的余弦距离平均值,即对于每个数据点Α, 分别计算A点到其它所有任意两个点B和C组成的向量Xi和石的余弦距离的平均值; 为了得到各数据点的余弦距离平均值,需要给出大规模高维数据的形式化描述、 向量夹角余弦距离和数据点余弦距离平均值的计算方法,分别为: 1-1)形式化数据集,大规模高维数据可以形式化为: 对于给定的大规模高维数据集D G.范数M · I I定义为Rd- R +,内积< ·,· > 定义为RdXRd- R, V点 A, B e D,Xg表示向量2 -5, 其中Rd表示d维实数空间,R +表示正实数,R d- R +表示d维实数空间上的元素到 正实数的一个映射,RdXRd- R表示d维实数空间上的两个向量作内积运算。 1-2)对于大规模高维数据集D中的所有点分别计算每个点A到其它两个点的向量 夹角余弦距离之和,表示为M e (A),计算公式为:当前第1页1 2 本文档来自技高网...

【技术保护点】
一种大规模高维数据中离群数据的检测方法,其特征在于,包括以下步骤:(1)计算大规模高维数据中每个数据点的余弦距离平均值,即对于每个数据点A,分别计算A点到其余所有任意两个点B和C组成的向量和的余弦距离的平均值;(2)计算每个数据点A的余弦距离;(3)计算每个数据点A的所有余弦距离的平均间距;(4)分类划分余弦距离平均间距,选取余弦距离平均间距最小的几个点为数据离群度最大的离群点;(5)确定离群点。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘文婷
申请(专利权)人:河海大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1