基于三支决策和距离的离群点检测方法技术

技术编号:10960727 阅读:121 留言:0更新日期:2015-01-28 13:00
本发明专利技术公开了基于三支决策和距离的离群点检测方法:S1接收输入的数据集为信息系统S,S中包含m个对象和若干个条件属性;S2获取数据集中每个对象的k近邻距离和;S3对所有对象的k近邻距离和进行归一化处理,并将经过归一化的结果作为三支决策的条件概率;S4建立两个最优化目标;S5通过解最优化问题1,得到所需参数k的值为k′;S6选择归一化结果作为三支决策的条件概率;S7解最优化问题2,得出阈值α,γ,β,进行三支决策划分得到正域和边界域;S8判断正域是否为空;S9正域为空,结束本流程;S10正域不为空,输出正域对象,将边界域中的对象作为新的数据集;S11归一化新数据集的k近邻距离和k=k′,作为新的三支决策条件概率,转到步骤S7。

【技术实现步骤摘要】

本专利技术属于数据处理
,具体涉及一种基于三支决策和距离的离群点检测 方法。
技术介绍
三支决策是决策粗糙集的核心思想之一,它将传统的正域(POS)、负域(NEG)二 支决策语义扩展为正域(POS)、边界域(BND)和负域(NEG)的三支决策语义,认为边界域 (BND)也是一类可行的决策,这与人类智能在处理决策问题时的方法是一致的。三支决策依 据阈值a,P对数据集进行三支划分,利用决策风险损失最优化作为优化目标,可以求得 阈值a,旦。 离群点检测是数据挖掘技术的重要研究领域之一,用来发现数据集中明显偏离于 其他数据、不满足数据的一般行为或模式的数据。这些数据对象叫做离群点,也叫做孤立 点。离群点检测算法分为基于统计、深度、聚类、距离和密度的方法。其中,基于距离的方 法由于算法思想直观,易于实现而得到广泛的研究和应用。基于距离的离群点概念和挖 掘方法最早由 Knorr 和 Ng (E. Knorr and R. Ng, Algorithms for mining distance-based outliers in large datasets, Proceedings of the 24th VLDB Conference New York, USA,392-403,1998.)提出,如果数据集合S中至少有P部分对象与对象0的距离大于d, 则对象0是一个带参数P和d的基于距离的离群点,即DB(p,d)。后来,Ramaswamy等 (Sridhar Ramaswamy, Rajeev Rastogi, and Kyuseok Shim, Efficient algorithms for mining outliers from large data sets,ACM SIGMOD Record,2000,29(2) :427-438.)提 出了一个新的基于距离的离群点定义,即基于距离的第k最近邻(kth Nearest Neighbor) 离群点挖掘方法,Angiulli 和 Pizzuti (Fabrizio Angiulli and Clara Pizzuti, Outlier mining in large high-dimensional data sets, IEEE Transactions on Knowledge and Data Engineering, 2005,17 (2) :203-215.)提出了 HilOut 算法,用权重 wk (p)表示对象 p 与其k个最近邻居的距离之和。显然wk (p)比Dk (p)更精确地度量了 p的邻域的稀疏程度。 离群点检测算法可以描述为:计算数据集D中每个数据点的离群因子Wk(p),将其按从大到 小降序排列,离群因子最高的前n个点就是所求的离群点,即Top-n离群点。 基于距离(Distance-Based)的离群点检测方法不需要事先了解数据的分布模 式,同时可以适用于任意维度的数据集,但是需要用户选取合理的参数以保证算法的效果。 例如Top-n离群点检测方法中存在参数n与k,参数n与k值的选择会明显影响算法产生的 实际性能和检测结果。即使是采用同一个算法,由于被处理的数据集特征不同,n与k值的 选择也没有可借鉴性,通常n与k值的选择都是依靠用户经验和大量实验来决定。本专利技术 主要针对Top-n离群点检测算法中需要人为确定的参数n和k,提出相应的改进方法,以避 免参数n和k的人为确定对检测效果的影响,回避Top-n离群点检测方法中参数n与k选 择困难的问题。
技术实现思路
本专利技术要解决的技术问题是克服现有的基于距离的离群点检测方法的不足,具体 针对Top-n离群点检测方法提供一种,使算法的效 果不依赖于用户给定的参数,而是通过用三支决策划分的方式循环提取离群点来代替对参 数n的使用,以决策风险损失最优为优化目标来寻找最优的k值。 本专利技术提供一种,包括如下步骤: (1)输入数据集也即信息系统S,其包含m个对象和若干个条件属性,令k = 1,2, 3,...,ni; (2)针对每一个k值,求解数据集中每个对象的k近邻距离和(kNNDS); (3)针对每一个k值,对所有对象的k近邻距离和(kNNDS)进行归一化,并将其作 为二支决策的条件概率; (4)根据决策风险损失最优化原则建立两个最优化目标; (5)解最优化问题1,得出所需参数k的值为k'; (6)根据(5)得出的参数k的值k',选择所有对象的k近邻距离和(kNNDS) (k = k')的归一化结果作为三支决策的条件概率; (7)解最优化问题2得出阈值a,Y,P,对所有对象进行三支决策划分得到正域 (POS)和边界域(BND); (8)判断正域(POS)是否为空; (9)如果正域(POS)为空,结束本流程; (10)如果正域(POS)不为空,输出正域对象,将边界域(BND)中的对象作为新的数 据集; (11)归一化新数据集的k近邻距离和(kNNDS) (k = k'),作为新的三支决策条件 概率,转到步骤(7)。 在本专利技术所述的中,给定数据集S = (U, C,V,f),其中U是对象的非空有限集合,C是条件属性集,V是全体属性的值域,f是UX A - V 的一个映射且为信息函数。本文档来自技高网
...

【技术保护点】
一种基于三支决策和距离的离群点检测方法,其特征在于,其包括如下步骤:S1、接收输入的数据集,所述数据集为信息系统S,信息系统中包含m个对象和若干个条件属性,令k=1,2,3,…,m;S2、针对每一个k值,获取数据集中每个对象的k近邻距离和;S3、针对每一个k值,对所有对象的k近邻距离和进行归一化处理,并将经过归一化的结果作为三支决策的条件概率;S4、根据决策风险损失最优化原则建立两个最优化目标;S5、通过解最优化问题1,得到所需参数k的值为k′;S6、根据步骤S5得出的参数k的值k′选择所有对象的k近邻距离和k=k′的归一化结果作为三支决策的条件概率;S7、解最优化问题2,得出阈值α,γ,β,对所有对象进行三支决策划分得到正域和边界域;S8、判断正域是否为空;S9、如果正域为空,结束本流程;S10、如果正域不为空,输出正域对象,将边界域中的对象作为新的数据集;S11、归一化新数据集的k近邻距离和k=k′,作为新的三支决策条件概率,转到步骤S7。

【技术特征摘要】
1. 一种基于三支决策和距离的离群点检测方法,其特征在于,其包括如下步骤: 51、 接收输入的数据集,所述数据集为信息系统S,信息系统中包含m个对象和若干个 条件属性,令k=l,2,3, 52、 针对每一个k值,获取数据集中每个对象的k近邻距离和; 53、 针对每一个k值,对所有对象的k近邻距离和进行归一化处理,并将经过归一化的 结果作为三支决策的条件概率; 54、 根据决策风险损失最优化原则建立两个最优化目标; 55、 通过解最优化问题1,得到所需参数k的值为V; 56、 根据步骤S5得出的参数k的值k'选择所有对象的k近邻距离和k=k'的归一 化结果作为三支决策的条件概率; 57、 解最优化问题2,得出阈值α,γ,β,对所有对象进行三支决策划分得到正域和边 界域; 58、 判断正域是否为空; 59、 如果正域为空,结束本流程; 510、 如果正域不为空,输出正域对象,将边界域中的对象作为新的数据集; 511、 归一化新数据集的k近邻距离和k=k',作为新的三支决策条件概率,转到步骤 S7〇2. 根据权利要求1所述的基于...

【专利技术属性】
技术研发人员:徐久诚刘洋洋孙林徐瑾靳瑞霞徐天贺张倩倩李晓艳
申请(专利权)人:河南师范大学
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1