【技术实现步骤摘要】
本专利技术属于数据处理
,具体涉及一种基于三支决策和距离的离群点检测 方法。
技术介绍
三支决策是决策粗糙集的核心思想之一,它将传统的正域(POS)、负域(NEG)二 支决策语义扩展为正域(POS)、边界域(BND)和负域(NEG)的三支决策语义,认为边界域 (BND)也是一类可行的决策,这与人类智能在处理决策问题时的方法是一致的。三支决策依 据阈值a,P对数据集进行三支划分,利用决策风险损失最优化作为优化目标,可以求得 阈值a,旦。 离群点检测是数据挖掘技术的重要研究领域之一,用来发现数据集中明显偏离于 其他数据、不满足数据的一般行为或模式的数据。这些数据对象叫做离群点,也叫做孤立 点。离群点检测算法分为基于统计、深度、聚类、距离和密度的方法。其中,基于距离的方 法由于算法思想直观,易于实现而得到广泛的研究和应用。基于距离的离群点概念和挖 掘方法最早由 Knorr 和 Ng (E. Knorr and R. Ng, Algorithms for mining distance-based outliers in large datasets, Proceedings of the 24th VLDB Conference New York, USA,392-403,1998.)提出,如果数据集合S中至少有P部分对象与对象0的距离大于d, 则对象0是一个带参数P和d的基于距离的离群点,即DB(p,d)。后来,Ramaswamy等 (Sridhar Ramaswamy, Rajeev Rastogi, and Ky ...
【技术保护点】
一种基于三支决策和距离的离群点检测方法,其特征在于,其包括如下步骤:S1、接收输入的数据集,所述数据集为信息系统S,信息系统中包含m个对象和若干个条件属性,令k=1,2,3,…,m;S2、针对每一个k值,获取数据集中每个对象的k近邻距离和;S3、针对每一个k值,对所有对象的k近邻距离和进行归一化处理,并将经过归一化的结果作为三支决策的条件概率;S4、根据决策风险损失最优化原则建立两个最优化目标;S5、通过解最优化问题1,得到所需参数k的值为k′;S6、根据步骤S5得出的参数k的值k′选择所有对象的k近邻距离和k=k′的归一化结果作为三支决策的条件概率;S7、解最优化问题2,得出阈值α,γ,β,对所有对象进行三支决策划分得到正域和边界域;S8、判断正域是否为空;S9、如果正域为空,结束本流程;S10、如果正域不为空,输出正域对象,将边界域中的对象作为新的数据集;S11、归一化新数据集的k近邻距离和k=k′,作为新的三支决策条件概率,转到步骤S7。
【技术特征摘要】
1. 一种基于三支决策和距离的离群点检测方法,其特征在于,其包括如下步骤: 51、 接收输入的数据集,所述数据集为信息系统S,信息系统中包含m个对象和若干个 条件属性,令k=l,2,3, 52、 针对每一个k值,获取数据集中每个对象的k近邻距离和; 53、 针对每一个k值,对所有对象的k近邻距离和进行归一化处理,并将经过归一化的 结果作为三支决策的条件概率; 54、 根据决策风险损失最优化原则建立两个最优化目标; 55、 通过解最优化问题1,得到所需参数k的值为V; 56、 根据步骤S5得出的参数k的值k'选择所有对象的k近邻距离和k=k'的归一 化结果作为三支决策的条件概率; 57、 解最优化问题2,得出阈值α,γ,β,对所有对象进行三支决策划分得到正域和边 界域; 58、 判断正域是否为空; 59、 如果正域为空,结束本流程; 510、 如果正域不为空,输出正域对象,将边界域中的对象作为新的数据集; 511、 归一化新数据集的k近邻距离和k=k',作为新的三支决策条件概率,转到步骤 S7〇2. 根据权利要求1所述的基于...
【专利技术属性】
技术研发人员:徐久诚,刘洋洋,孙林,徐瑾,靳瑞霞,徐天贺,张倩倩,李晓艳,
申请(专利权)人:河南师范大学,
类型:发明
国别省市:河南;41
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。