一种大规模数据中离群数据的分析方法技术

技术编号:11181499 阅读:69 留言:0更新日期:2015-03-25 10:56
本发明专利技术公开了一种大规模数据中离群数据的分析方法,属于数据挖掘技术,包括如下步骤:(1)、离群数据挖掘;(2)、离群数据聚类:将离群数据分配到不同的簇中;(3)、成簇极稀少离群数据的筛选:筛选的依据为簇中样本个数小于阈值T1;所有簇中的极稀少离群数据组成的数据集记为C1;(4)、离群数据成团性特征分析及簇中极稀少数据的筛选:利用可视化手段辅助分析聚到同簇中的离群数据,得到其共性特征即成团性特征,进而分析其异常特征产生的原因;(5)、极稀少离群数据的分析。本发明专利技术针对大规模数据中离群数据分析的目的和存在的问题,结合可视化、模式识别及数据挖掘相关方法,对大规模数据中离群数据进行有效的分析。

【技术实现步骤摘要】

本专利技术涉及一种数据挖掘技术,具体地说是一种大规模数据中离群数据的分析方法
技术介绍
离群数据是指在大量数据存在的一些与数据的一般行为或模型不一致的数据。离群数据的产生一般认为有两种原因:(1)、度量或执行错误所导致:对这类型离群数据的筛选,可以从大量数据中筛选出杂质或存在问题的数据,进而提高数据的总体质量。(2)、固有的数据变异性的结果:这类型数据的客观存在决定了对该类型离群数据筛选的重要性。例如在科研数据发现客观存在的一些未知的离群数据,可以很好的提高相关理论的研究。利用离群数据检测,不仅可以用来在分类、聚类及回归等其它应用中排除样本中的杂质数据,而且可以发现在大样本数据中存在的一些分布比较少的特殊样本数据。对大规模数据集筛选出的离群数据进行有效的分析,一方面要得到相对普遍的异常数据特征并进行分析,另外一方面要在其中筛选出相对非常稀少的离群数据。
技术实现思路
本专利技术一种大规模数据中离群数据的分析方法的技术任务是提供一种针对大规模数据中离群数据分析的目的和存在的问题,结合可视化、模式识别及数据挖掘相关方法,对大规模数据中离群数据进行有效的分析。本专利技术的技术任务是按以下方式实现的:一种大规模数据中离群数据的分析方法,包括如下步骤:(1)、离群数据挖掘:从大规模数据中筛选出其中的离群数据;本专利技术提出的方法是在此步骤基础上对筛选出来的离群数据进行分析,进而发现离群数据中的成团性及其中的极稀少离群数据;需要注意的是,数据特征的选取及挖掘方法的不同会导致挖掘出来离群数据有所不同;(2)、离群数据聚类:该步骤的目的是对步骤(1)筛选出来的离群数据进行聚类,将离群数据分配到不同的簇中,簇中的离群数据更为相似且不同簇中的离群数据的差别比较大;(3)、成簇极稀少离群数据的筛选:成簇极稀少离群数据为聚类过程中聚集到规模极小的簇中的离群数据;这些数据为位于特征空间外围,明显偏离所有数据的全局离群数据;筛选的依据为簇中样本个数小于阈值T1;所有簇中的极稀少离群数据组成的数据集记为C1;(4)、离群数据成团性特征分析及簇中极稀少数据的筛选:在数据规模比较大的情况下,离群数据也会出现一定的成团性,对成团性质的分析将有助于理解离群数据的特征特性以及产生的可能原因;成团性特征分析的目的是利用可视化手段辅助分析聚到同簇中的离群数据,得到其共性特征即成团性特征,进而分析其异常特征产生的原因;该步骤同时会筛选出隐藏簇中的极稀少离群数据;(5)、极稀少离群数据的分析:极稀少离群数据定义为在筛选出的离群数据中仍然数量相对较少的一类数据。随着数据规模的增加,越有希望发现这类数据;由于数据量的稀少,对于此类数据的搜寻就变的尤为重要;极端情况下,一个极稀少离群数据的发现对于某些科学研究及工程都具有及其重要的意义。设计结构包括:离群成团分析、极稀少数据的搜寻、离群数据的可视化分析;对大规模数据中离群数据进行样本分组、样本约减、模板生成、模板筛选类别标记五个阶段的分析;筛选完离群数据之后,首先将所有离群数据进行无监督分类;选取样本数量小于一定数量的簇中对应的样本作为候选样本集一;对每个簇的簇心数据及其中的样本数据进行分析,进而分析得到该簇中离群数据普遍存在的异常特征;对簇中的所有样本数据计算局部孤立性因子,然后选取簇中因子较大的样本作为候选样本集二;候选样本集一和候选样本集二都是所有样本中分布非常稀少的样本,继续采用可视化分析方法对着两个样本集进行进一步分析。步骤(2)中,按照以下步骤对离群数据进行聚类:①、假设筛选出来的离群数据集为                                                ,其中n为离群数据的个数,m为数据的特征数即维度;②、计算数据中每一维度的均值及标准差,分别记为和;③、对于维度i,排除其中及的数据,重新计算和,迭代此过程,直到和数值收敛;④、对D中每一维度进行归一化得到,公式如下:;⑤、采用k均值算法对所有离群数据按照进行,其中簇的个数k选取为;通过以上迭代过程,所有的离群数据都会被分配至唯一的簇中。步骤(4)针对步骤(3)筛选完剩余的簇,其方法及策略描述如下:①、假设簇中筛选出来的离群数据集为,其中n1为簇中离群数据的个数;②、计算数据集的局部孤立性因子LOF(Local outlier factor),记为;③、计算L的均值及标准差,分别记为m和s;④、筛选簇中局部孤立性因子对应的样本,将这些样本加入数据集C2;⑤、计算Dc中剩余数据每个维度的均值与标准差,分别记为和。步骤(5)中,极稀少离群数据的分析通过雷达图的形式来可视化分析。本专利技术的一种大规模数据中离群数据的分析方法具有以下优点:针对大规模数据中离群数据分析的目的和存在的问题,结合可视化、模式识别及数据挖掘相关方法,对大规模数据中离群数据进行有效的分析。附图说明下面结合附图对本专利技术进一步说明。附图1为一种大规模数据中离群数据的分析方法的流程图;附图2为一种大规模数据中离群数据的分析方法的离群数据成团性特征分析示意图;附图3为一种大规模数据中离群数据的分析方法的极稀少离群数据特征分析示意图。具体实施方式参照说明书附图和具体实施例对本专利技术的一种大规模数据中离群数据的分析方法作以下详细地说明。实施例1:本专利技术的一种大规模数据中离群数据的分析方法,包括如下步骤:(1)、离群数据挖掘:从大规模数据中筛选出其中的离群数据;本专利技术提出的方法是在此步骤基础上对筛选出来的离群数据进行分析,进而发现离群数据中的成团性及其中的极稀少离群数据;需要注意的是,数据特征的选取及挖掘方法的不同会导致挖掘出来离群数据有所不同;(2)、离群数据聚类:该步骤的目的是对步骤(1)筛选出来的离群数据进行聚类,将离群数据分配到不同的簇中,簇中的离群数据更为相似且不同簇中的离群数据的差别比较大;(3)、成簇极稀少离群数据的筛选:成簇极稀少离群数据为聚类过程中聚集到规模极小的簇中的离群数据;这些数据为位于特征空间外围,明显偏离所有数据的全局离群数据;筛选的依据为簇中样本个数小于阈值T1;所有簇中的极稀少离群数据组成的数据集记为C1;(4)、离群数据成团性特征分析及簇中极稀少数据的筛选:在数据规模比较大的情况下,离群数据也会出现一定的成团性,对成团性质的分析将有助于理解离群数据的特征特性以及产生的可能原因;成团性特征分析的目的是利用可视化手段辅助分析聚到同簇中的离群数据,得到其共性特征即成团性特征,进而分析其异常特征产生的原因;该步骤同时会筛选出隐藏簇中的极稀少离群数据;(5)、极稀少离群数据的分析:极稀少离群数据定义为在筛选出的离群数据中仍然数量相对较少的一类数据。随着数据规模的增加,越有希望发现这类数据;由于数据量的稀少,对于此类数据的搜寻就变的尤为重要;极端情况下,一个极稀少离群数据的发本文档来自技高网...

【技术保护点】
一种大规模数据中离群数据的分析方法,其特征在于包括如下步骤:(1)、离群数据挖掘:从大规模数据中筛选出其中的离群数据;(2)、离群数据聚类:该步骤的目的是对步骤(1)筛选出来的离群数据进行聚类,将离群数据分配到不同的簇中,簇中的离群数据更为相似且不同簇中的离群数据的差别比较大;(3)、成簇极稀少离群数据的筛选:成簇极稀少离群数据为聚类过程中聚集到规模极小的簇中的离群数据;这些数据为位于特征空间外围,明显偏离所有数据的全局离群数据;筛选的依据为簇中样本个数小于阈值T1;所有簇中的极稀少离群数据组成的数据集记为C1;(4)、离群数据成团性特征分析及簇中极稀少数据的筛选:成团性特征分析的目的是利用可视化手段辅助分析聚到同簇中的离群数据,得到其共性特征即成团性特征,进而分析其异常特征产生的原因;该步骤同时会筛选出隐藏簇中的极稀少离群数据;(5)、极稀少离群数据的分析:极稀少离群数据定义为在筛选出的离群数据中仍然数量相对较少的一类数据。

【技术特征摘要】
1.一种大规模数据中离群数据的分析方法,其特征在于包括如下步骤:
(1)、离群数据挖掘:从大规模数据中筛选出其中的离群数据;
(2)、离群数据聚类:该步骤的目的是对步骤(1)筛选出来的离群数据进行聚类,将离群数据分配到不同的簇中,簇中的离群数据更为相似且不同簇中的离群数据的差别比较大;
(3)、成簇极稀少离群数据的筛选:成簇极稀少离群数据为聚类过程中聚集到规模极小的簇中的离群数据;这些数据为位于特征空间外围,明显偏离所有数据的全局离群数据;筛选的依据为簇中样本个数小于阈值T1;所有簇中的极稀少离群数据组成的数据集记为C1;
(4)、离群数据成团性特征分析及簇中极稀少数据的筛选:成团性特征分析的目的是利用可视化手段辅助分析聚到同簇中的离群数据,得到其共性特征即成团性特征,进而分析其异常特征产生的原因;该步骤同时会筛选出隐藏簇中的极稀少离群数据;
(5)、极稀少离群数据的分析:极稀少离群数据定义为在筛选出的离群数据中仍然数量相对较少的一类数据。
2.根据权利要求1所述的一种大规模数据中离群数据的分析方法,其特征在于设计结构包括:离群成团分析、极稀少数据的搜寻、离群数据的可视化分析;对大规模数据中离群数据进行样本分组、样本约减、模板生成、模板筛选类别标记五个阶段的分析;筛选完离群数据之后,首先将所有离群数据进行无监督分类;选取样本数量小于一定数量的簇中对应的样本作为候选样本集一;对每个簇的簇心数据及其中的样本数据进行分析,进而分析得到该簇中离群数据普遍存在的异常特征;对簇中的所有样本数据计算局部孤立性因子,然后选取簇中因子较...

【专利技术属性】
技术研发人员:韦鹏吴楠付兴旺
申请(专利权)人:浪潮电子信息产业股份有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1