一种基于模式挖掘的噪音数据过滤方法技术

技术编号:7682539 阅读:209 留言:0更新日期:2012-08-16 05:53
本发明专利技术公开了一种基于模式挖掘的噪音数据过滤方法,该方法首先建立由词袋数据集D构成的预处理数据结构FP树,该FP树包含了词袋数据集及其相应的事物数据集;其次,根据FP-2INF算法,最终将所有2-项集兴趣模式添加到兴趣模式集L中,完成噪音数据过滤。本发明专利技术根据兴趣度指标条件,将兴趣度指标直接进行剪枝,一步到位地挖掘出兴趣模式,有效实现噪音数据过滤,获得高质量数据,提高了数据的正确性、一致性。

【技术实现步骤摘要】

本专利技术涉及一种数据处理方法,具体地说是。
技术介绍
数据质量指数据满足明确或隐含需求程度的指标,是对于现实世界的真实写照。数据质量问题不仅仅指出现不正确的数据还指数据不一致性问题,随着数据量的增加,数据的内部一致性问题变得极为重要,是广泛存在于各学科数据使用中的 一个主题。噪声作为测量误差的随机部分,它可能涉及到值的失真或加入了伪造的对象数据。关联分析作为数挖掘中的核心问题之一,用于寻找给定数据记录集中数据项间隐藏的关联关系及描述数据间有意义的联系,对于关联规则挖掘往往转化为基于支持度-置信度框架的频繁模式挖掘,但是,频繁模式往往不是真正用户感兴趣的模式,所以,兴趣模式挖掘的研究和应用得到人们的重视,在购物篮事物(market basket transaction)、生物信息学、公共健康及Web挖掘中等领域有着广泛的应用。设数据集二 {11,12,…,In}由/ 个事务构成,对于每一个去除词频的实例看作一个事Ii 二 {w11, W2,…,W11 Ii\} 0设\Hpl,p2,. . . ,/7衫表示兴趣模式集合,若实例/i中不包含任何兴趣模式,即( Pfil),则实例n为数据集的噪音数据。为此,需要通过去除D中所有噪音实例的噪音过滤获得高质量数据以确保数据的正确性、一致性。
技术实现思路
为了克服现有技术中采用频繁模式挖掘噪音数据存在的问题,本专利技术的目的是提供。该方法根据兴趣度指标条件,将兴趣度指标直接进行剪枝,一步到位地挖掘出兴趣模式,有效实现噪音数据过滤,获得高质量数据,提高了数据的正确性、一致性。本专利技术的目的是通过以下技术方案来实现的 ,其特征在于该方法首先建立由词袋数据集D构成的预处理数据结构FP树,该FP树包含了词袋数据集及其相应的事物数据集;其次,根据FP-2INF算法,最终将所有2-项集兴趣模式添加到兴趣模式集L中,完成噪音数据过滤;具体步骤如下 1)预处理输入数据集;输入数据由二元组<Word_ID,Frequency}的词袋数据集组成的Word_ID-Instance矩阵,该矩阵每一行由Word_ID及其相关的实例数据构成,进而转化为构建FP树的事务数据集; 2)根据预处理的数据集,通过频繁集中频率降序的顺序建立FP树,设立基于2-项集余弦相似度兴趣模式噪音数据挖掘^^%Mn_supp、min_cos ; 3)使用算法FP-2INF,将FP树分成前缀路径FP树P和多缀路径FP树Q,算法开始试图寻找单路径树,遍历单路径树P上的任意2-项集卢U ,如果满足cos (AUff) ^min_cos兴趣模式,则将其添加至兴趣模式集L中;在多缀路 径树Q中,对路径上的任意元素若为单项集,建立条件模式基及条件FP树Tree^,对非空的FP树Tree^继续FP-2INF迭代;否则,对满足2-项集模式且符合余弦相似度条件的2-项集添加至兴趣模式集L中; 4)根据FP-2INF返回的2-项集余弦相似度兴趣模式,比较数据集D和模式集L中的数据;对于任意数据彡而言,如果存在彳|£|则|即为被兴趣模式过滤的噪音数据,完成噪音数据过滤。本专利技术的初始输入是数据集合D、D上构建的FP树,及阈值。由兴趣度评估关联规则的定义,潜在兴趣模式的最小长度为2。对于D中的实例Ji,为了能够证明当存在一个左-项集請的兴趣模式下而不包含任意2-项集兴趣模式的情况存在,进而从很大程度上简化兴趣模式发现。本专利技术首先引入噪音数据过滤适用的条件及度量方法构建FP树,在此基础上通过定理证明了对于满足余弦相似度度量条件的2-项集调用 FP-2INFbased 2~Itemsets Noise Filter)算法可以有效达到噪音数据过滤的目的。为了验证噪音数据过滤的高效性,本专利技术使用了来自Flickr的图像数据集0xford_5Ko该数据集由标注了 11类不同牛津地标的5060张图片组成,由含有IM属性的词袋表示,特征值即为视觉词的出现频率。去除出现频率不足3次的属性,最终获得由658346个特征的数据集,其中数据密度0. 0228%,噪音91. 58%。本专利技术根据兴趣度指标条件,将兴趣度指标直接进行剪枝,一步到位地挖掘出兴趣模式,有效实现噪音数据过滤,获得高质量数据,提高了数据的正确性、一致性。附图说明图I是本专利技术具体的流程图。图2是不同参数设置情况下噪音过滤前后聚类性能对比图。具体实施例方式一种本专利技术所述的基于模式挖掘的噪音数据过滤方法,该方法首先建立由词袋数据集D构成的预处理数据结构FP树,该FP树包含了词袋数据集及其相应的事物数据集;其次,根据FP-2INF算法,最终将所有2-项集兴趣模式添加到兴趣模式集L中,完成噪音数据过滤;图I是本专利技术具体的流程图,具体步骤如下 1)预处理输入数据集;输入数据由二元组<Word_ID,Frequency}的词袋数据集组成的Word_ID-Instance矩阵,该矩阵每一行由Word_ID及其相关的实例数据构成,进而转化为构建FP树的事务数据集; 2)根据预处理的数据集,通过频繁集中频率降序的顺序建立FP树,设立基于2-项集余弦相似度兴趣模式噪音数据挖掘热參lmin_supp、min_cos ; 3)使用算法FP-2INF,将FP树分成前缀路径FP树P和多缀路径FP树Q,算法开始试图寻找单路径树,遍历单路径树P上的任意2-项集βUα,如果满足cos (βUα ) ≥min_cos兴趣模式,则将其添加至兴趣模式集L中;在多缀路径树Q中,对路径上的任意元素若为单项集,建立条件模式基及条件FP树Tree^,对非空的FP树Tree^继续FP-2INF迭代;否则,对满足2-项集模式且符合余弦相似度条件的2-项集添加至兴趣模式集L中;4)根据FP-2INF返回的2-项集余弦相似度兴趣模式,比较数据集D和模式集L中的数据;对于任意数据{而言,如果存在彳eJ) 则I即为被兴趣模式过滤的噪音数据,完成噪音数据过滤。兴趣度指标条件如下 为了揭示对2-项集兴趣模式具有足够的噪音过滤能力,给出以下两个满足度量的条件。对于所有满足条件I或条件2的指标都可以作为兴趣度衡量指标,同时,由于余弦相似 度很好的满足了条件反单调性、交叉支持等性质,将选用余弦度量作为噪音数据过滤的方法。;# /f 2 :令V是项的集合,/=Z是V的幂集。对于兴趣度量/,如果VX, Yefi (I CY)^ 卿 > /(F),则(7 G L) — Cr G L)。这表明度量/满足反单调性,从而有助于修剪无兴趣候选项的超集。;# /f :令V是项的集合,/=Z是V的幂集。对于兴趣度量/,如果vl.re Iw e 尤且 Wf e F\J,(j(m-3 < ff(wf) (Xe Y)-^ /(I) >/{F),则(Y g l) — (X g L)。其中,a CwJ是数据集D上的支持度度量/满足条件反单调性质。鉴于余弦度量方法很好的满足了以上性质,本专利技术主要采用余弦度量方法的噪音数据过滤。证明如定理I所示 定理I :设项集多2、模式/7 w2,.., ffAy,则关于/7的cosine度量如公式(I)所示满足条件2。 = 证明设左-项集模式w2,.., wkj及由其超集IM wl, w2,.本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:曹杰伍之昂李秀怡毛波杨风召
申请(专利权)人:南京财经大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1