一种基于模式挖掘的噪音数据过滤方法技术

技术编号：7682539 阅读：224 留言：0更新日期：2012-08-16 05:53

本发明专利技术公开了一种基于模式挖掘的噪音数据过滤方法，该方法首先建立由词袋数据集D构成的预处理数据结构FP树，该FP树包含了词袋数据集及其相应的事物数据集；其次，根据FP-2INF算法，最终将所有2-项集兴趣模式添加到兴趣模式集L中，完成噪音数据过滤。本发明专利技术根据兴趣度指标条件，将兴趣度指标直接进行剪枝，一步到位地挖掘出兴趣模式，有效实现噪音数据过滤，获得高质量数据，提高了数据的正确性、一致性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种数据处理方法，具体地说是。
技术介绍
数据质量指数据满足明确或隐含需求程度的指标，是对于现实世界的真实写照。数据质量问题不仅仅指出现不正确的数据还指数据不一致性问题，随着数据量的增加，数据的内部一致性问题变得极为重要，是广泛存在于各学科数据使用中的一个主题。噪声作为测量误差的随机部分，它可能涉及到值的失真或加入了伪造的对象数据。关联分析作为数挖掘中的核心问题之一，用于寻找给定数据记录集中数据项间隐藏的关联关系及描述数据间有意义的联系，对于关联规则挖掘往往转化为基于支持度-置信度框架的频繁模式挖掘，但是，频繁模式往往不是真正用户感兴趣的模式，所以，兴趣模式挖掘的研究和应用得到人们的重视，在购物篮事物(market basket transaction)、生物信息学、公共健康及Web挖掘中等领域有着广泛的应用。设数据集二 {11,12，…,In}由/ 个事务构成，对于每一个去除词频的实例看作一个事Ii 二 {w11, W2,…，W11 Ii\} 0设\Hpl，p2，. . . ,/7衫表示兴趣模式集合，若实例/i中不包含任何兴趣模式，即( Pfil)，则实例n为数据集的噪音数据。为此，需要通过去除D中所有噪音实例的噪音过滤获得高质量数据以确保数据的正确性、一致性。
技术实现思路
为了克服现有技术中采用频繁模式挖掘噪音数据存在的问题，本专利技术的目的是提供。该方法根据兴趣度指标条件，将兴趣度指标直接进行剪枝，一步到位地挖掘出兴趣模式，有效实现噪音数据过滤，获得高质量数据，提高了数据的正确性、一致性。本专利技术的目的是通过以下技术方案来实现的 ...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员：曹杰，伍之昂，李秀怡，毛波，杨风召，
申请(专利权)人：南京财经大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人