数据清洗方法及装置制造方法及图纸

技术编号:6684317 阅读:409 留言:0更新日期:2012-04-11 18:40
本发明专利技术实施例公开了一种数据清洗方法及装置,涉及通信领域。为了能够提高数据分类的准确性,本发明专利技术提供的技术方案如下:获取经过粗分类的样本数据,将获取的样本数据作为第一数据集;对所述样本数据进行分类,获得所述样本数据的粗分类类别的权重,根据所述权重确定所述样本数据的粗分类类别在所有类别中的排序位置;根据所述样本数据的粗分类类别在所有类别中的排序位置和第一数据集中样本数据的总数量,获得综合评估结果;当根据所述综合评估结果确定需要对所述第一数据集进行清洗时,根据所述样本数据的粗分类类别在所有类别中的排序位置删除规定数量的排在末位的样本数据。本发明专利技术适用于数据分类处理。

【技术实现步骤摘要】

本专利技术涉及通信领域,尤其涉及一种数据清洗方法及装置
技术介绍
随着计算机技术和通讯技术的飞速发展,人们可以获得越来越多的数字化信息, 但同时也需要投入更多的时间对信息进行组织和整理。为了减轻这种负担,人们开始研究 使用计算机对数据进行自动分类。在实际应用中,互联网和文本库提供了大量已被粗分类 的样本数据,但其存在数据分类错误等质量问题,因此,需要针对这些样本数据分类的正确 性进行清洗。目前,使用如下方法对数据分类正确性进行清洗将文本权重及其特征项权重交 互迭代,直到文本权重及其特征项权重趋于稳定停止迭代,并且,利用最终的迭代结果删除 低权重的文本。其中,每次迭代的具体操作如下fft(k+1) = (Amxn) tX Wf(k)fff(k+1) = AmXnXfft(k+1)其中,fft(k+1)是第k+1次迭代之后得到的特征项权重估计值的改进值,fff(k)和 fff(k+1)分别是第k次和第k+Ι次迭代之后得到的文本权重估计值的改进值,Amxn是特征项 频次矩阵,m是总的样本数,η是特征项数。在实现本专利技术的过程中,现有技术中至少存在如下问题在清洗多类别数据时需 要对每个粗分类类别的数据逐类别进行清洗,由于缺乏类别间的对比,因此,粗分类类别的 数据中可能保留类别区分有误的样本,这样会使最终的迭代结果不准确,从而降低数据分 类的准确性。
技术实现思路
本专利技术的实施例提供一种数据清洗方法及装置,能够提高数据分类的准确性。为达到上述目的,本专利技术的实施例采用如下技术方案一种数据清洗方法,包括获取经过粗分类的样本数据,将获取的样本数据作为第一数据集;对所述样本数据进行分类,获得所述样本数据的粗分类类别的权重,根据所述权 重确定所述样本数据的粗分类类别在所有类别中的排序位置;根据所述样本数据的粗分类类别在所有类别中的排序位置和第一数据集中样本 数据的总数量,获得综合评估结果;当根据所述综合评估结果确定需要对所述第一数据集进行清洗时,根据所述样本 数据的粗分类类别在所有类别中的排序位置删除规定数量的排在末位的样本数据。一种数据清洗装置,其特征在于,包括数据获取单元,用于获取经过粗分类的样本数据,将获取的样本数据作为第一数 据集;分类排序单元,用于对所述数据获取单元获取的样本数据进行分类,获得所述样 本数据的粗分类类别的权重,根据所述权重确定所述样本数据的粗分类类别在所有类别中 的排序位置;综合评估单元,用于根据所述样本数据的粗分类类别在所有类别中的排序位置和 第一数据集中样本数据的总数量,获得综合评估结果;数据清洗单元,用于当根据所述综合评估结果确定需要对所述第一数据集进行清 洗时,根据所述样本数据的粗分类类别在所有类别中的排序位置删除规定数量的排在末位 的样本数据。本专利技术实施例提供的数据清洗方法及装置,通过获取经过粗分类的样本数据,将 获取的样本数据作为第一数据集,对所述第一数据集的样本数据进行分类,获得所述样本 数据的粗分类类别的权重,根据所述权重确定所述样本数据的粗分类类别在所有类别中的 排序位置,并根据所述样本数据的粗分类类别在所有类别中的排序位置和第一数据集中样 本数据的总数量,获得综合评估结果,当根据所述综合评估结果确定需要对所述第一数据 集进行清洗时,根据所述样本数据的粗分类类别在所有类别中的排序位置删除规定数量的 排在末位的样本数据。因此,可以同时进行多类别数据的清洗,即,每个类别的样本数据不 仅与该类别的样本数据作比较,还与所有其它类别的样本数据作比较,该类别的样本数据 在经过排序清洗后,同一类别内的样本方差减小,数据分类的准确性得到提高。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用 的附图作一简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于 本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他 的附图。图1为本专利技术实施例提供的一种数据清洗方法的流程示意图;图2为本专利技术实施例提供的另一种数据清洗方法的流程示意图;图3为本专利技术实施例提供的一种数据清洗装置的构成示意图。具体实施例方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于 本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他 实施例,都属于本专利技术保护的范围。为了能够提高数据分类的准确性,本专利技术实施例提供一种数据清洗方法,如图1 所示,包括101、获取经过粗分类的样本数据,将获取的样本数据作为第一数据集;其中,所述“粗分类”是指样本数据库中录入时样本数据已经过粗略分类,例如,视 频样本数据被粗分类为喜剧、悲剧、爱情剧等,上述喜剧、悲剧、爱情剧即为相应样本数据的 粗分类类别。102、对所述第一数据集的各类别的样本数据进行分类,获得所述样本数据的粗分类类别的权重,根据所述权重确定所述样本数据的粗分类类别在所有类别中的排序位置;举例而言,可以将所述第一数据集中的每个粗分类类别的样本数据分成η组,η为 大于等于2的正整数;将每个粗分类类别η组样本数据中的m组样本数据作为测试分类数 据,剩余的n-m组样本数据作为训练样本数据,m为大于等于1且小于η的正整数;通过分类 器根据所述训练样本数据对所述测试分类数据进行分类。其中,该分类器可以为Bayes(贝 叶斯)分类器、KNN分类器、SVM分类器或者类中心分类器等。当通过Bayes分类器根据所述训练样本数据对所述测试分类数据进行分类时,所 述样本数据的粗分类类别的权重由公式P(Ci/x) =P(X/Ci)*P(Ci)/P(X)计算得到。其中,P ( Ci) = 的:1 练 t严 ° P(XZCi) =P(Xl/Ci)*P(x2/Ci)....P(xn/Ci),样本数据用 训练枰本;S、数一个η维特征向量,即-X = 1x1,Χ2,...,χη},样本数据的粗分类类别共有m个类,分别用nk +1Cl,C2,...,Cm 表示。并且,当 P(XiIcj) = 0 时,将所述 P (Xi | Cj)采用 n + |Vocabulary| 进行替代。其中,η为该类别中出现的特征的总数,nk代表特征力出现的次数,lVocabularyl为 第一数据集中特征的总数,而所述特征为代表所属类别的关键词。另外,当至少两个样本数据的粗分类类别在所有类别中的排序位置相同时,根据 所述粗分类类别的权重对排序位置相同的所述至少两个样本数据进行排序。103、根据所述样本数据的粗分类类别在所有类别中的排序位置和第一数据集中 样本数据的总数量,获得综合评估结果;104、当根据所述综合评估结果确定需要对所述第一数据集进行清洗时,根据所述 样本数据的粗分类类别在所有类别中的排序位置删除规定数量的排在末位的样本数据。举例而言,在确定所述综合评估结果小于第一阈值时,确定需要对所述样本数据 进行清洗。当所述综合评估结果大于第一阈值时,将所述第一数据集作为最终清洗结果。在对第一数据集的样本数据集进行清洗后,将清洗后剩余的样本数据作为第二数 据集。判断所述第二数据集与第一数据集中样本数据的数量比是否大于约定比例,如果是, 则对所述本文档来自技高网...

【技术保护点】
1.一种数据清洗方法,其特征在于,包括:获取经过粗分类的样本数据,将获取的样本数据作为第一数据集;对所述样本数据进行分类,获得所述样本数据的粗分类类别的权重,根据所述权重确定所述样本数据的粗分类类别在所有类别中的排序位置;根据所述样本数据的粗分类类别在所有类别中的排序位置和第一数据集中样本数据的总数量,获得综合评估结果;当根据所述综合评估结果确定需要对所述第一数据集进行清洗时,根据所述样本数据的粗分类类别在所有类别中的排序位置删除规定数量的排在末位的样本数据。

【技术特征摘要】

【专利技术属性】
技术研发人员:王静毅吴向阳荀鹏
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:94

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1