一种基于布隆过滤器的数据分类方法技术

技术编号:15059987 阅读:107 留言:0更新日期:2017-04-06 09:38
本发明专利技术涉及大数据分类处理技术领域,特别是一种基于布隆过滤器的数据分类方法,包括以下步骤,步骤S101:布隆过滤器选择,根据hadoop离线分析出来的用户属性,生成相应的布隆过滤器;步骤S102:过滤判断键组装,根据内容创建者,进行布隆过滤器判断键组装;步骤S103:内容分类是否包含判断,根据生成的布隆过滤器判断键到指定的布隆过滤器进行是否包含判断,如果是,则进入步骤S104;如果否,则进入步骤S105;步骤S104:内容分类,将内容进行已定的分类,打上相应的tag;步骤S105:进行下一属性分类。采用上述方法后,本发明专利技术的一种基于布隆过滤器的数据分类方法在实时处理环节,根据用户属性,将用户创造的内容进行有效的分类,与hadoop等离线分析相比,具有实时性。

【技术实现步骤摘要】

本专利技术涉及大数据分类处理
,特别是一种基于布隆过滤器的数据分类方法
技术介绍
在UGC时代,每天用户创造的内容,可以用PB来衡量,同时用户在互联网上的身份信息与属性,在其创建之初,就已经基本确定。而在数据量越来越大的情况,如何根据用户的属性将其产生的内容进行快速有效的分类,就成为了一个问题。中国专利技术专利申请CN102253991A公开了一种URL存储方法,包括:步骤S11,根据预定分类规则对URL进行分类;步骤S12,分别生成用于存储各类型URL的布隆过滤器;步骤S13,根据各URL的类型,将所述URL存储在对应的所述布隆过滤器中。虽然,本专利技术能够在执行网页过滤时提供高效率的URL查询,从而提高网络性能;但是,此专利技术并不能在UGC实时处理环节,快速有效的将内容进行分类。
技术实现思路
本专利技术需要解决的技术问题提供一种在UGC实时处理环节判断且快速有效将内容分类的数据分类方法。为解决上述的技术问题,本专利技术的一种基于布隆过滤器的数据分类方法,包括以下步骤,步骤S101:布隆过滤器选择,根据hadoop离线分析出来的用户属性,生成相应的布隆过滤器;步骤S102:过滤判断键组装,根据内容创建者,进行布隆过滤器判断键组装;步骤S103:内容分类是否包含判断,根据生成的布隆过滤器判断键到指定的布隆过滤器进行是否包含判断,如果是,则进入步骤S104;如果否,则进入步骤S105;步骤S104:内容分类,将内容进行已定的分类,打上相应的tag;步骤S105:进行下一属性分类。进一步的,步骤S101中所述的用户属性包括标签、社交粉丝数和robot。进一步的,步骤S103中所述的指定的布隆过滤器为根据内容分类的用户属性,选择已生成的布隆过滤器。进一步的,步骤S103中所述生成的布隆过滤器判断键为根据用户与分类类别生成的布隆过滤器判断键。采用上述方法后,本专利技术的一种基于布隆过滤器的数据分类方法在实时处理环节,根据用户属性,将用户创造的内容进行有效的分类,与hadoop等离线分析相比,具有实时性。附图说明下面将结合附图和具体实施方式对本专利技术作进一步详细的说明。图1为本专利技术一种基于布隆过滤器的数据分类方法的流程图。具体实施方式如图1所示,本专利技术一种基于布隆过滤器的数据分类方法,包括以下步骤,步骤S101:布隆过滤器选择,根据hadoop离线分析出来的用户属性,生成相应的布隆过滤器。本实施方式中所述的用户属性包括标签、社交粉丝数和robot。步骤S102:过滤判断键组装,根据内容创建者,进行布隆过滤器判断键组装。步骤S103:内容分类是否包含判断,根据生成的布隆过滤器判断键到指定的布隆过滤器进行是否包含判断,如果是,则进入步骤S104;如果否,则进入步骤S105。这里指定的布隆过滤器为根据内容分类的用户属性,选择已生成的布隆过滤器,已生成的布隆过滤器为步骤S101中生成的布隆过滤器。这里所述生成的布隆过滤器判断键为根据用户与分类类别生成的布隆过滤器判断键。步骤S104:内容分类,将内容进行已定的分类,打上相应的tag。步骤S105:进行下一属性分类。虽然以上描述了本专利技术的具体实施方式,但是本领域熟练技术人员应当理解,这些仅是举例说明,可以对本实施方式作出多种变更或修改,而不背离发明的原理和实质,本专利技术的保护范围仅由所附权利要求书限定。本文档来自技高网...

【技术保护点】
一种基于布隆过滤器的数据分类方法,其特征在于,包括以下步骤,步骤S101:布隆过滤器选择,根据hadoop离线分析出来的用户属性,生成相应的布隆过滤器;步骤S102:过滤判断键组装,根据内容创建者,进行布隆过滤器判断键组装;步骤S103:内容分类是否包含判断,根据生成的布隆过滤器判断键到指定的布隆过滤器进行是否包含判断,如果是,则进入步骤S104;如果否,则进入步骤S105;步骤S104:内容分类,将内容进行已定的分类,打上相应的tag;步骤S105:进行下一属性分类。

【技术特征摘要】
1.一种基于布隆过滤器的数据分类方法,其特征在于,包括以下步骤,
步骤S101:布隆过滤器选择,根据hadoop离线分析出来的用户属性,生成
相应的布隆过滤器;
步骤S102:过滤判断键组装,根据内容创建者,进行布隆过滤器判断键组
装;
步骤S103:内容分类是否包含判断,根据生成的布隆过滤器判断键到指定
的布隆过滤器进行是否包含判断,如果是,则进入步骤S104;如果否,则进入
步骤S105;
步骤S104:内容分类,将内容进行已定的分类,打上相应的tag;
步骤S105:...

【专利技术属性】
技术研发人员:曹志富
申请(专利权)人:湖南蚁坊软件有限公司
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1