【技术实现步骤摘要】
本专利技术涉及大数据分类处理
,特别是一种基于布隆过滤器的数据分类方法。
技术介绍
在UGC时代,每天用户创造的内容,可以用PB来衡量,同时用户在互联网上的身份信息与属性,在其创建之初,就已经基本确定。而在数据量越来越大的情况,如何根据用户的属性将其产生的内容进行快速有效的分类,就成为了一个问题。中国专利技术专利申请CN102253991A公开了一种URL存储方法,包括:步骤S11,根据预定分类规则对URL进行分类;步骤S12,分别生成用于存储各类型URL的布隆过滤器;步骤S13,根据各URL的类型,将所述URL存储在对应的所述布隆过滤器中。虽然,本专利技术能够在执行网页过滤时提供高效率的URL查询,从而提高网络性能;但是,此专利技术并不能在UGC实时处理环节,快速有效的将内容进行分类。
技术实现思路
本专利技术需要解决的技术问题提供一种在UGC实时处理环节判断且快速有效将内容分类的数据分类方法。为解决上述的技术问题,本专利技术的一种基于布隆过滤器的数据分类方法,包括以下步骤,步骤S101:布隆过滤器选择,根据hadoop离线分析出来的用户属性,生成相应的布隆过滤器;步骤S102:过滤判断键组装,根据内容创建者,进行布隆过滤器判断键组装;步骤S103:内容分类是否包含判断,根据生成的布隆过滤器判断键到指定的布隆过滤器进行是否包含判断,如果是,则进入步骤S1 ...
【技术保护点】
一种基于布隆过滤器的数据分类方法,其特征在于,包括以下步骤,步骤S101:布隆过滤器选择,根据hadoop离线分析出来的用户属性,生成相应的布隆过滤器;步骤S102:过滤判断键组装,根据内容创建者,进行布隆过滤器判断键组装;步骤S103:内容分类是否包含判断,根据生成的布隆过滤器判断键到指定的布隆过滤器进行是否包含判断,如果是,则进入步骤S104;如果否,则进入步骤S105;步骤S104:内容分类,将内容进行已定的分类,打上相应的tag;步骤S105:进行下一属性分类。
【技术特征摘要】
1.一种基于布隆过滤器的数据分类方法,其特征在于,包括以下步骤,
步骤S101:布隆过滤器选择,根据hadoop离线分析出来的用户属性,生成
相应的布隆过滤器;
步骤S102:过滤判断键组装,根据内容创建者,进行布隆过滤器判断键组
装;
步骤S103:内容分类是否包含判断,根据生成的布隆过滤器判断键到指定
的布隆过滤器进行是否包含判断,如果是,则进入步骤S104;如果否,则进入
步骤S105;
步骤S104:内容分类,将内容进行已定的分类,打上相应的tag;
步骤S105:...
【专利技术属性】
技术研发人员:曹志富,
申请(专利权)人:湖南蚁坊软件有限公司,
类型:发明
国别省市:湖南;43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。