【技术实现步骤摘要】
数据过滤方法及装置
本专利技术涉及数据处理
,更具体地说,涉及一种数据过滤方法及装置。
技术介绍
随着企业经营对数据依赖性的日益增加,数据分析的时效性要求也越来越高。对于不断产生的实时数据,需要在尽量短的时间内过滤出用于分析的数据记录。现有技术中,在对原始数据过滤时,需要结合过滤规则依次对每条行记录做过滤。以每条行记录来说明,其过滤效率随着过滤规则中过滤条件的增多而下降,最差情况下每一数据项的数据内容都需要与所有过滤条件比对。假设行记录有M列数据项、过滤规则中有N条过滤条件,则最差情况下过滤该行记录的时间复杂度为O(M*N),这就会严重影响数据分析的时效性。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的数据过滤方法及装置,技术方案如下:一种数据过滤方法,包括:获取过滤规则;其中,所述过滤规则由过滤条件编号以及所述过滤条件编号所对应的过滤条件构成,所述过滤条件由过滤项以及所述过滤项下的过滤内容构成;对所述过滤规则做数据格式转换得到条件哈希表和全量哈希表;其中,所述条件哈希表的键为非空过滤内容,所述条件哈希表的值为所述非空过滤内容所对应的过滤条件编号,所述全量哈希表的键为空过滤内容所对应的过滤项,所述全量哈希表的值为所述空过滤内容所对应的过滤条件编号;基于所述条件哈希表和所述全量哈希表统计原始数据的行记录所符合的目标过滤条件编号;如果所述目标过滤条件编号的统计数量等于所述过滤规则中的最大过 ...
【技术保护点】
1.一种数据过滤方法,其特征在于,包括:/n获取过滤规则;其中,所述过滤规则由过滤条件编号以及所述过滤条件编号所对应的过滤条件构成,所述过滤条件由过滤项以及所述过滤项下的过滤内容构成;/n对所述过滤规则做数据格式转换得到条件哈希表和全量哈希表;其中,所述条件哈希表的键为非空过滤内容,所述条件哈希表的值为所述非空过滤内容所对应的过滤条件编号,所述全量哈希表的键为空过滤内容所对应的过滤项,所述全量哈希表的值为所述空过滤内容所对应的过滤条件编号;/n基于所述条件哈希表和所述全量哈希表统计原始数据的行记录所符合的目标过滤条件编号;/n如果所述目标过滤条件编号的统计数量等于所述过滤规则中的最大过滤条件编号,则输出所述行记录。/n
【技术特征摘要】
1.一种数据过滤方法,其特征在于,包括:
获取过滤规则;其中,所述过滤规则由过滤条件编号以及所述过滤条件编号所对应的过滤条件构成,所述过滤条件由过滤项以及所述过滤项下的过滤内容构成;
对所述过滤规则做数据格式转换得到条件哈希表和全量哈希表;其中,所述条件哈希表的键为非空过滤内容,所述条件哈希表的值为所述非空过滤内容所对应的过滤条件编号,所述全量哈希表的键为空过滤内容所对应的过滤项,所述全量哈希表的值为所述空过滤内容所对应的过滤条件编号;
基于所述条件哈希表和所述全量哈希表统计原始数据的行记录所符合的目标过滤条件编号;
如果所述目标过滤条件编号的统计数量等于所述过滤规则中的最大过滤条件编号,则输出所述行记录。
2.根据权利要求1所述的方法,其特征在于,所述基于所述条件哈希表和所述全量哈希表统计原始数据的行记录所符合的目标过滤条件编号,包括:
从所述原始数据的行记录中获取数据项下的数据内容;
将所述数据内容作为所述条件哈希表的第一键,并在所述条件哈希表中查找所述第一键所对应的第一过滤条件编号;
将所述数据项作为所述全量哈希表的第二键,并在所述全量哈希表中查找所述第二键所对应的第二过滤条件编号;
将所述第一过滤条件编号和所述第二过滤条件编号确定为所述数据内容的过滤条件编号;
将所述行记录中数据内容的过滤条件编号的交集确定为所述行记录所符合的目标过滤条件编号。
3.根据权利要求2所述的方法,其特征在于,所述从所述原始数据的行记录中获取数据项下的数据内容,包括:
从所述原始数据的行记录中确定所述过滤项所对应的数据项,并获取所确定的所述数据项下的数据内容。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
生成编号哈希表;其中,所述编号哈希表的键为所述目标过滤条件编号,所述编号哈希表的值为所述目标过滤条件编号的统计数量。
5.一种数据过滤装置,其特征在于,包括:
规则获取模块,用于获取过滤规则;其中,所述过滤规则由过滤条件编号以及所述过滤条件编号所对应...
【专利技术属性】
技术研发人员:左思图,
申请(专利权)人:北京国双科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。