一种处理数据的方法及装置制造方法及图纸

技术编号:13375789 阅读:56 留言:0更新日期:2016-07-20 23:07
本发明专利技术实施例公开了一种处理数据的方法及装置,其中,该方法包括:接收海量数据流,将所述海量数据经过归一化处理和提取处理后生成海量的结构化数据;根据预设的至少一个条件的关键词字段,并根据所述关键词字段匹配所述结构化数据;若所述结构化数据的内容匹配的关键词字段与所述简单合取式的条件的关键词字段相同,则获取对应的规则信息,并根据所述规则信息处理所述结构化数据。本发明专利技术实施例公开一种处理数据的方法及装置,根据用户的需求实时定制规则,实时性强;且规则的定制使用标准化模板,可扩展性强;规则通过规则中心统一管理和下发,可支持多个系统;同时,因为本发明专利技术方案的规则能够实时更新,从而保证系统的稳定。

【技术实现步骤摘要】

本专利技术实施例涉及计算机信息安全的
,尤其涉及一种处理数据的方法及装置
技术介绍
随着信息技术的发展,越来越多的行业需要对业务数据进行监控分析,查找数据中的特殊或者特定行为,并针对进行相应的处理。比如需要对犯罪人、敏感字进行监控,某些网站需要对特殊的IP或者账号进行黑名单或者白名单的设置等。传统的监测告警大致分为两类:一类为将日志数据归一化后转为结构化数据存储在数据库表中,对库表数据进行查询然后在进行业务处理。此种事后检测的方式处理效率低,尤其是当存储的数据量达到一定量的时候,而且缺乏时效性,不能及时进行响应;另一类为采用硬编码的方式在实时数据中进行匹配,针对每一次任务进行对应的程序编码,此种方式能满足时效性的要求,但是当面对种类繁多、类型多变且大批量的的业务规则时,开发人员很难对此作出及时响应,业务人员也无法单独进行业务部署。
技术实现思路
本专利技术实施例提出一种处理数据的方法及装置,旨在解决如何对数据进行实时、可扩展、可定制操作的问题。第一方面,一种处理数据的方法,所述方法包括:接收海量数据流,将所述海量数据经过归一化处理和提取处理后生成海量的结构化数据;根据预设的至少一个条件的关键词字段,并根据所述关键词字段匹配所述结构化数据,所述规则信息的形式为析取范式的形式,所述析取范式包括至少一个简单合取式,所述简单合取式包括至少一个条件;若所述结构化数据的内容匹配的关键词字段与所述简单合取式的条件的关键词字段相同,则获取对应的规则信息,并根据所述规则信息处理所述结构化数据。优选地,所述若所述结构化数据的内容匹配的关键词字段与所述简单合取式的条件的关键词字段相同,则获取对应的规则信息,包括:获取与所述结构化数据中的内容匹配的所有关键词字段,并根据每个关键词字段分别生成条件;若所述所有关键词字段生成的所有条件中能同时命中所述简单合取式的条件,则获取所述简单合取式对应的规则信息。优选地,所述若所述所有关键词字段生成的所有条件中能同时命中所述简单合取式的条件,则获取所述简单合取式对应的规则信息,包括:根据所述条件在预存的倒排索引表中查询对应的简单合取式的序号,并记录每次查询所述简单合取式的序号的次数;若查询所述简单合取式的序号的次数与所述简单合取式的条件的个数相同,则从规则标识映射表中获取与所述简单合取式对应的析取范式的序号;根据所述析取范式的序号从预存的规则信息表中确定对应的规则信息。优选地,所述根据所述规则信息处理所述结构化数据,包括:根据所述规则信息中的过滤条件,从所述结构化数据中获取符合所述过滤条件的数据内容;根据所述数据处理规则中的操作动作,对过滤后的数据内容进行与所述操作动作对应的处理。优选地,所述接收海量数据流之前,还包括:业务中心根据标准化可扩展xml语言描述规则信息,并将所述规则信息发送给标准化规则解析系统,所述规则信息由规则类型rule_type、规则系统rule_systemid、规则标识ruleid、规则逻辑rule、规则过滤条件rule_filter、规则动作rule_action组成;所述标准化规则解析系统接收到所述规则信息后,对所述规则信息进行解析,将所述规则信息拆成析取范式的形式,并为所述析取范式中的每个简单合取式subrule分配一个subrule_id,同时记录每个简单合取式的条件个数hitnum;其中,所述规则类型rule_type用于定义规则执行动作,包括规则增加、删除、更新操作;所述规则系统rule_systemid用于标明下发规则的业务系统;所述规则标识ruleid用于标识每条规则;所述规则逻辑rule用于表示业务处理的逻辑规则表达式,所述逻辑规则表达式为支持由与、或、括号组成的复杂逻辑表达式;所述规则过滤条件rule_filter用于表示规则命中数据所要过滤的条件;所述规则动作rule_action用于描述规则命中数据所要执行的操作。优选地,所述方法还包括:从所述规则信息中获取每条规则的规则类型;若所述规则类型为增加规则,则在预存的规则数据中增加所述规则;若所述规则类型为删除规则,则在预存的规则数据中删除对应的规则。优选地,所述在预存的规则数据中增加所述规则,包括:将所述简单合取式的每个条件和对应的所述简单合取式的序号存储在所述倒排索引表中;将所述简单合取式的序号与对应的析取范式的序号存储在所述标识映射表中;将所述析取范式的序号和对应的规则信息存储在所述规则信息表中。优选地,所述在预存的规则数据中删除对应的规则,包括:从所述删除规则中获取析取范式的序号和对应的规则信息,并在所述规则信息表中删除所述析取范式的序号和对应的规则信息;根据所述析取范式的序号,获取对应的简单合取式的序号和所述简单合取式的条件个数,并在所述规则标识映射表中删除所述析取范式的序号、对应的简单合取式的序号和所述简单合取式的条件个数;根据所述简单合取式的序号,获取所述简单合取式的条件,并在所述倒排序索引表中删除所述简单合取式的序号和对应的条件。优选地,所述方法还包括:若规则类型为增加规则,则获取所述增加规则中的简单合取式;根据所述增加规则中的简单合取式,查询预存的规则中是否有相同的简单合取式,若有,则删除与所述简单合取式对应的规则信息。第二方面,一种处理数据的装置,所述装置包括:接收模块,用于接收海量数据流,将所述海量数据经过归一化处理和提取处理后生成海量的结构化数据;匹配模块,用于根据预设的至少一个条件的关键词字段,并根据所述关键词字段匹配所述结构化数据,所述规则信息的形式为析取范式的形式,所述析取范式包括至少一个简单合取式,所述简单合取式包括至少一个条件;第一获取模块,用于若所述结构化数据的内容匹配的关键词字段与所述简单合取式的条件的关键词字段相同,则获取对应的规则信息;处理模块,用于根据所述规则信息处理所述结构化数据。优选地,所述第一获取模块,包括:第一获取单元,用于获取与所述结构化数据中的内容匹配的所有关键词字段,并根据每个关键词字段分别生成条件;第二获取单元,用于若所述所有关键词字段生成的所有条件中能同时命中所述简单合取式的条件,则获取所述简单合取式对应的规则信息。优选地,所述第二获取单元,用于:根据所述条件在预存的倒排索引表中查询对应的简单合取式的序号,并记录每次查询所述简单合取本文档来自技高网...

【技术保护点】
一种处理数据的方法,其特征在于,所述方法包括:接收海量数据流,将所述海量数据经过归一化处理和提取处理后生成海量的结构化数据;根据预设的至少一个条件的关键词字段,并根据所述关键词字段匹配所述结构化数据,所述规则信息的形式为析取范式的形式,所述析取范式包括至少一个简单合取式,所述简单合取式包括至少一个条件;若所述结构化数据的内容匹配的关键词字段与所述简单合取式的条件的关键词字段相同,则获取对应的规则信息,并根据所述规则信息处理所述结构化数据。

【技术特征摘要】
1.一种处理数据的方法,其特征在于,所述方法包括:
接收海量数据流,将所述海量数据经过归一化处理和提取处理后生成海量
的结构化数据;
根据预设的至少一个条件的关键词字段,并根据所述关键词字段匹配所述
结构化数据,所述规则信息的形式为析取范式的形式,所述析取范式包括至少
一个简单合取式,所述简单合取式包括至少一个条件;
若所述结构化数据的内容匹配的关键词字段与所述简单合取式的条件的关
键词字段相同,则获取对应的规则信息,并根据所述规则信息处理所述结构化
数据。
2.根据权利要求1所述的方法,其特征在于,所述若所述结构化数据的内
容匹配的关键词字段与所述简单合取式的条件的关键词字段相同,则获取对应
的规则信息,包括:
获取与所述结构化数据中的内容匹配的所有关键词字段,并根据每个关键
词字段分别生成条件;
若所述所有关键词字段生成的所有条件中能同时命中所述简单合取式的条
件,则获取所述简单合取式对应的规则信息;
所述若所述所有关键词字段生成的所有条件中能同时命中所述简单合取式
的条件,则获取所述简单合取式对应的规则信息,包括:
根据所述条件在预存的倒排索引表中查询对应的简单合取式的序号,并记
录每次查询所述简单合取式的序号的次数;
若查询所述简单合取式的序号的次数与所述简单合取式的条件的个数相
同,则从规则标识映射表中获取与所述简单合取式对应的析取范式的序号;
根据所述析取范式的序号从预存的规则信息表中确定对应的规则信息。
3.根据权利要求1所述的方法,其特征在于,所述根据所述规则信息处理
所述结构化数据,包括:
根据所述规则信息中的过滤条件,从所述结构化数据中获取符合所述过滤
条件的数据内容;
根据所述数据处理规则中的操作动作,对过滤后的数据内容进行与所述操
作动作对应的处理。
4.根据权利要求1至3任意一项所述的方法,其特征在于,所述接收海量
数据流之前,还包括:
业务中心根据标准化可扩展xml语言描述规则信息,并将所述规则信息发
送给标准化规则解析系统,所述规则信息由规则类型rule_type、规则系统
rule_systemid、规则标识ruleid、规则逻辑rule、规则过滤条件rule_filter、规则
动作rule_action组成;
所述标准化规则解析系统接收到所述规则信息后,对所述规则信息进行解
析,将所述规则信息拆成析取范式的形式,并为所述析取范式中的每个简单合
取式subrule分配一个subrule_id,同时记录每个简单合取式的条件个数hitnum;
其中,所述规则类型rule_type用于定义规则执行动作,包括规则增加、删
除、更新操作;
所述规则系统rule_systemid用于标明下发规则的业务系统;
所述规则标识ruleid用于标识每条规则;
所述规则逻辑rule用于表示业务处理的逻辑规则表达式,所述逻辑规则表
达式为支持由与、或、括号组成的复杂逻辑表达式;
所述规则过滤条件rule_filter用于表示规则命中数据所要过滤的条件;
所述规则动作rule_action用于描述规则命中数据所要执行的操作。
5.根据权利要求1至3任意一项所述的方法,其特征在于,所述方法还包
括:
从所述规则信息中获取每条规则的规则类型;
若所述规则类型为增加规则,则在预存的规则数据中增加所述规则;
若所述规则类型为删除规则,则在预存的规则数据中删除对应的规则;
所述在预存的规则数据中增加所述规则,包括:
将所述简单合取式的每个条件和对应的所述简单合取式的序号存储在所述
倒排索引表中;
将所述简单合取式的序号与对应的析取范式的序号存储在所述标识映射表
中;
将所述析取范式的序号和对应的规则信息存储在所述规则信息表中;
所述在预存的规则数据中删除对应的规则,包括:
从所述删除规则中获取析取范式的序号和对应的规则信息,并在所述规则
信息表中删除所述析取范式的序号和对应的规则信息;
根据所述析取范式的序号,获取对应的简单合取式的序号和所述简单合取
式的条件个数,并在所述规则标识映射表中删除所述析取范式的序号、对应的
简单合取式的序号和所述简单合取式的条件个数;
根据所述简单合取式的序号,获取所述简单合取式的条件,并在所述倒排
序索引表中删除所述简单合取式的序号和对应的条件。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
若规则类型为增加规则,则获取所述增加规则中的简单合取式;
根据所述增加规则中的简单合取式,查询预存的规则中是否有相同的简单
合取式,若有,则删除与所述简单合取式对应...

【专利技术属性】
技术研发人员:翟树超任军
申请(专利权)人:北京锐安科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1