一种基于电网环境的全日志清洗和储存方法技术

技术编号:37710980 阅读:11 留言:0更新日期:2023-06-02 00:03
本申请提供一种基于电网环境的全日志清洗和储存方法,包括以下具体步骤:通过Kafka接收网络安全设备发送的日志数据;基于二次查询的快速日志匹配方法进行重复数据清洗;使用盖帽法对孤点数据进行处理,消除噪声;对缺失的数据设置为序列平均值;对不同设备类型、不同厂商的日志格式做归一化处理,归一化后,多源、异构的日志类型转换成统一的格式存储;对具有相同特征的公共数据部分提取出模板,进行单独存储;基于hadoop大数据平台,对海量日志数据做分布式存储,方便后续分布式计算和分析。本申请采用二次匹配方式,极大的提高效率,实现多源、异构的日志统一存储。方便后续对数据进行进一步分析,对日志进行泛化存储,节约存储资源。资源。资源。

【技术实现步骤摘要】
一种基于电网环境的全日志清洗和储存方法


[0001]本申请涉及电网数据处理领域,尤其涉及一种基于电网环境的全日志清洗和储存方法。

技术介绍

[0002]当前,现代电力系统的日常可靠运行,都完全依赖于高度信息化的网络通信与安全防护。如果电力网络或者相关管理信息系统遭到破坏,就会导致电力系统不能正常运行甚至导致瘫痪。近年来,入侵检测系统、防火墙、防病毒软件、网络隔离、加解密软硬件、访问控制和VPN等网络安全技术或产品在电力行业得到了广泛应用,大大增强了电力企业抵御外部攻击的能力。传统的电力系统依靠不同的安全设备进行防御,这些设备根据网络攻击检测情况,每天会产生大量的攻击日志和流量信息。这些信息分散于各个安全设备节点,形成互不关联的数据孤岛,不能为数据安全以及业务带来任何的价值。
[0003]因此,利用网络安全流量与日志信息进行系统安全分析在国内外研究中越来越普遍和受到重视。通过对信息通信系统中不同设备的日志进行采集和统一管理,实现对信息通信系统的威胁检测和安全预警。通过分析主要IT基础设施的网络、系统、应用服务所产生的安全与数据事件之间的关系,增强安全智能。
[0004]电网数据典型的特征为多源、异构。数据分布在不同的网络位置、不同的设备。各设备产生的日志格式因厂商不同、产品形态不同,日志格式多样。如何将多样化的数据进行统一清洗和存储,成为数据安全风险建模、数据风险态势感知的前提条件,也是数据安全风险建模和态势感知的主要技术挑战。
[0005]电网日志存在数据多源、异构的特征,要对电网的全量日志数据进行分析和风险建模,往往存在以下的问题:
[0006]1、日志数据重复;
[0007]2、日志中的一些字段数据错误;
[0008]3、日志数据中的一些字段缺失;
[0009]4、同类设备,不同品牌的日志格式不统一;
[0010]5、不同类设备的日志格式不统一;
[0011]6、日志存储占用物理空间大。

技术实现思路

[0012]本申请实施例的目的在于提供一种基于电网环境的全日志清洗和储存方法,采用二次匹配方式,极大的提高效率,对日志进行泛化存储,节约存储资源。
[0013]本专利技术通过以下技术方案予以实现:
[0014]本申请实施例提供一种基于电网环境的全日志清洗和储存方法,包括以下具体步骤:
[0015]通过Kafka接收网络安全设备发送的日志数据;
[0016]基于二次查询的快速日志匹配方法进行重复数据清洗;
[0017]使用盖帽法对孤点数据进行处理,消除噪声;
[0018]对缺失的数据设置为序列平均值;
[0019]对不同设备类型、不同厂商的日志格式做归一化处理,归一化后,多源、异构的日志类型转换成统一的格式存储;
[0020]对具有相同特征的公共数据部分提取出模板,进行单独存储;
[0021]基于hadoop大数据平台,对海量日志数据做分布式存储,方便后续分布式计算和分析。
[0022]所述基于二次查询的快速日志匹配方法进行重复数据清洗具体为:
[0023]a)根据日志来源IP、来源端口、目标IP、目标端口组合生成唯一hash值做为一个Key,
[0024]key=hash(src_ip,src_port,dst_ip,dst_port);
[0025]b)在四元组hash链表中进行
[0026]i.如果hash值不存在,则日志一定不重复,直接做后续处理。
[0027]ii.如果hash值存在,进一步检查日志内容的MD5值
[0028]c)计算日志内容的MD5值;
[0029]d)在日志内容MD5链表中进行查找
[0030]i.如果MD5值不存在,则日志不重复,做后续处理
[0031]ii.如果MD5只存在,则日志为重复日志,丢弃。
[0032]使用盖帽法对孤点数据进行处理,消除噪声具体方法是:对超出3倍标准差的数据修正为3倍标准差,从而避免孤点数据对后期分析产生影响。
[0033]对不同设备类型、不同厂商的日志格式做归一化处理,归一化后,多源、异构的日志类型转换成统一的格式存储,具体处理方法为:
[0034]对不同厂商的同类设备将原始字段提取到之后,按照统一的格式形成新的格式;
[0035]对不同设备类型的日志归一化处理,将日志归一化为:攻击事件、攻击地点、攻击对象、严重程度。
[0036]与现有技术相比,本专利技术的有益效果是:
[0037]1.传统的数据日志采集和存储方法,数据重复性检测时,做全量日志的匹配,效率不高,本专利技术采用二次匹配方式,极大的提高效率。
[0038]2.传统的日志采集和存储方法,对不同类型的日志无法统一存储,本专利技术对不同类型的日志进行归一化处理,实现多源、异构的日志统一存储。方便后续对数据进行进一步分析。
[0039]3.传统的日志存储方式,占用物理存储高。本专利技术对日志进行泛化存储,节约存储资源。
附图说明
[0040]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以
根据这些附图获得其他的附图。
[0041]图1为本申请方法流程图;
[0042]图2为本本申请基于二次查询的快速日志匹配方法流程图。
具体实施方式
[0043]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0044]参照图1和图2,一种基于电网环境的全日志清洗和储存方法,包括以下具体步骤:
[0045]A.通过Kafka接收网络安全设备发送的日志数据。如设备通过Syslog发送,则增加Syslog服务模块,将Syslog日志转为Kafka日志。
[0046]B.重复数据清洗。重复数据清洗的关键是对从网络中收集到的日志进行重复性识别,普通的方法,是将新采集的日志和全部的存量日志进行字符串匹配。这个过程需要耗费大量的计算资源和内存空间。本专利提出一种基于二次查询的快速日志匹配方法。具体方法如下:
[0047]a)根据日志来源IP、来源端口、目标IP、目标端口组合生成唯一hash值做为一个Key。
[0048]key=hash(src_ip,src_port,dst_ip,dst_port);
[0049]b)在四元组hash链表中进行
[0050]i.如果hash值不存在,则日志一定不重复,直接做后续处理。
[0051本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于电网环境的全日志清洗和储存方法,其特征在于,包括以下具体步骤:通过Kafka接收网络安全设备发送的日志数据;基于二次查询的快速日志匹配方法进行重复数据清洗;使用盖帽法对孤点数据进行处理,消除噪声;对缺失的数据设置为序列平均值;对不同设备类型、不同厂商的日志格式做归一化处理,归一化后,多源、异构的日志类型转换成统一的格式存储;对具有相同特征的公共数据部分提取出模板,进行单独存储;基于hadoop大数据平台,对海量日志数据做分布式存储,方便后续分布式计算和分析。2.根据权利要求1所述的一种基于电网环境的全日志清洗和储存方法,其特征在于,所述基于二次查询的快速日志匹配方法进行重复数据清洗具体为:a)根据日志来源IP、来源端口、目标IP、目标端口组合生成唯一hash值做为一个Key,key=hash(src_ip,src_port,dst_ip,dst_port);b)在四元组hash链表中进行i.如果has...

【专利技术属性】
技术研发人员:王捷周亮李晶黄杰朱国威代荡喻潇王晋刘畅田里刘畅徐江珮龙凤杜诗雨徐成伟苏昊扬赵环
申请(专利权)人:国网湖北省电力有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1