当前位置: 首页 > 专利查询>福州大学专利>正文

一种面向数据泄露的Web安全事件取证方法及系统技术方案

技术编号:30787278 阅读:18 留言:0更新日期:2021-11-16 07:49
本发明专利技术涉及一种面向数据泄露的Web安全事件取证方法及系统。该方法包括:首先,经过数据预处理之后,将多源日志划分为前端Web流量、Web有效载荷和后端Web数据库访问三个层次,分别基于iForest、BLSTM

【技术实现步骤摘要】
一种面向数据泄露的Web安全事件取证方法及系统


[0001]本专利技术涉及网络安全
,特别是一种面向数据泄露的Web安全事件取证方法及系统。

技术介绍

[0002]随着互联网技术的飞速发展,Web及其相关技术得到日益广泛的普及和应用。具有开放性和易用性等特点的Web应用正在逐渐替代很多传统互联网业务,更多业务可在Web应用上处理,大量Web应用广泛布置于政府机构和企业组织。这使得Web应用会涉及到更多的敏感信息,大量的网络攻击目标聚集在Web平台,大部分的网络攻击事件与Web应用有关,由此造成的信息泄露给人们工作生活带来的损失日益增加,Web环境下的数据泄露事件引起了更多的关注和研究。
[0003]然而,Web数据泄露事件是一个综合的网络安全事件,网络威胁行为的多样化和复杂化使得对数据泄露等安全事件的取证分析成为一项具有挑战性的任务。

技术实现思路

[0004]本专利技术的目的在于提供一种面向数据泄露的Web安全事件取证方法及系统,能够有效地识别Web应用相关的多源日志中的异常事件并关联融合,并通过攻击建模实现对数据泄露事件的分析还原,能为实际网络环境中Web安全防护提供有力的技术支撑。
[0005]为实现上述目的,本专利技术的技术方案是:一种面向数据泄露的Web安全事件取证方法,包括以下步骤:
[0006]步骤S1、对多源日志进行预处理;
[0007]步骤S2、将预处理后的多源日志划分为Web前端流量数据、Web有效载荷数据和Web后端数据库访问数据三个层次数据,并进行特征提取;
[0008]步骤S3、根据得到的三个层次数据,基于iForest算法模型、BLSTM

CNN混合神经网络模型和Canopy

kmeans聚类模型分别对三个层次数据进行异常检测;
[0009]步骤S4、根据各层次的异常检测结果,进行决策融合,得到与数据泄露相关的异常时间段和异常主机;
[0010]步骤S5、根据决策融合结果,以异常时间和异常主机作为横纵坐标,构建攻击网格图,将不同攻击阶段的异常联系和数据泄露事件的基本过程呈现在攻击网格图中;
[0011]步骤S6、根据攻击网格图的建模结果,初步描绘出数据泄露事件的场景,再进一步审计攻击网格图中最终构成完整攻击场景的主机及对应时间段的相关日志数据,对数据泄露场景进行更详细的描绘,实现数据泄露事件的取证重构。
[0012]在本专利技术一实施例中,步骤S2中,划分出Web前端流量数据并进行特征提取,具体包括以下步骤:
[0013]步骤S2A1、将含有通信时间、通信源

目的主机及端口、通信协议、通信流量大小的日志数据划分为Web前端流量数据集
[0014]步骤S2A2、以一选定时间单位,提取该单位时间内每个主机IP的Web前端流量特征:总通信次数、不同的通信对象数、不同的通信协议数、不同的通信端口数、总流量大小;总通信次数与不同的通信对象数、通信协议数、端口数、总流量大小之间的比例;单位时间内与平均通信次数、平均通信对象数、平均通信协议数、平均通信端口数、平均通信流量之间的差值;
[0015]步骤S2A3、经过步骤S2A2,得到特征提取后的Web前端流量数据集,记为D
F
={df1,...df
i
,...,df
n
},其中变量df
i
表示第i个Web前端流量数据样本;
[0016]划分出Web有效载荷数据并进行特征提取,具体包括以下步骤:
[0017]步骤S2B1、将含有通信时间、通信源

目的主机及端口、通信请求方法、通信请求内容且通信协议为http的日志数据划分为Web前端有效载荷数据集
[0018]步骤S2B2、以一选定时间单位,提取该单位时间内每对通信主机双方之间的Web前端有效载荷特征:不重复的通信请求方法、请求内容及次数;
[0019]步骤S2B3、经过步骤S2B2,得到特征提取后的Web前端有效载荷数据集,记为D
H
={dh1,...dh
i
,...,dh
n
},其中变量dh
i
表示第i个Web前端有效载荷数据样本;
[0020]划分出Web后端数据库访问数据并进行特征提取,具体包括以下步骤:
[0021]步骤S2C1、将含有通信时间、通信源

目的主机及端口、通信访问密码、通信访问信息、通信访问用户且通信协议为mysql的日志数据划分为Web后端数据库访问数据集
[0022]步骤S2C2、以每对通信双方主机为单位,提取每对主机之间的Web后端数据库访问特征:通信次数、不同的通信天数、不同的通信小时数、不同的通信访问密码数、不同的通信访问信息数、不同的通信访问用户数;
[0023]步骤S2C3、经过步骤S2C2,得到特征提取后的Web后端数据库访问数据集,记为D
S
={ds1,...ds
i
,...,ds
n
},其中变量ds
i
表示第i个Web后端数据库访问数据样本。
[0024]在本专利技术一实施例中,步骤S3中,基于iForest算法模型对Web前端流量数据进行异常检测,具体包括以下步骤:
[0025]步骤S3A1、从Web前端流量数据集D
F
中随机抽取k个数据样本,构造一颗孤立二叉树iTree;重复t次,得到一个孤立森林iForest={Te1,...Te
i
,...,Te
t
},其中Te
i
是第i次构造的iTree;
[0026]步骤S3A2、计算每颗iTree中每个数据样本df
i
的路径长度h(df
i
),然后计算该样本的异常分数s(df
i
,k),将其加入到一个优先队列,记为Q;
[0027]步骤S3A3、选择异常得分较大的一定比例的数据集作为异常流量特征样本集D
NF

[0028]在本专利技术一实施例中,步骤S3A2中,对样本df
i
的异常分数做以下计算:
[0029][0030]式中,变量E(h(df
i
))是iForest集合里所有iTree中h(df
i
)的平均路径长度,变量c(k)是含有k个样本的二叉搜索树的平均路径长度,其具体计算如下:
[0031]c(k)=2H(k

1)

(2(k

1)/k)
[0032]式中,变量H(k

1)称为谐波数,H(k

1)=ln(k

1)+欧拉常数。
[0033]在本专利技术一实施例中,步骤S3中,基于BLSTM
...

【技术保护点】

【技术特征摘要】
1.一种面向数据泄露的Web安全事件取证方法,其特征在于,包括以下步骤:步骤S1、对多源日志进行预处理;步骤S2、将预处理后的多源日志划分为Web前端流量数据、Web有效载荷数据和Web后端数据库访问数据三个层次数据,并进行特征提取;步骤S3、根据得到的三个层次数据,基于iForest算法模型、BLSTM

CNN混合神经网络模型和Canopy

kmeans聚类模型分别对三个层次数据进行异常检测;步骤S4、根据各层次的异常检测结果,进行决策融合,得到与数据泄露相关的异常时间段和异常主机;步骤S5、根据决策融合结果,以异常时间和异常主机作为横纵坐标,构建攻击网格图,将不同攻击阶段的异常联系和数据泄露事件的基本过程呈现在攻击网格图中;步骤S6、根据攻击网格图的建模结果,初步描绘出数据泄露事件的场景,再进一步审计攻击网格图中最终构成完整攻击场景的主机及对应时间段的相关日志数据,对数据泄露场景进行更详细的描绘,实现数据泄露事件的取证重构。2.根据权利要求1所述的一种面向数据泄露的Web安全事件取证方法,其特征在于,步骤S2中,划分出Web前端流量数据并进行特征提取,具体包括以下步骤:步骤S2A1、将含有通信时间、通信源

目的主机及端口、通信协议、通信流量大小的数据日志划分为Web前端流量数据集步骤S2A2、以一选定时间单位,提取单位时间内每个主机IP的Web前端流量特征:总通信次数、不同的通信对象数、不同的通信协议数、不同的通信端口数、总流量大小;总通信次数与不同的通信对象数、通信协议数、端口数、总流量大小之间的比例;单位时间内与平均通信次数、平均通信对象数、平均通信协议数、平均通信端口数、平均通信流量之间的差值;步骤S2A3、经过步骤S2A2,得到特征提取后的Web前端流量数据集,记为D
F
={df1,...df
i
,...,df
n
},其中变量df
i
表示第i个Web前端流量数据样本;划分出Web有效载荷数据并进行特征提取,具体包括以下步骤:步骤S2B1、将含有通信时间、通信源

目的主机及端口、通信请求方法、通信请求内容且通信协议为http的日志数据划分为Web前端有效载荷数据集步骤S2B2、以一选定时间单位,提取单位时间内每对通信主机双方之间的Web前端有效载荷特征:不重复的通信请求方法、请求内容及次数;步骤S2B3、经过步骤S2B2,得到特征提取后的Web前端有效载荷数据集,记为D
H
={dh1,...dh
i
,...,dh
n
},其中变量dh
i
表示第i个Web前端有效载荷数据样本;划分出Web后端数据库访问数据并进行特征提取,具体包括以下步骤:步骤S2C1、将含有通信时间、通信源

目的主机及端口、通信访问密码、通信访问信息、通信访问用户且通信协议为mysql的日志数据划分为Web后端数据库访问数据集步骤S2C2、以每对通信双方主机为单位,提取每对主机之间的Web后端数据库访问特征:通信次数、不同的通信天数、不同的通信小时数、不同的通信访问密码数、不同的通信访问信息数、不同的通信访问用户数;步骤S2C3、经过步骤S2C2,得到特征提取后的Web后端数据库访问数据集,记为D
S
={ds1,...ds
i
,...,ds
n
},其中变量ds
i
表示第i个Web后端数据库访问数据样本。
3.根据权利要求1所述的一种面向数据泄露的Web安全事件取证方法,其特征在于,步骤S3中,基于iForest算法模型对Web前端流量数据进行异常检测,具体包括以下步骤:步骤S3A1、从Web前端流量数据集D
F
中随机抽取k个数据样本,构造一颗孤立二叉树iTree;重复t次,得到一个孤立森林iForest={Te1,...Te
i
,...,Te
t
},其中Te
i
是第i次构造的iTree;步骤S3A2、计算每颗iTree中每个数据样本df
i
的路径长度h(df
i
),然后计算该样本的异常分数s(df
i
,k),将其加入到一个优先队列,记为Q;步骤S3A3、选择异常得分较大的一定比例的数据集作为异常流量特征样本集D
NF
。4.根据权利要求3所述的一种面向数据泄露的Web安全事件取证方法,其特征在于,步骤S3A2中,对样本df
i
的异常分数做以下计算:式中,变量E(h(df
i
))是iForest集合里所有iTree中h(df
i
)的平均路径长度,变量c(k)是含有k个样本的二叉搜索树的平均路径长度,其具体计算如下:c(k)=2H(k

1)

(2(k

1)/k)式中,变量H(k

1)称为谐波数,H(k

1)=ln(k

1)+欧拉常数。5.根据权利要求1所述的一种面向数据泄露的Web安全事件取证方法,其特征在于,步骤S3中,基于BLSTM

CNN混合神经网络模型对Web有效载荷数据进行异常检测,具体包括以下步骤:步骤S3B1、从Web有效载荷数据集D
H
中提取通信载荷内容字段,记为D
HU
;利用正常和异常的载荷内容拼接成词典,记为dt;步骤S3B2、...

【专利技术属性】
技术研发人员:刘延华刘志煌郭文忠
申请(专利权)人:福州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1