一种基于基线行为刻画的通联异常发现方法及装置制造方法及图纸

技术编号:30641538 阅读:22 留言:0更新日期:2021-11-04 00:39
本发明专利技术公开一种基于基线行为刻画的通联异常发现方法及装置,包括对待测流量数据进行数据清洗及预处理,得到流量矩阵y;利用CapsNet模型构建自编码器,并基于所述自编码器,获取流量矩阵y的重构流量矩阵根据流量矩阵y与重构流量矩阵得到通联异常发现结果。本发明专利技术可以从输入数据中自动提取特征,可将流量特征之间的特定位置以及数据之间的排列顺序作为学习的特征,且向量的方向可以表示特征值的大小、相对位置等属性,既能识别正常行为并且对已知的异常行为进行检测,又能发现新型未知的网络攻击。新型未知的网络攻击。新型未知的网络攻击。

【技术实现步骤摘要】
一种基于基线行为刻画的通联异常发现方法及装置


[0001]本专利技术属于网络安全与计算机科学的交叉
,尤其涉及一种基于基线行为刻画的通联异常发现方法及装置,其提出一种异常通联行为发现模型,它基于胶囊自编码器建立正常行为基线,为发现没有明显特征或未知的网络异常行为提供线索。本专利技术涵盖网络流量数据预处理、基于胶囊自编码器的模型训练、通联关系异常检测。

技术介绍

[0002]随着网络在社会生活中地位越来越高,人们对网络的依赖也越来越强。然而,互联网的普及在给人们生活带来便利的同时,网络安全问题也日益严峻。在各种网络攻击中,非法入侵、DDoS攻击等恶意网络通信行为严重及其引发的数据泄露等事件影响用户对互联网的使用,并且随着技术的发展和进步,网络恶意攻击的流量特性变的日益复杂和隐蔽。这些攻击事件严重危害了用户的信息安全,并可能造成巨大的经济损失。因此如何在网络空间中检测网络中的恶意攻击源头和保障用户的信息安全是一个值得深入研究的课题。
[0003]网络攻击行为发生时往往会在网络流量中留下行为痕迹,因此基于流量的异常行为检测是一种常见的网络安全检测方法。目前异常流量检测领域主要有基于统计的方法、基于机器学习和深度学习模型的方法。基于统计的异常流量检测的效果取决于规则的编写,基于机器学习和深度学习模型的异常流量检测的效果取决于流量特征的选取和模型的设计。
[0004]在实际应用中,由于目前的防御技术不足或者为了保证业务系统运行放宽安全策略等原因,导致少部分没有明显特征或未知的异常难以识别,未知威胁流量一旦被识别为正常流量进入内网,造成的安全后果更为严重。目前安全分析人员往往需要在海量的数据中分析可能存在的极少数的未被拦截的攻击行为。基于分析人员的先验知识分析对人员水平要求极高。
[0005]通联关系指的是由物理或网络实体间的通信行为映射的连接和通信关系,在社交网络中,对社会组织的某种通信行为进行关联,将社会实体作为网络节点,实体间通联关系作为网络连接,形成的网络称为通联网络。在计算机网络中,通联关系指的是主机之间的通信行为,因此通联关系异常指网络中主机之间的通信行为异常。
[0006]计算机网络中的通联关系异常分析可分为基于统计的方法和基于机器学习和深度学习模型的方法两大类。基于统计的方法对网络中主机间的通信产生的流量的字段进行统计分析和关联分析,或对寻找符合一些已知攻击行为的特征,至今仍被各大厂商广泛使用。近年来随着人工智能技术的发展,基于机器学习和深度学习模型的方法被研究人员引入流量和通联关系异常发现中,目前许多研究者将流量异常检测问题看作样本分布不平衡的二分类问题。然而,在真实应用场景下,数据通常没有标签,且攻击方式日新月异,难以总结所有攻击行为的特征和收集覆盖所有异常行为的数据,因此上述方法异常检测方法在现实应用中不具有普遍性。
[0007]近年来企业和研究人员在积极探索基于基线行为刻画的异常检测方法,该类方法
对正常行为建立基线模型,通过检测的数据与正常基线的偏差来进行异常检测。例如最大熵和高斯分布等概率与机器学习方法、生成式对抗网络和自编码器等深度学习方法均被用于流量基线行为建模,用以检测异常流量和行为。
[0008]然而上述几类方法可以从数据中学习特征,却不考虑特征之间的位置信息。因此,上述方法直接用于通联关系基线行为建模会改变数据中的某些有效特征。

技术实现思路

[0009]针对现有技术中存在的技术问题,本专利技术的目的在于提供一种基于基线行为刻画的通联异常发现方法及装置,使用胶囊自编码器模型学习正常流量数据的分布,刻画正常通联行为基线模型,通过测试数据在胶囊自编码器模型中的重构误差判断该样本属于正常通联行为产生的流量还是异常通联行为产生的流量。本专利技术既能对已知的异常流量进行识别,也解决了基于统计规则和基于二分类方法无法识别新型未知网络攻击的问题。本专利技术通过分析网络中主机之间的通联关系异常,为发现尝试或者已经突破网络边界的入侵行为提供线索,同时可以降低分析人员在海量数据中寻找攻击痕迹的压力,以及对分析人员的技术要求。
[0010]为达到上述目的,本专利技术采用具体技术方案是:
[0011]一种基于基线行为刻画的通联异常发现方法,其步骤包括:
[0012]1)对待测流量数据进行数据清洗及预处理,得到一流量矩阵y;
[0013]2)利用CapsNet模型构建自编码器,并基于所述自编码器,获取流量矩阵y的重构流量矩阵
[0014]3)根据流量矩阵y与重构流量矩阵得到通联异常发现结果。
[0015]进一步地,数据清洗包括:字段归一化、无意义数据剔除和非主要字段的缺失字段填充。
[0016]进一步地,通过以下策略进行预处理:
[0017]1)利用one

hot编码方法,将清洗后网络流量数据中的符号特征数据转换成数值数据;
[0018]2)基于Min

Max归一化方法,将数值数据归一化;
[0019]3)根据会话对待测流量数据进行切分,且依据设定的流量矩阵y大小,得到流量矩阵y。
[0020]进一步地,通过以下步骤对待测流量数据进行切分:
[0021]1)设定待测流量数据为包含不同数据包p
k
的集合,且数据包p
k
=(a
k
,len
k
,t
k
),其中k=1,2,

,|P|,|P|表示数据包个数,a
k
是第k个数据包的五元组,所述五元组包括:源IP、源端口、目的IP、目的端口和传输层协议,len
k
是第k个数据包的字节长度,len
k
∈(0,∞),t
k
是第k个数据包的开始时间,t
k
∈(0,∞);
[0022]2)依据五元组,对各数据包p
k
进行分组,得到待测流量数据切分结果。
[0023]进一步地,所述自编码器的结构包括:由两个卷积层及一个DigitCaps层组成的编码器和与所述编码器结构对称的解码器。
[0024]进一步地,当流量矩阵y的大小为28*28时,通过以下步骤进行编码:
[0025]1)第一个卷积层使用256个大小为9*9的卷积核对每一流量矩阵y执行步长为1的
卷积操作,生成大小为20*20的256个特征矩阵;
[0026]2)第二个卷积层使用32个大小为9*9的卷积核执行8次步数为2的卷积操作,且每次使用不同的权重,最终生成6*6*32个8维活动向量;
[0027]3)DigitCaps层基于仿射变换及动态路由,生成16维流量矩阵。
[0028]进一步地,通过以下步骤通过以下步骤得到通联异常发现结果:
[0029]1)计算重构流量矩阵与流量矩阵y之间的均方误差,得到重构误差;
[0030]2)将重构误差与一阈值对比,得到通联异常发现结果。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于基线行为刻画的通联异常发现方法,其步骤包括:1)对待测流量数据进行数据清洗及预处理,得到一流量矩阵y;2)利用CapsNet模型构建自编码器,并基于所述自编码器,获取流量矩阵y的重构流量矩阵3)根据流量矩阵y与重构流量矩阵得到通联异常发现结果。2.如权利要求1所述的方法,其特征在于,数据清洗包括:字段归一化、无意义数据剔除和非主要字段的缺失字段填充。3.如权利要求1所述的方法,其特征在于,通过以下策略进行预处理:1)利用one

hot编码方法,将清洗后网络流量数据中的符号特征数据转换成数值数据;2)基于Min

Max归一化方法,将数值数据归一化;3)根据会话对待测流量数据进行切分,且依据设定的流量矩阵y大小,得到流量矩阵y。4.如权利要求3所述的方法,其特征在于,通过以下步骤对待测流量数据进行切分:1)设定待测流量数据为包含不同数据包p
k
的集合,且数据包p
k
=(a
k
,len
k
,t
k
),其中k=1,2,...,|P|,|P|表示数据包个数,a
k
是第k个数据包的五元组,所述五元组包括:源IP、源端口、目的IP、目的端口和传输层协议,len
k
是第k个数据包的字节长度,len
k
∈(0,∞),t
k
是第k个数据包的开始时间,t
k
∈(0,∞);2)依据五元组,对各数据包p
k
进行分组,得到待测...

【专利技术属性】
技术研发人员:刘俊荣潘海琪卢志刚崔泽林崔苏苏姜波
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1