一种APT攻击数据的生成方法及相关装置制造方法及图纸

技术编号:39324935 阅读:10 留言:0更新日期:2023-11-12 16:03
本申请公开了一种APT攻击数据的生成方法及相关装置,涉及网络信息安全领域。在本申请中,由于APT攻击具有持续性,故而,在APT攻击数据的生成时,将原始APT攻击数据转换为包含网络地址信息的初始链路攻击数据,以便APT攻击数据的生成;并且,采用最小二乘损失函数拟合训练的APT攻击数据生成模型,不仅实现了复杂时间序列APT攻击数据的生成或扩充,解决了APT攻击检测中负样本数量少样本不均衡的问题,还通过最小二乘损失函数,有效缓解了相关技术中,网络梯度消失、训练不稳定的问题,因此,解决了目前作为样本的APT攻击数据较少,无法满足APT攻击检测的APT攻击数据样本需求的问题,从而丰富扩充APT攻击数据。从而丰富扩充APT攻击数据。从而丰富扩充APT攻击数据。

【技术实现步骤摘要】
一种APT攻击数据的生成方法及相关装置


[0001]本申请涉及网络信息安全领域,尤其涉及一种APT攻击数据的生成方法及相关装置。

技术介绍

[0002]高级持续性威胁(Advanced Persistent Threat,APT),是由某些组织精心设计策划,向特定目标发起的隐匿而持久的网络攻击,因此,APT通常具有隐藏性、长期持续性、威胁等特征。
[0003]进一步地,由于APT的攻击具有隐藏性,善于在攻击过程中伪装,从而不容易被发现,并且,在完成数据窃取以后,会删除记录踪迹的日志,很难溯源,所以在通常的威胁检测中,APT攻击样本数量极少,难以满足基于机器学习或者深度学习的模型检测的样本数据需求。
[0004]相关技术中,参阅图1所示,通常采用生成对抗网络(Generative Adversarial Network,GAN),生成或扩充样本数据集,从而获得以假乱真的合成数据;其中,生成器G用于接收随机噪声,并生成接近真实数据分布的合成数据,判别器D用于接受真实数据和合成数据,并准确分类真/假数据。
[0005]然而,采用上述的样本数据生成方式,会因GAN无法捕获序列的时间依赖性,从而导致难以合成复杂时间序列数据(如,APT攻击数据)。
[0006]因此,如何解决目前作为样本的APT攻击数据较少,无法满足APT攻击检测的APT攻击数据样本需求,是目前亟需解决的问题。

技术实现思路

[0007]本申请实施例提供了一种APT攻击数据的生成方法及相关装置,用以解决目前作为样本的APT攻击数据较少,无法满足APT攻击检测的APT攻击数据样本需求的问题,从而丰富扩充APT攻击数据。
[0008]第一方面,本申请实施例提供了一种高级持续性威胁APT攻击数据的生成方法,所述方法包括:
[0009]从终端日志的拦截结果中,获取原始APT攻击数据,并基于原始APT攻击数据及其关联的网络地址信息,生成初始链路攻击数据;其中,网络地址信息至少包括一组源网际互连协议IP和目标IP;
[0010]将初始链路攻击数据的数据特征集,输入预设的APT攻击数据生成模型,获取APT攻击数据生成模型输出的目标链路攻击数据;其中,数据特征集包含的各个数据特征表征:相应数据链路的请求信息,APT攻击数据生成模型是基于最小二乘损失函数拟合训练得到的;
[0011]按照设定的APT数据格式,对目标链路攻击数据进行数据格式转换,获得相应的目标APT攻击数据。
[0012]第二方面,本申请实施例还提供了一种APT攻击数据的生成装置,所述装置包括:
[0013]获取模块,用于从终端日志的拦截结果中,获取原始APT攻击数据,并基于原始APT攻击数据及其关联的网络地址信息,生成初始链路攻击数据;其中,网络地址信息至少包括一组源IP和目标IP;
[0014]生成模块,用于将初始链路攻击数据的数据特征集,输入预设的APT攻击数据生成模型,获取APT攻击数据生成模型输出的目标链路攻击数据;其中,数据特征集包含的各个数据特征表征:相应数据链路的请求信息,APT攻击数据生成模型是基于最小二乘损失函数拟合训练得到的;
[0015]转换模块,用于按照设定的APT数据格式,对目标链路攻击数据进行数据格式转换,获得相应的目标APT攻击数据。
[0016]在一种可选的实施例中,在基于原始APT攻击数据及其关联的网络地址信息,生成初始链路攻击数据时,所述获取模块具体用于:
[0017]从终端日志中,获取原始APT攻击数据的数据标识关联的网络地址信息;
[0018]基于网络地址信息包含的网络特征和网络属性,以及原始APT攻击数据,生成初始链路攻击数据。
[0019]在一种可选的实施例中,APT攻击数据生成模型是采用如下方式训练的:
[0020]基于多个样本APT攻击数据,分别执行以下操作:
[0021]对第一样本APT攻击数据对应的样本链路攻击数据进行特征提取,获得样本链路攻击数据的数据特征集;其中,第一样本APT攻击数据为多个样本APT攻击数据中的任意一个;
[0022]基于样本链路攻击数据的数据特征集,以及最小二乘损失函数,对APT攻击数据生成模型进行多次迭代训练,直至APT攻击数据生成模型满足预设的APT攻击数据生成条件为止。
[0023]在一种可选的实施例中,在基于样本链路攻击数据的数据特征集,以及最小二乘损失函数,对APT攻击数据生成模型进行多次迭代训练时,所述生成模块具体用于:
[0024]在一次迭代训练的过程中,执行以下操作:
[0025]将样本链路攻击数据的数据特征集输入APT攻击数据生成模型,获取APT攻击数据生成模型输出的合成链路攻击数据;
[0026]基于最小二乘损失函数,获得样本链路攻击数据与合成链路攻击数据之间的损失值;其中,损失值表征:样本链路攻击数据与合成链路攻击数据的数据相似度;
[0027]基于获得的损失值,对APT攻击数据生成模型的模型参数进行调整。
[0028]在一种可选的实施例中,若满足以下条件,则确定APT攻击数据生成模型满足预设的APT攻击数据生成条件:
[0029]获取样本链路攻击数据中,各个数据链路各自的链路持续时长;其中,每个数据链路是由一组源IP和目标IP构成的,每个链路持续时长表征:样本链路攻击数据通过相应数据链路进行持续攻击的时间;
[0030]对各个数据链路各自的链路持续时长进行整理,获得样本链路攻击数据的测试数据链路持续时长分布;
[0031]若测试数据链路持续时长分布,与第一样本APT攻击数据对应的预期数据链路持
续时长分布,符合预设的链路持续时长分布相似性要求,则确定APT攻击数据生成模型满足APT攻击数据生成条件。
[0032]第三方面,本申请提供了一种电子设备,其包括处理器和存储器,其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行上述第一方面所述的APT攻击数据的生成方法的步骤。
[0033]第四方面,本申请提供了一种计算机可读存储介质,其包括程序代码,当所述程序代码在电子设备上运行时,所述程序代码用于使所述电子设备执行上述第一方面所述的APT攻击数据的生成方法的步骤。
[0034]第五方面,本申请提供了一种计算机程序产品,所述计算机程序产品在被计算机调用时,使得所述计算机执行如第一方面所述的APT攻击数据的生成方法步骤。
[0035]本申请有益效果如下:
[0036]在本申请实施例所提供的APT攻击数据的生成方法中,由于APT攻击数据具有持续性的特点,故而,在APT攻击数据的生成时,将原始APT攻击数据转换为包含网络地址信息的初始链路攻击数据,以便后续APT攻击数据的生成;并且,采用基于最小二乘损失函数拟合训练得到的APT攻击数据生成模型,不仅实现了复杂时间序列数据(即APT攻击数据)的生成或扩充,解决了APT攻击检测中负样本数量少样本不均本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种高级持续性威胁APT攻击数据的生成方法,其特征在于,包括:从终端日志的拦截结果中,获取原始APT攻击数据,并基于所述原始APT攻击数据及其关联的网络地址信息,生成初始链路攻击数据;其中,所述网络地址信息至少包括一组源网际互连协议IP和目标IP;将所述初始链路攻击数据的数据特征集,输入预设的APT攻击数据生成模型,获取所述APT攻击数据生成模型输出的目标链路攻击数据;其中,所述数据特征集包含的各个数据特征表征:相应数据链路的请求信息,所述APT攻击数据生成模型是基于最小二乘损失函数拟合训练得到的;按照设定的APT数据格式,对所述目标链路攻击数据进行数据格式转换,获得相应的目标APT攻击数据。2.如权利要求1所述的方法,其特征在于,所述基于所述原始APT攻击数据及其关联的网络地址信息,生成初始链路攻击数据,包括:从所述终端日志中,获取所述原始APT攻击数据的数据标识关联的网络地址信息;基于所述网络地址信息包含的网络特征和网络属性,以及所述原始APT攻击数据,生成所述初始链路攻击数据。3.如权利要求1或2所述的方法,其特征在于,所述APT攻击数据生成模型是采用如下方式训练的:基于所述多个样本APT攻击数据,分别执行以下操作:对第一样本APT攻击数据对应的样本链路攻击数据进行特征提取,获得所述样本链路攻击数据的数据特征集;其中,所述第一样本APT攻击数据为所述多个样本APT攻击数据中的任意一个;基于所述样本链路攻击数据的数据特征集,以及所述最小二乘损失函数,对所述APT攻击数据生成模型进行多次迭代训练,直至所述APT攻击数据生成模型满足预设的APT攻击数据生成条件为止。4.如权利要求3所述的方法,其特征在于,所述基于所述样本链路攻击数据的数据特征集,以及所述最小二乘损失函数,对所述APT攻击数据生成模型进行多次迭代训练,包括:在一次迭代训练的过程中,执行以下操作:将所述样本链路攻击数据的数据特征集输入所述APT攻击数据生成模型,获取所述APT攻击数据生成模型输出的合成链路攻击数据;基于所述最小二乘损失函数,获得所述样本链路攻击数据与所述合成链路攻击数据之间的损失值;其中,所述损失值表征:所述样本链路攻击数据与所述合成链路攻击数据的数据相似度;基于获得的损失值,对所述APT攻击数据生成模型的模型参数进行调整。5.如权利要求3所述的方法,其特征在于,若满足以下条件,则确定所述APT攻击数据生成模型满足预设的APT攻击数据生成条件:获取所述样本链路攻击数据中,各个数据链路各自的链路持续时长;其中,每个数据链路是由一组源IP和目标IP构成的,每个链路持续时长表征:所述样本链路攻击数据通过相应数据链路进行持续攻击的时间;对所述各个数据链路各自的链路持续时长进行整理,获得所述样本链路攻击数据的测
试数据链路持续时长分布;若所述测试数据链路持续时长分布,与所述第一样本APT攻击数据对应的预期数据链路持续时长分布,符合预设的链路持续时长分布相似性要求,则确定所述APT攻击数据生成模型满足所述APT攻击数据生成条件。6.一种APT攻击数据的生成装置,其特征在于,包括:获取模块,用于从终端日志的拦截结果中,获取原始APT攻击数据,并基于所述原始APT攻击数据及其关联的网络地址信息,生成初始链路攻击数据;其中,所述网络地址信息至少...

【专利技术属性】
技术研发人员:王彦婷徐玉清蔡锋钟良志
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1