【技术实现步骤摘要】
基于预测指导原型的APT恶意软件分类方法和装置
[0001]本专利技术属于网络威胁防护领域,涉及恶意软件分类技术,具体涉及一种基于预测指导原型的APT恶意软件分类方法和装置。
技术介绍
[0002]随着网络攻防技术的交替演进,高级可持续性威胁APT成为网络空间安全的首要威胁。APT是由具备专业知识、明确架构、丰富资源的攻击团伙精心策划的网络攻击。他们通过多种攻击媒介在特定攻击目标信息基础设施内投放多阶段攻击载荷,进而实现窃密、诈骗、致瘫等预期效果。在2021年,全球共计400多起APT攻击事件被报告。对抗APT攻击成为网络安全研究的重点。
[0003]当前大多数APT对抗的研究集中于两个方面。一是对APT攻防过程进行形式化建模进而设计给出针对性的防护建议,二是从流量数据、主机审计日志中发现攻击行为。然而,形式化建模的方法无法给出实际可用的检测规则或模型,而流量数据、日志数据对于防护者较难获取且难以从海量数据中筛选攻击行为。尽管相较普通网络攻击组织严密、攻击手段更加多样,但APT攻击的落脚点仍是在目标机器上植入恶意软件。通过对APT攻击中使用的恶意软件进行研究,挖掘不同APT团伙所开发的恶意样本的恶意行为,就能从另外一个维度获取APT攻击的相关知识,进而生成对应的检测规则或检测模型,发现日志数据中的可疑攻击事件,可以作为上述两个研究方向的有效补充。APT团伙在工具开发阶段将工具进行了功能模块化划分,在一次攻击事件中灵活应用不同功能的组件相互配合,这导致了阶段样本容易缺失、相同组织样本功能差异大的问题。
...
【技术保护点】
【技术特征摘要】
1.一种基于预测指导原型的APT恶意软件分类方法,其特征在于,所述方法包括:获取恶意软件的API调用序列,并基于BERT词嵌入模型,获取所述API调用序列的全局特征编码和所述API调用序列的数值化编码序列;对所述数值化编码序列进行辅助功能分类任务和主要组织分类任务的特征提取,得到辅助功能分类任务局部特征编码和主要组织分类任务局部特征编码,并基于所述全局特征编码分别与所述辅助功能分类任务局部特征编码、所述主要组织分类任务局部特征编码的拼接结果,得到辅助功能分类任务特征向量表示和主要组织分类任务特征向量表示;使用所述辅助功能分类任务特征向量表示拟合特征空间中的功能类别高斯分布,以得到所述恶意软件在各功能类别上的预测概率;结合所述恶意软件在各功能类别上的预测概率,使所述主要组织分类任务特征向量表示拟合特征空间中组织类别多峰分布,以得到所述恶意软件在各组织类别上的预测概率;其中,所述功能类别高斯分布和组织类别多峰分布基于标注样例得到;基于所述恶意软件在各组织类别上的预测概率,得到恶意软件分类结果。2.如权利要求1所述的方法,其特征在于,所述基于BERT词嵌入模型,获取所述API调用序列的全局特征编码和所述API调用序列的数值化编码序列,包括:在所述API调用序列前添加了【cls】token;将修改后的API调用序列输入BERT词嵌入模型,以得到API调用编码序列H=(h1,h2,...,h
S
);将编码h1作为全局特征编码,并将编码(h2,...,h
S
)作为所述API调用序列的数值化编码序列。3.如权利要求2所述的方法,其特征在于,所述对所述数值化编码序列进行辅助功能分类任务的特征提取,得到辅助功能分类任务局部特征编码,并基于所述全局特征编码与所述辅助功能分类任务局部特征编码的拼接结果,得到辅助功能分类任务特征向量表示和主要组织分类任务特征向量表示包括:在所述数值化编码序列上以步长d
k
滑动,得到的S
‑
d
k
个卷积特征映射图;使用最大池化从每个卷积特征映射图中选择最大特征,然后将所述最大特征拼接起来构成定长的辅助功能分类任务局部特征编码h
c
;将所述辅助功能分类任务局部特征编码h
c
与所述全局特征编码输入到多层感知机,得到辅助功能分类任务特征向量表示。4.如权利要求1所述的方法,其特征在于,所述使用所述辅助功能分类任务特征向量表示拟合特征空间中的功能类别高斯分布,以得到所述恶意软件在各功能类别上的预测概率,包括:将辅助功能分类任务特征向量表示x映射到特征空间,得到特征映射f
F
(x);x表示所述恶意软件;计算特征映射f
F
(x)与功能类别l
F
的原型表示之间的欧式距离其中,所述原型表示x
i
表示第i个标注样例的辅助功能分类任务特征向量表示,表示属于功能类别l
F
的标注样例组成的集合;基于所述欧式距离得到所述恶意软件在功能类别l
F
上的预测概率。
5.如权利要求1所述的方法,其特征在于,所述结合所述恶意软件在各功能类别上的预测概率,使所述主要组织分类任务特征向量表示拟合特征空间中组织类别多峰分布,以得到所述恶意软件在各组织类别上的预测概率,包括:将主要组织分类任务特征向量表示映射到特征空间,得到特征映射f
G
(x
′
);x
′
表示所述恶意软件;计算特征映射f
G
(x
′
)与组织类别l
G
的原型表示之间的欧式距离其中,所述原型表示l
G
表示...
【专利技术属性】
技术研发人员:刘峰,鲍怀锋,王文,汤子贤,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。