基于预测指导原型的APT恶意软件分类方法和装置制造方法及图纸

技术编号:38037182 阅读:15 留言:0更新日期:2023-06-30 11:03
本发明专利技术公开了一种基于预测指导原型的APT恶意软件分类方法和装置,所述方法包括:获取恶意软件的API调用序列的全局特征编码和数值化编码序列;对数值化编码序列进行辅助功能分类任务和主要组织分类任务的特征提取后,结合全局特征编码,得到辅助功能分类任务和主要组织分类任务特征向量表示;使用辅助功能分类任务特征向量表示拟合特征空间中的功能类别高斯分布,以得到功能类别上的预测概率;结合功能类别上的预测概率,使主要组织分类任务特征向量表示拟合特征空间中组织类别多峰分布,以得到在各组织类别上的预测概率;基于恶意软件在各组织类别上的预测概率,得到恶意软件分类结果。本发明专利技术可以应对不断出现的新兴APT攻击团伙。团伙。团伙。

【技术实现步骤摘要】
基于预测指导原型的APT恶意软件分类方法和装置


[0001]本专利技术属于网络威胁防护领域,涉及恶意软件分类技术,具体涉及一种基于预测指导原型的APT恶意软件分类方法和装置。

技术介绍

[0002]随着网络攻防技术的交替演进,高级可持续性威胁APT成为网络空间安全的首要威胁。APT是由具备专业知识、明确架构、丰富资源的攻击团伙精心策划的网络攻击。他们通过多种攻击媒介在特定攻击目标信息基础设施内投放多阶段攻击载荷,进而实现窃密、诈骗、致瘫等预期效果。在2021年,全球共计400多起APT攻击事件被报告。对抗APT攻击成为网络安全研究的重点。
[0003]当前大多数APT对抗的研究集中于两个方面。一是对APT攻防过程进行形式化建模进而设计给出针对性的防护建议,二是从流量数据、主机审计日志中发现攻击行为。然而,形式化建模的方法无法给出实际可用的检测规则或模型,而流量数据、日志数据对于防护者较难获取且难以从海量数据中筛选攻击行为。尽管相较普通网络攻击组织严密、攻击手段更加多样,但APT攻击的落脚点仍是在目标机器上植入恶意软件。通过对APT攻击中使用的恶意软件进行研究,挖掘不同APT团伙所开发的恶意样本的恶意行为,就能从另外一个维度获取APT攻击的相关知识,进而生成对应的检测规则或检测模型,发现日志数据中的可疑攻击事件,可以作为上述两个研究方向的有效补充。APT团伙在工具开发阶段将工具进行了功能模块化划分,在一次攻击事件中灵活应用不同功能的组件相互配合,这导致了阶段样本容易缺失、相同组织样本功能差异大的问题。
[0004]当前针对APT恶意样本的研究相对较少,恶意软件的相关研究依据是否运行恶意样本可分为两类,静态分析和动态分析。有研究人员收集字节码n

gram等静态信息建立APT恶意软件检测框架,另外有人在沙箱等虚拟环境中收集系统调用等动态信息。上述方法均结合机器学习技术建立检测或分类模型,但是此类方法存在两个问题。一是标注样本少,由于可用的APT样本量很少,无法满足传统机器学习方法的训练需求,使得分类器趋于在训练集上过拟合。二是每个APT团伙的恶意软件在功能域上的分布存在差异。分散在各个攻击阶段的样本功能差异明显,这种分布上的差异性容易误导模型的收敛方向,影响模型分类性能。三是无法识别未知APT恶意样本。现存方法是在封闭数据集上进行研究,无法应对现实场景中源源不断出现的新的APT团伙。

技术实现思路

[0005]本专利技术的目的在于提供基于预测指导原型的APT恶意软件分类方法和装置,重点利用设计的预训练动态特征编码算法、基于预测指导原型的组织分类算法、基于三元动态阈值的开集识别算法,分别数值化APT恶意软件的每一条动态API调用,通过两个独立的编码器计算每个软件实例的辅助任务与主任务的特征表示,辅助任务特征表示用于进行功能分类,其分类结果用于优化主任务的模型构建以进行组织分类,通过动态计算三元阈值实
现开集识别,以应对不断出现的新兴APT攻击团伙。
[0006]本专利技术首先收集不同APT攻击组织的恶意软件实例,利用开源威胁情报网站获得其功能类别标签,通过沙箱模拟执行获取API调用序列;利用设计的预训练动态特征编码算法对每一条API调用进行数值化编码;利用设计的基于预测指导原型的组织分类算法构建每一组织恶意软件实例的原型特征表示,并预测待测恶意软件样例的分类概率;然后,利用设计的基于三元动态阈值的开集识别算法,通过动态计算三元阈值实现开集识别,以应对不断出现的新兴APT攻击团伙。
[0007]本专利技术采用的技术方案如下:
[0008]一种基于预测指导原型的APT恶意软件分类方法,所述方法包括:
[0009]获取恶意软件的API调用序列,并基于BERT词嵌入模型,获取所述API调用序列的全局特征编码和所述API调用序列的数值化编码序列;
[0010]对所述数值化编码序列进行辅助功能分类任务和主要组织分类任务的特征提取,得到辅助功能分类任务局部特征编码和主要组织分类任务局部特征编码,并基于所述全局特征编码分别与所述辅助功能分类任务局部特征编码、所述主要组织分类任务局部特征编码的拼接结果,得到辅助功能分类任务特征向量表示和主要组织分类任务特征向量表示;
[0011]使用所述辅助功能分类任务特征向量表示拟合特征空间中的功能类别高斯分布,以得到所述恶意软件在各功能类别上的预测概率;
[0012]结合所述恶意软件在各功能类别上的预测概率,使所述主要组织分类任务特征向量表示拟合特征空间中组织类别多峰分布,以得到所述恶意软件在各组织类别上的预测概率;其中,所述功能类别高斯分布和组织类别多峰分布基于标注样例得到;
[0013]基于所述恶意软件在各组织类别上的预测概率,得到恶意软件分类结果。
[0014]进一步地,所述基于BERT词嵌入模型,获取所述API调用序列的全局特征编码和所述API调用序列的数值化编码序列,包括:
[0015]在所述API调用序列前添加了【cls】token;
[0016]将修改后的API调用序列输入BERT词嵌入模型,以得到API调用编码序列H=(h1,h2,

,h
S
);
[0017]将编码h1作为全局特征编码,并将编码(h2,

,h
S
)作为所述API调用序列的数值化编码序列。
[0018]进一步地,所述对所述数值化编码序列进行辅助功能分类任务的特征提取,得到辅助功能分类任务局部特征编码,并基于所述全局特征编码与所述辅助功能分类任务局部特征编码的拼接结果,得到辅助功能分类任务特征向量表示和主要组织分类任务特征向量表示包括:
[0019]在所述数值化编码序列上以步长d
k
滑动,得到的S

d
k
个卷积特征映射图;
[0020]使用最大池化从每个卷积特征映射图中选择最大特征,然后将所述最大特征拼接起来构成定长的辅助功能分类任务局部特征编码h
c

[0021]将所述辅助功能分类任务局部特征编码h
c
与所述全局特征编码输入到多层感知机,得到辅助功能分类任务特征向量表示。
[0022]进一步地,所述使用所述辅助功能分类任务特征向量表示拟合特征空间中的功能类别高斯分布,以得到所述恶意软件在各功能类别上的预测概率,包括:
[0023]将辅助功能分类任务特征向量表示x映射到特征空间,得到特征映射f
F
(x);x表示所述恶意软件;
[0024]计算特征映射f
F
(x)与功能类别l
F
的原型表示之间的欧式距离其中,所述原型表示x
i
表示第i个标注样例的辅助功能分类任务特征向量表示,表示属于功能类别l
F
的标注样例组成的集合;
[0025]基于所述欧式距离得到所述恶意软件在功能类别l
F
上的预测本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于预测指导原型的APT恶意软件分类方法,其特征在于,所述方法包括:获取恶意软件的API调用序列,并基于BERT词嵌入模型,获取所述API调用序列的全局特征编码和所述API调用序列的数值化编码序列;对所述数值化编码序列进行辅助功能分类任务和主要组织分类任务的特征提取,得到辅助功能分类任务局部特征编码和主要组织分类任务局部特征编码,并基于所述全局特征编码分别与所述辅助功能分类任务局部特征编码、所述主要组织分类任务局部特征编码的拼接结果,得到辅助功能分类任务特征向量表示和主要组织分类任务特征向量表示;使用所述辅助功能分类任务特征向量表示拟合特征空间中的功能类别高斯分布,以得到所述恶意软件在各功能类别上的预测概率;结合所述恶意软件在各功能类别上的预测概率,使所述主要组织分类任务特征向量表示拟合特征空间中组织类别多峰分布,以得到所述恶意软件在各组织类别上的预测概率;其中,所述功能类别高斯分布和组织类别多峰分布基于标注样例得到;基于所述恶意软件在各组织类别上的预测概率,得到恶意软件分类结果。2.如权利要求1所述的方法,其特征在于,所述基于BERT词嵌入模型,获取所述API调用序列的全局特征编码和所述API调用序列的数值化编码序列,包括:在所述API调用序列前添加了【cls】token;将修改后的API调用序列输入BERT词嵌入模型,以得到API调用编码序列H=(h1,h2,...,h
S
);将编码h1作为全局特征编码,并将编码(h2,...,h
S
)作为所述API调用序列的数值化编码序列。3.如权利要求2所述的方法,其特征在于,所述对所述数值化编码序列进行辅助功能分类任务的特征提取,得到辅助功能分类任务局部特征编码,并基于所述全局特征编码与所述辅助功能分类任务局部特征编码的拼接结果,得到辅助功能分类任务特征向量表示和主要组织分类任务特征向量表示包括:在所述数值化编码序列上以步长d
k
滑动,得到的S

d
k
个卷积特征映射图;使用最大池化从每个卷积特征映射图中选择最大特征,然后将所述最大特征拼接起来构成定长的辅助功能分类任务局部特征编码h
c
;将所述辅助功能分类任务局部特征编码h
c
与所述全局特征编码输入到多层感知机,得到辅助功能分类任务特征向量表示。4.如权利要求1所述的方法,其特征在于,所述使用所述辅助功能分类任务特征向量表示拟合特征空间中的功能类别高斯分布,以得到所述恶意软件在各功能类别上的预测概率,包括:将辅助功能分类任务特征向量表示x映射到特征空间,得到特征映射f
F
(x);x表示所述恶意软件;计算特征映射f
F
(x)与功能类别l
F
的原型表示之间的欧式距离其中,所述原型表示x
i
表示第i个标注样例的辅助功能分类任务特征向量表示,表示属于功能类别l
F
的标注样例组成的集合;基于所述欧式距离得到所述恶意软件在功能类别l
F
上的预测概率。
5.如权利要求1所述的方法,其特征在于,所述结合所述恶意软件在各功能类别上的预测概率,使所述主要组织分类任务特征向量表示拟合特征空间中组织类别多峰分布,以得到所述恶意软件在各组织类别上的预测概率,包括:将主要组织分类任务特征向量表示映射到特征空间,得到特征映射f
G
(x

);x

表示所述恶意软件;计算特征映射f
G
(x

)与组织类别l
G
的原型表示之间的欧式距离其中,所述原型表示l
G
表示...

【专利技术属性】
技术研发人员:刘峰鲍怀锋王文汤子贤
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1