当前位置: 首页 > 专利查询>广州大学专利>正文

基于stacking集成的APT组织识别方法、系统及存储介质技术方案

技术编号:25989520 阅读:48 留言:0更新日期:2020-10-20 18:57
本发明专利技术公开了一种基于stacking集成的APT组织识别方法、系统及存储介质,方法包括:使用TF‑IDF算法结合n‑gram从恶意软件样本中提取出行为特征并向量化,形成恶意行为向量特征集;基于恶意行为向量特征集,计算特征之间的相关度和特征与类别之间的卡方值,对行为向量特征集进行两次筛选,获得低纬度的更优特征子集数据;构建多模型融合的Stacking集成学习APT组织识别模型,利用所述APT组织识别模型对新的ATP攻击进行识别。本发明专利技术中对高维行为向量特征进行特征选择降低了数据集的复杂度;还考虑了数据集中的样本不平衡,采用了多模型集成训练,提高了识别准确度;另外本专利对于恶意样本的APT组织识别模型是经过机器学习训练得到的,提高了新样本的自动化识别效率。

【技术实现步骤摘要】
基于stacking集成的APT组织识别方法、系统及存储介质
本专利技术属于网络安全的
,具体涉及一种基于stacking集成的APT组织识别方法、系统及存储介质。
技术介绍
APT高级持续性威胁,是利用先进的攻击手法对特定的目标进行长期持续性的网络攻击的攻击形式。与传统的网络攻击不同,APT攻击具有隐蔽性、针对性、持续性和组织性等特点,其攻击手段变化多端、攻击效果显著且难以防范。APT组织实施的网络攻击通常具有政治目的或经济目的,对国家和企业产生了巨大影响,对各类高等级信息安全系统造成的威胁日益严重。对实施APT攻击的恶意软件样本进行组织区分,有利于追溯真实的攻击组织实体,更好的区分和识别具体来源的攻击活动。另外,恶意软件的APT组织识别是一种检测APT攻击的方法。学术界和产业界对APT组织识别方法有所不同,在学术界,主要方法依赖于恶意代码的相似性分析。例如Qiao,Yanchen等人提出了基于API调用的一种自动恶意软件同源性识别方法。该方法通过对恶意样本通过静态分析获得其API集合,然后基于编程习惯定义的六种调用行为使用Jaccard相似系数计算不同恶意软件的同源程度,并通过经验设立了一个阈值和该同源程度比较,得出样本间是否相似的结论,用该方法可判断APT样本之间的同源度,确定所属组织。虎志强等人对恶意样本文件进行逆向分析获取文件的函数,根据函数相似度对函数进行聚类得到特征集,并设定阈值,将共同类别数达到阈值的恶意样本文件归为一类,为归类后的每类恶意样本文件标记同一APT组织标识。Chen,W等人提出了一种结合恶意软件行为知识图谱的新基因模型。该方法首先基于节点内容建立了遗传模型,并提取属于各个APT组织的所有恶意软件的基因序列,然后计算恶意软件和基因库之间的相似性,并根据相似性评分判断该恶意软件属于哪APT组织。而在产业界,APT组织识别更倾向于恶意代码结构及其攻击链的关联性分析,例如FireEye实验室于2013年对11个APT高级可持续攻击进行分析,在攻击所用的恶意代码中发现了相同的代码段、时间戳、数字证书等,基于这些收集的特征进行关联分析,认为攻击均是由同一个组织操纵。启明星辰通过分析漏洞部分样本的shellcode功能、代码相似性作为关联分析的特征,进而溯源到海德薇(Hedwig)组织。上述产业界分析技术主要基于相关安全专家人工分析,受专家经验影响较大,其次不能满足大量样本的需要,效率低,耗时长。学术界自动化的识别技术所依赖的静态API函数特征会因为恶意软件的混淆和加壳技术使得特征提取困难,另外目前的方法主要依赖已知的恶意代码样本,如果仅根据已有的样本来识别变体,将可能导致识别工作低效甚至无效。
技术实现思路
本专利技术的主要目的在于克服现有技术的缺点与不足,提供一种基于stacking集成的APT组织识别方法、系统及存储介质,可以更准确的识别出APT攻击行为所属的APT组织。为了达到上述目的,本专利技术采用以下技术方案:本专利技术提供的一种基于stacking集成的APT组织识别方法,包括下述步骤:使用TF-IDF算法结合n-gram从恶意软件样本中提取出行为特征并向量化,形成恶意行为向量特征集;基于恶意行为向量特征集和APT组织标记,计算特征之间的相关度和特征与类别之间的卡方值,对行为向量特征集进行两次筛选,获得低纬度的更优特征子集数据;构建多模型融合的Stacking集成学习APT组织识别模型,利用所述APT组织识别模型对新的ATP攻击进行组织识别。作为优选的技术方案,所述使用TF-IDF算法结合n-gram从恶意软件样本中提取出行为特征并向量化形成行为数据集,具体为:对恶意样本行为文本特征先生成n-gram的词条,n-gram可按实际数据进行选择,这里推荐选择n-gram=(1,5),然后分别统计每个词条出现的词频TF,然后再为每个词条附上一个权值参数IDF;其中,TFi,j:词条i在样本j中出现的频率;ni,j:词条i在样本j中出现的次数;∑knk,j:样本j中出现的总词汇数;再计算权值参数:其中,||表示总样本数,|j:i∈dj|表示包含词条i的样本数目,为了防止分母为零,所以加1,每个词最后的权重计算公式为:TF-IDFi,j=TFi,j×IDFi,j通过结合n-gram计算恶意样本行为特征文本的TF-IDF方法对数据进行预处理,计算文本词频特征,对行为文本数据进行特征向量化形成语义矩阵,形成恶意行为向量特征集。作为优选的技术方案,使用n-gram结合TF-IDF方法提取的特征数据中包含了较多的特征属性,先对恶意行为向量特征集进行第一次初选,计算特征与特征之间的相关度,过滤掉特征之间存在信息冗余的特征。作为优选的技术方案,所述计算特征与特征之间的相关度,具体为:输入:行为向量数据集F,特征数Fn,阀值ε1,ε2;随机选取一个特征X1,计算其信息熵H(X1),若满足H(X1)>ε1,则加入待选特征集S,否则,继续选取;Fori=2,...,Fn计算特征Xi的信息熵,若满足H(Xi)>ε1,则判断该特征与S中其他所有特征Xj的相关性:其中cov(Xi,Xj)是Xi和Xj之间的协方差,是Xi的方差,是Xj的方差,是Xi的平均值,是Xj的平均值,E为均值;若则将特征Xi,加入待选特征集S;若计算Xi与Xj的信息熵,如果H(Xj)>H(Xi),则将特征Xi替换S中Xj;输出特征子集S。作为优选的技术方案,在计算特征与特征之间的相关度的过程中,特征子集S中所选的每个特征都具有较多信息量,且所有特征之间保持较低的相关性,ε1,ε2的取值需要根据实验效果进行调整参数,需要满足:然后在获得简约特征子集S上,进一步使用卡方检验评价特征与类别标签之间的相关性,选择各个类别中卡方值排名前N的特征。作为优选的技术方案,所述计算特征与类别之间的卡方值,具体为:针对特征子集S中的Sm个类别,分别计算每个类别的中每个特征的卡方值,并将特征按照卡方值降序排列;分别从各个类别的特征集中,选取排名前N的特征词放入待选特征子集S'中;将S'中重复的特征保留一个,其余删除;输出待选特征子集S',算法结束。作为优选的技术方案,所述构建多模型融合的Stacking集成学习APT组织识别模型,具体为:基于特征选择后的特征集S'和对应标注的APT组织数据作为原始数据集,Stacking集成分类模型首先将原始数据集划分成若干个数据集,输入到第一层预测模型的各个基学习器中,每个基学习器输出各自的预测结果;其中基学习器选择对不平衡数据有不错分类效果的分类算法即支持向量机、随机森林、Adaboost算法,然后将第一层的输出数据作为第二层的输入数据,对第二层的元学习器进行训练,并由第二层的模型输出最终预测结果,其中以XGBoost算法作为元学习器。作为优本文档来自技高网
...

【技术保护点】
1.基于stacking集成的APT组织识别方法,其特征在于,包括下述步骤:/n使用TF-IDF算法结合n-gram从恶意软件样本中提取出行为特征并向量化,形成恶意行为向量特征集;/n基于恶意行为向量特征集和APT组织标记,计算特征之间的相关度和特征与类别之间的卡方值,对行为向量特征集进行两次筛选,获得低纬度的更优特征子集数据;/n构建多模型融合的Stacking集成学习APT组织识别模型,利用所述APT组织识别模型对新的ATP攻击进行组织识别。/n

【技术特征摘要】
1.基于stacking集成的APT组织识别方法,其特征在于,包括下述步骤:
使用TF-IDF算法结合n-gram从恶意软件样本中提取出行为特征并向量化,形成恶意行为向量特征集;
基于恶意行为向量特征集和APT组织标记,计算特征之间的相关度和特征与类别之间的卡方值,对行为向量特征集进行两次筛选,获得低纬度的更优特征子集数据;
构建多模型融合的Stacking集成学习APT组织识别模型,利用所述APT组织识别模型对新的ATP攻击进行组织识别。


2.根据权利要求1所述基于stacking集成的APT组织识别方法,其特征在于,所述使用TF-IDF算法结合n-gram从恶意软件样本中提取出行为特征并向量化形成行为数据集,具体为:
对恶意样本行为文本特征先生成n-gram的词条,然后分别统计每个词条出现的词频TF,然后再为每个词条附上一个权值参数IDF;



其中,TFi,j:词条i在样本j中出现的频率;ni,j:词条i在样本j中出现的次数;∑knk,j:样本j中出现的总词汇数;
再计算权值参数:



其中,|D|表示总样本数,|j:i∈dj|表示包含词条i的样本数目,为了防止分母为零,所以加1,每个词最后的权重计算公式为:
TF-IDFi,j=TFi,j×IDFi,j
通过结合n-gram计算恶意样本行为特征文本的TF-IDF方法对数据进行预处理,计算文本词频特征,对行为文本数据进行特征向量化形成语义矩阵,形成恶意行为向量特征集。


3.根据权利要求1所述基于stacking集成的APT组织识别方法,其特征在于,使用n-gram结合TF-IDF方法提取的特征数据中包含了较多的特征属性,先对恶意行为向量特征集进行第一次初选,计算特征与特征之间的相关度,过滤掉特征之间存在信息冗余的特征。


4.根据权利要求3所述基于stacking集成的APT组织识别方法,其特征在于,所述计算特征与特征之间的相关度,具体为:
输入:行为向量数据集F,特征数Fn,阀值ε1,ε2;
随机选取一个特征X1,计算其信息熵H(X1),若满足H(X1)>ε1,则加入待选特征集S,否则,继续选取;
Fori=2,...,Fn
计算特征Xi的信息熵,若满足H(Xi)>ε1,则判断该特征与S中其他所有特征Xj的相关性:



其中cov(Xi,Xj)是Xi和Xj之间的协方差,是Xi的方差,是Xj的方差,是Xi的平均值,是Xj的平均值,E为均值;
若则将特征Xi,加入待选特征集S;
若计算Xi与Xj的信息熵,如果H(Xj)>H(Xi),则将特征Xi替换S中Xj;
输出特征子集S。


5.根据权利要求4所述述基于stacking集成的APT组织识别方法,其特征在于,在计算特征与特征之间的相关度的过程中,特征子集S中所选的每个特征都具有较多信息量,且所有特征之间保持较低的相关性,ε1,ε2的取值需要根据实验效果进行调整参数,需要满足:



然后在获得简约特征子...

【专利技术属性】
技术研发人员:李树栋张倩青吴晓波韩伟红方滨兴田志宏殷丽华顾钊铨
申请(专利权)人:广州大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1