基于stacking集成的APT组织识别方法、系统及存储介质技术方案

技术编号：25989520 阅读：48 留言：0更新日期：2020-10-20 18:57

本发明专利技术公开了一种基于stacking集成的APT组织识别方法、系统及存储介质，方法包括：使用TF‑IDF算法结合n‑gram从恶意软件样本中提取出行为特征并向量化，形成恶意行为向量特征集；基于恶意行为向量特征集，计算特征之间的相关度和特征与类别之间的卡方值，对行为向量特征集进行两次筛选，获得低纬度的更优特征子集数据；构建多模型融合的Stacking集成学习APT组织识别模型，利用所述APT组织识别模型对新的ATP攻击进行识别。本发明专利技术中对高维行为向量特征进行特征选择降低了数据集的复杂度；还考虑了数据集中的样本不平衡，采用了多模型集成训练，提高了识别准确度；另外本专利对于恶意样本的APT组织识别模型是经过机器学习训练得到的，提高了新样本的自动化识别效率。

全部详细技术资料下载

【技术实现步骤摘要】
基于stacking集成的APT组织识别方法、系统及存储介质
本专利技术属于网络安全的
，具体涉及一种基于stacking集成的APT组织识别方法、系统及存储介质。
技术介绍
APT高级持续性威胁，是利用先进的攻击手法对特定的目标进行长期持续性的网络攻击的攻击形式。与传统的网络攻击不同，APT攻击具有隐蔽性、针对性、持续性和组织性等特点，其攻击手段变化多端、攻击效果显著且难以防范。APT组织实施的网络攻击通常具有政治目的或经济目的，对国家和企业产生了巨大影响，对各类高等级信息安全系统造成的威胁日益严重。对实施APT攻击的恶意软件样本进行组织区分，有利于追溯真实的攻击组织实体，更好的区分和识别具体来源的攻击活动。另外，恶意软件的APT组织识别是一种检测APT攻击的方法。学术界和产业界对APT组织识别方法有所不同，在学术界,主要方法依赖于恶意代码的相似性分析。例如Qiao,Yanchen等人提出了基于API调用的一种自动恶意软件同源性识别方法。该方法通过对恶意样本通过静态分析获得其API集合，然后基于编程习惯定义的六种调用行为使用Jaccard相似系数计算不同恶意软件的同源程度，并通过经验设立了一个阈值和该同源程度比较，得出样本间是否相似的结论，用该方法可判断APT样本之间的同源度，确定所属组织。虎志强等人对恶意样本文件进行逆向分析获取文件的函数，根据函数相似度对函数进行聚类得到特征集，并设定阈值，将共同类别数达到阈值的恶意样本文件归为一类，为归类后的每类恶意样本文件标记同一APT组织标识。Chen,W等人...

【技术保护点】
1.基于stacking集成的APT组织识别方法，其特征在于，包括下述步骤：/n使用TF-IDF算法结合n-gram从恶意软件样本中提取出行为特征并向量化，形成恶意行为向量特征集；/n基于恶意行为向量特征集和APT组织标记，计算特征之间的相关度和特征与类别之间的卡方值，对行为向量特征集进行两次筛选，获得低纬度的更优特征子集数据；/n构建多模型融合的Stacking集成学习APT组织识别模型，利用所述APT组织识别模型对新的ATP攻击进行组织识别。/n

【技术特征摘要】
1.基于stacking集成的APT组织识别方法，其特征在于，包括下述步骤：
使用TF-IDF算法结合n-gram从恶意软件样本中提取出行为特征并向量化，形成恶意行为向量特征集；
基于恶意行为向量特征集和APT组织标记，计算特征之间的相关度和特征与类别之间的卡方值，对行为向量特征集进行两次筛选，获得低纬度的更优特征子集数据；
构建多模型融合的Stacking集成学习APT组织识别模型，利用所述APT组织识别模型对新的ATP攻击进行组织识别。

2.根据权利要求1所述基于stacking集成的APT组织识别方法，其特征在于，所述使用TF-IDF算法结合n-gram从恶意软件样本中提取出行为特征并向量化形成行为数据集，具体为：
对恶意样本行为文本特征先生成n-gram的词条，然后分别统计每个词条出现的词频TF，然后再为每个词条附上一个权值参数IDF；

其中，TFi，j：词条i在样本j中出现的频率；ni，j：词条i在样本j中出现的次数；∑knk，j：样本j中出现的总词汇数；
再计算权值参数：

其中，|D|表示总样本数，|j：i∈dj|表示包含词条i的样本数目，为了防止分母为零，所以加1，每个词最后的权重计算公式为：
TF-IDFi，j＝TFi，j×IDFi，j
通过结合n-gram计算恶意样本行为特征文本的TF-IDF方法对数据进行预处理，计算文本词频特征，对行为文本数据进行特征向量化形成语义矩阵，形成恶意行为向量特征集。

3.根据权利要求1所述基于stacking集成的APT组织识别方法，其特征在于，使用n-gram结合TF-IDF方法提取的特征数据中包含了较多的特征属性，先对恶意行为向量特征集进行第一次初选，计算特征与特征之间的相关度，过滤掉特征之间存在信息冗余的特征。

4.根据权利要求3所述基于stacking集成的APT组织识别方法，其特征在于，所述计算特征与特征之间的相关度，具体为：
输入：行为向量数据集F，特征数Fn，阀值ε1，ε2；
随机选取一个特征X1，计算其信息熵H(X1)，若满足H(X1)＞ε1，则加入待选特征集S，否则，继续选取；
Fori＝2，...，Fn
计算特征Xi的信息熵，若满足H(Xi)＞ε1，则判断该特征与S中其他所有特征Xj的相关性：

其中cov(Xi，Xj)是Xi和Xj之间的协方差，是Xi的方差，是Xj的方差，是Xi的平均值，是Xj的平均值，E为均值；
若则将特征Xi，加入待选特征集S；
若计算Xi与Xj的信息熵，如果H(Xj)＞H(Xi)，则将特征Xi替换S中Xj；
输出特征子集S。

5.根据权利要求4所述述基于stacking集成的APT组织识别方法，其特征在于，在计算特征与特征之间的相关度的过程中，特征子集S中所选的每个特征都具有较多信息量，且所有特征之间保持较低的相关性，ε1，ε2的取值需要根据实验效果进行调整参数，需要满足：

然后在获得简约特征子...

【专利技术属性】
技术研发人员：李树栋，张倩青，吴晓波，韩伟红，方滨兴，田志宏，殷丽华，顾钊铨，
申请(专利权)人：广州大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人