当前位置: 首页 > 专利查询>广州大学专利>正文

基于弱相关集成策略的恶意行为识别方法、系统和介质技术方案

技术编号:29585098 阅读:18 留言:0更新日期:2021-08-06 19:43
本发明专利技术公开了一种基于弱相关集成策略的恶意行为识别方法、系统和介质,该方法包括利用样本集构建基模型;基于XGBoost对恶意代码动态行为特征进行筛选;基于弱相关集成策略对基模型进行相关性检验;根据基模型的准确率确定其集成权重;基于Bagging集成策略对恶意代码进行分类。本发明专利技术在恶意代码识别中首先采用了XGBoost算法来确定集成学习基模型的个数,降低了集成学习中基模型的选择问题,还提高了恶意代码识别的准确性。另外,本发明专利技术采用了集成学习基模型的弱相关集成策略,弱化了使用集成策略解决恶意代码分类任务时普遍存在的基模型之间的相关性问题,并且构建了基于以准确率为导向的单模型权重确定模型,完成高效、准确的恶意代码识别任务。

【技术实现步骤摘要】
基于弱相关集成策略的恶意行为识别方法、系统和介质
本专利技术属于网络安全的
,具体涉及一种基于弱相关集成策略的恶意行为识别方法、系统和介质。
技术介绍
随着经济的不断增长和通信技术的极大进步,互联网己经变成了人们工作和生活中极其重要的组成部分。互联网不仅极大的促进了人类社会的发展,而且使得全世界的联系变得越来越紧密。尤其是在我们国家,互联网的发展速度变得越来越快,与此同时相关的技术也发展的愈加成熟。第44次中国互联网络发展状况统计报告指出,截至2019年6月,我国网民规模达到了8.54亿,较2018年底增长了2598万,互联网普及率达到81.2%,较2018年底提升了1.6个百分点。在互联网时代,信息安全保护刻不容缓。恶意代码的泛滥使得互联网信息安全面临非常严重的威胁。在2019年360手机卫士共为全国用户拦截各类钓鱼网站攻击约22.8亿次,为全国用户拦截恶意程序攻击约9.5亿次;拦截骚扰电话约260.9亿次,拦截垃圾短信约95.3亿条。根据360安全大脑统计,2019年前11个月共监控到受勒索病毒攻击的计算机412.5万台,处理反勒索申诉案件近4600例。从攻击情况和危害程度上看,勒索病毒攻击依然是当前国内计算机面临的最大安全威胁之一。针对如此数量庞大、种类繁多的恶意软件攻击,单纯依靠人工检测无法完成数以万计的代码检测任务,许多网络安全研究人员也致力于寻求更为行之有效的防御方法和检测手段,大数据技术为此提供了强大助力,越来越多的网络安全研究人员将机器学习算法应用于恶意代码分类,以实现恶意代码的自动检测。在工业界,目前各大安全厂商都开始使用将机器学习技术与领域专家知识进行结合,开发基于大数据的恶意软件检测系统。(1)特征提取方面恶意软件的特征提取一直是一个很重要的问题,Ravi、Manoharan等人建立了一个动态的恶意软件监测系统,获取系统运行时的WindowsAPI调用序列的4-gram统计特征,利用关联挖掘算法生成分类规则,构建规则库用于软件分类;Abou-AssalehT,CerconeN等人提出一个基于n-gram的恶意软件检测模型,截取代码字节的n-gram序列作为特征,将其出现频率用于计算软件相似度度量以实现恶意软件的分类;杨晔提出了一个恶意程序检测模型,模型首先将清洗过的API序列输入Word2vec模型,并将获得的词向量按序排列为矩阵,作为卷积神经网络的输入,利用深度卷积神经网络进一步抽取特征和实现分类;YeY、ChenL、HouS等人基于软件的WindowsAPI调用设计了一个SAE深度神经网络,采用自编码器进行特征学习后输入优化调参的分类模型,从而检测恶意软件;倪铭采用ont-hot编码对WindowsAPI的n-gram序列进行特征表示,并以此作为卷积神经网络的输入特征数据,通过卷积和池化提取软件样本的隐藏特征,从而实现分类。(2)恶意软件的分析和检测方面传统的尝试主要集中在静态和动态分析上,但是恶意软件的快速增长和演变迫使研究人员不得不推出新的分析和检测解决方案。机器学习是朝着这个方向应用的创新技术之一。徐琳等人针对僵尸网络中采用的DGA算法生成域名进行了字符特征研究分析,并采用聚类算法对DNS解析无效的(NXDomain)域名进行聚类,根据单恶意域名与多IP地址之间的映射关系筛选出恶意域名个数大于某个值的IP地址,将筛选出的IP地址和NxDomain组合成矩阵,然后再次进行二部图聚类分析,降维寻找可能被感染的主机Bots,Ravi、Manoharan提出基于WindowsAPI调用序列频繁项集和朴素贝叶斯、支持向量机、决策树等技术的恶意代码动态检测系统,Ding、Chen等人以代码基本指令中包含的特定关键行为片段作为代码特征提出基于恶意代码基因的检测模型,ShifuHou、LifeiChen等人基于k-means聚类和支持向量机提出了一个恶意代码分类集成模型。许多工作集中于构建分析的框架,获取静态特性,以及对恶意软件家族进行分类。实验表明,文本分类方法对提高模糊样本的检测精度很有效果。对于各种机器学习算法的比较方面,例如把naivebayesrandomforest和supportvectormachine(SVM)应用在解决针对检测恶意应用程序编程接口(API)调用序列的问题。还有,通过利用n-gram代替字节序列,Kolter比较了naivebayes、decisiontree和SVM在恶意软件检测中的性能。在数据挖掘聚类技术用于检测恶意软件的方面,Schultz首次提出了使用三种不同类型的静态特征:PE头、字符串序列和字节序列。在探索和利用样本视觉特征的替代方法中,大多数研究都考虑到恶意软件可以按家族或相似性来进行聚类。随后人工神经网络也被用于恶意软件检测,与此同时,也有一些新的想法应用于恶意软件检测,比如利用图像处理技术来检测恶意软件。上述现有技术缺点在于:(1)产业界分析技术主要基于相关安全专家人工分析,受专家经验影响较大,其次不能满足大量样本的需要,效率低,耗时长;(2)学术界自动化的识别技术所依赖的静态API函数特征会因为恶意软件的混淆和加壳技术使得特征提取困难;(3)目前的方法主要依赖已知的恶意代码样本,如果仅根据已有的样本来识别变体,将可能导致识别工作低效甚至无效。
技术实现思路
本专利技术的主要目的在于克服上述现有恶意代码识别的技术中存在的效率低、静态特征提取困难等缺点,提供一种基于弱相关集成策略的恶意行为识别方法、系统和介质,旨在通过提取、分析恶意代码执行序列,综合运用动态行为特征分析和弱相关集成策略,完成高效、准确的恶意代码识别任务。为了达到上述目的,本专利技术采用以下技术方案:本专利技术提供了一种基于弱相关集成策略的恶意行为识别方法,包括下述步骤:基于Bagging集成策略随机抽取训练样本若干组,用抽取到的样本基于XGBoost训练得到多个基模型;基于XGBoost对恶意代码动态行为特征进行筛选,筛选出对基模型来说特征重要性评分最高的若干个特征,构建出重要性特征集合;基于弱相关集成策略对基模型进行相关性检验,凭借分析不同基模型之间重要性特征集合的关联程度,判断出基模型之间的相关性,进而筛选消除基模型之间的相关性,得到相关性低的模型作为集成学习的基模型;根据基模型的准确率确定其集成权重;基于所述集成权重采用Bagging集成策略对恶意代码进行分类。作为优选的技术方案,所述基于XGBoost对恶意代码动态行为特征进行筛选具体包括以下步骤:从深度为0的树开始对每个叶子结点穷举所有的可用特征;针对每一个特征,把属于该结点的训练样本的该特征升序排列,通过线性扫描的方式来决定该特征的最佳分裂点,并采用最佳分裂点时的收益;选择收益最大的特征作为分裂特征,用该特征的最佳分裂点作为分裂位置,把该结点生成出左右两个新的叶子结点,并为每个新结点关联新的样本集;退回到从深度为0的树开始对每个叶子结点穷举所有的可用特征的步骤,继续递归操作本文档来自技高网
...

【技术保护点】
1.基于弱相关集成策略的恶意行为识别方法,其特征在于,包括下述步骤:/n基于Bagging集成策略随机抽取训练样本若干组,用抽取到的样本基于XGBoost训练得到多个基模型;/n基于XGBoost对恶意代码动态行为特征进行筛选,筛选出对基模型来说特征重要性评分最高的若干个特征,构建出重要性特征集合;/n基于弱相关集成策略对基模型进行相关性检验,凭借分析不同基模型之间重要性特征集合的关联程度,判断出基模型之间的相关性,进而筛选消除基模型之间的相关性,得到相关性低的模型作为集成学习的基模型;/n根据基模型的准确率确定其集成权重;/n基于所述集成权重采用Bagging集成策略对恶意代码进行分类。/n

【技术特征摘要】
1.基于弱相关集成策略的恶意行为识别方法,其特征在于,包括下述步骤:
基于Bagging集成策略随机抽取训练样本若干组,用抽取到的样本基于XGBoost训练得到多个基模型;
基于XGBoost对恶意代码动态行为特征进行筛选,筛选出对基模型来说特征重要性评分最高的若干个特征,构建出重要性特征集合;
基于弱相关集成策略对基模型进行相关性检验,凭借分析不同基模型之间重要性特征集合的关联程度,判断出基模型之间的相关性,进而筛选消除基模型之间的相关性,得到相关性低的模型作为集成学习的基模型;
根据基模型的准确率确定其集成权重;
基于所述集成权重采用Bagging集成策略对恶意代码进行分类。


2.根据权利要求1所述基于弱相关集成策略的恶意行为识别方法,其特征在于,所述基于XGBoost对恶意代码动态行为特征进行筛选具体包括以下步骤:
从深度为0的树开始对每个叶子结点穷举所有的可用特征;
针对每一个特征,把属于该结点的训练样本的该特征升序排列,通过线性扫描的方式来决定该特征的最佳分裂点,并采用最佳分裂点时的收益;
选择收益最大的特征作为分裂特征,用该特征的最佳分裂点作为分裂位置,把该结点生成出左右两个新的叶子结点,并为每个新结点关联新的样本集;
退回到从深度为0的树开始对每个叶子结点穷举所有的可用特征的步骤,继续递归操作,直到:分裂后的收益小于设定的分裂收益阈值min_gain、分裂后的收益达到设定的最大深度阈值max_depth或分裂后的叶子节点中关联的样本数小于最小样本权重和阈值min_child_leaf;
将模型中某个特征被选作分裂特征的次数作为衡量特征重要性的指标,次数越多,说明该特征的重要性越高,据此筛选出对基模型来说特征重要性评分最高的若干个特征,构建出重要性特征集合。


3.根据权利要求2所述基于弱相关集成策略的恶意行为识别方法,其特征在于,对于某个结点,其分裂前最优目标函数如下式:



其中,GL和GR分别为由当前节点分裂出的左子节点和右子节点样本集的一阶梯度统计和,HL和HR分别为左子节点和右子节点样本集的二阶梯度统计和,λ为L2正则化项系数,γ为控制树的复杂度的正则化项系数,
其分裂后最优目标函数如下式:





4.根据权利要求3所述基于弱相关集成策略的恶意行为识别方法,其特征在于,分裂后的收益为:


<...

【专利技术属性】
技术研发人员:李树栋厉源吴晓波韩伟红方滨兴田志宏顾钊铨殷丽华杨航锋
申请(专利权)人:广州大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1