基于弱相关集成策略的恶意行为识别方法、系统和介质技术方案

技术编号：29585098 阅读：18 留言：0更新日期：2021-08-06 19:43

本发明专利技术公开了一种基于弱相关集成策略的恶意行为识别方法、系统和介质，该方法包括利用样本集构建基模型；基于XGBoost对恶意代码动态行为特征进行筛选；基于弱相关集成策略对基模型进行相关性检验；根据基模型的准确率确定其集成权重；基于Bagging集成策略对恶意代码进行分类。本发明专利技术在恶意代码识别中首先采用了XGBoost算法来确定集成学习基模型的个数，降低了集成学习中基模型的选择问题，还提高了恶意代码识别的准确性。另外，本发明专利技术采用了集成学习基模型的弱相关集成策略，弱化了使用集成策略解决恶意代码分类任务时普遍存在的基模型之间的相关性问题，并且构建了基于以准确率为导向的单模型权重确定模型，完成高效、准确的恶意代码识别任务。

全部详细技术资料下载

【技术实现步骤摘要】
基于弱相关集成策略的恶意行为识别方法、系统和介质
本专利技术属于网络安全的
，具体涉及一种基于弱相关集成策略的恶意行为识别方法、系统和介质。
技术介绍
随着经济的不断增长和通信技术的极大进步，互联网己经变成了人们工作和生活中极其重要的组成部分。互联网不仅极大的促进了人类社会的发展，而且使得全世界的联系变得越来越紧密。尤其是在我们国家，互联网的发展速度变得越来越快，与此同时相关的技术也发展的愈加成熟。第44次中国互联网络发展状况统计报告指出，截至2019年6月，我国网民规模达到了8.54亿，较2018年底增长了2598万，互联网普及率达到81.2％，较2018年底提升了1.6个百分点。在互联网时代，信息安全保护刻不容缓。恶意代码的泛滥使得互联网信息安全面临非常严重的威胁。在2019年360手机卫士共为全国用户拦截各类钓鱼网站攻击约22.8亿次，为全国用户拦截恶意程序攻击约9.5亿次；拦截骚扰电话约260.9亿次，拦截垃圾短信约95.3亿条。根据360安全大脑统计，2019年前11个月共监控到受勒索病毒攻击的计算机412.5万台，处理反勒索申诉案件近4600例。从攻击情况和危害程度上看，勒索病毒攻击依然是当前国内计算机面临的最大安全威胁之一。针对如此数量庞大、种类繁多的恶意软件攻击，单纯依靠人工检测无法完成数以万计的代码检测任务，许多网络安全研究人员也致力于寻求更为行之有效的防御方法和检测手段，大数据技术为此提供了强大助力，越来越多的网络安全研究人员将机器学习算法应用于恶意代码分类，以实现恶意代码的...

【技术保护点】
1.基于弱相关集成策略的恶意行为识别方法，其特征在于，包括下述步骤：/n基于Bagging集成策略随机抽取训练样本若干组，用抽取到的样本基于XGBoost训练得到多个基模型；/n基于XGBoost对恶意代码动态行为特征进行筛选，筛选出对基模型来说特征重要性评分最高的若干个特征，构建出重要性特征集合；/n基于弱相关集成策略对基模型进行相关性检验，凭借分析不同基模型之间重要性特征集合的关联程度，判断出基模型之间的相关性，进而筛选消除基模型之间的相关性，得到相关性低的模型作为集成学习的基模型；/n根据基模型的准确率确定其集成权重；/n基于所述集成权重采用Bagging集成策略对恶意代码进行分类。/n

【技术特征摘要】
1.基于弱相关集成策略的恶意行为识别方法，其特征在于，包括下述步骤：
基于Bagging集成策略随机抽取训练样本若干组，用抽取到的样本基于XGBoost训练得到多个基模型；
基于XGBoost对恶意代码动态行为特征进行筛选，筛选出对基模型来说特征重要性评分最高的若干个特征，构建出重要性特征集合；
基于弱相关集成策略对基模型进行相关性检验，凭借分析不同基模型之间重要性特征集合的关联程度，判断出基模型之间的相关性，进而筛选消除基模型之间的相关性，得到相关性低的模型作为集成学习的基模型；
根据基模型的准确率确定其集成权重；
基于所述集成权重采用Bagging集成策略对恶意代码进行分类。

2.根据权利要求1所述基于弱相关集成策略的恶意行为识别方法，其特征在于，所述基于XGBoost对恶意代码动态行为特征进行筛选具体包括以下步骤：
从深度为0的树开始对每个叶子结点穷举所有的可用特征；
针对每一个特征，把属于该结点的训练样本的该特征升序排列，通过线性扫描的方式来决定该特征的最佳分裂点，并采用最佳分裂点时的收益；
选择收益最大的特征作为分裂特征，用该特征的最佳分裂点作为分裂位置，把该结点生成出左右两个新的叶子结点，并为每个新结点关联新的样本集；
退回到从深度为0的树开始对每个叶子结点穷举所有的可用特征的步骤，继续递归操作，直到：分裂后的收益小于设定的分裂收益阈值min_gain、分裂后的收益达到设定的最大深度阈值max_depth或分裂后的叶子节点中关联的样本数小于最小样本权重和阈值min_child_leaf；
将模型中某个特征被选作分裂特征的次数作为衡量特征重要性的指标，次数越多，说明该特征的重要性越高，据此筛选出对基模型来说特征重要性评分最高的若干个特征，构建出重要性特征集合。

3.根据权利要求2所述基于弱相关集成策略的恶意行为识别方法，其特征在于，对于某个结点，其分裂前最优目标函数如下式：

其中，GL和GR分别为由当前节点分裂出的左子节点和右子节点样本集的一阶梯度统计和，HL和HR分别为左子节点和右子节点样本集的二阶梯度统计和，λ为L2正则化项系数，γ为控制树的复杂度的正则化项系数，
其分裂后最优目标函数如下式：

4.根据权利要求3所述基于弱相关集成策略的恶意行为识别方法，其特征在于，分裂后的收益为：

<...

【专利技术属性】
技术研发人员：李树栋，厉源，吴晓波，韩伟红，方滨兴，田志宏，顾钊铨，殷丽华，杨航锋，
申请(专利权)人：广州大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人