本发明专利技术公开了一种基于多特征融合的恶意代码检测方法及系统,其中,所述检测方法包括:步骤A:提取训练集和测试集中代码序列的N‑gram及变长N‑gram,分别作为训练集基本特征集合及测试集基本特征集合;步骤B:通过信息增益的方式由所提取的训练集基本特征集合及测试集基本特征集合中分别筛选出训练集有效特征集合及测试集有效特征集合;步骤C:通过Boosting算法对所筛选出的训练集有效特征集合进行特征融合以得到融合特征分类器;步骤D:利用融合特征分类器检测所筛选出的测试集有效特征集合。本发明专利技术所提供的检测方法,使得最终得到的融合特征具有更强的鉴别性及鲁棒性,能够更好的分类出恶意代码。
【技术实现步骤摘要】
本专利技术涉及恶意代码检测
,尤其涉及的是一种基于多特征融合的恶意代码检测方法及系统。
技术介绍
恶意代码(Unwanted Code)是指没有作用却会带来危险的代码, 定义一:恶意代码又称恶意软件。这些软件也可称为广告软件(adware)、间谍软件(spyware)、恶意共享软件(malicious shareware),是指在未明确提示用户或未经用户许可的情况下,在用户计算机或其他终端上安装运行,侵犯用户合法权益的软件,有时也称作流氓软件。定义二:恶意代码是指故意编制或设置的、对网络或系统会产生威胁或潜在威胁的计算机代码,最常见的恶意代码有计算机病毒(简称病毒)、特洛伊木马(简称木马)、计算机蠕虫(简称蠕虫)、后门、逻辑炸弹等。恶意代码的检测是目前恶意代码防范的重点和难点。恶意代码在实现上可分为两类:一类是基于基础技术的共用,恶意代码开发人员通过重用基础模块实现变种;一类是恶意代码专门针对现有防范技术而设计开发的混淆技术。恶意代码的检测方法一般分为两大类:基于启发式的方法和基于特征的检测方法。基于启发式的检测方法可检测新恶意代码,但是,启发式规则依赖于分析人员的经验,因此,这种检测方法容易引发高误报率和漏报率。而基于特征的检测方法,是通过简单的模式识别方法来检测恶意代码,一个程序代码的二进制表述序列和某种规则匹配,那么就认为此代码为恶意代码。基于特征检测的恶意代码检测器必须用不同的模式来评测代码,所以这种检测方法通常准确率很高。因此,基于特征的检测被广泛应到恶意代码检测工具中,是目前恶意代码检测的主流方法。传统的基于特征的恶意代码检测方法,由于需要拟合训练集进行特征选择,而选择出来的特征过分容易出现拟合训练集,导致其在训练集上进行检测效果较好,一旦需要在不同的测试集上进行检测,其分类效果往往不尽如人意。因此,现有技术还有待于改进和发展。
技术实现思路
鉴于上述现有技术的不足,本专利技术的目的在于提供一种鉴别性及鲁棒性强,能够更好的分类出恶意代码的基于多特征融合的恶意代码检测方法及系统。本专利技术的技术方案如下:一种基于多特征融合的恶意代码检测方法,其中,所述基于多特征融合的恶意代码检测方法包括:步骤A:提取训练集和测试集中代码序列的N-gram及变长N-gram,分别作为训练集基本特征集合及测试集基本特征集合;步骤B:通过信息增益的方式由所提取的训练集基本特征集合及测试集基本特征集合中分别筛选出训练集有效特征集合及测试集有效特征集合;步骤C:通过Boosting算法对所筛选出的训练集有效特征集合进行特征融合以得到融合特征分类器;步骤D:利用融合特征分类器检测所筛选出的测试集有效特征集合。所述的基于多特征融合的恶意代码检测方法,其中,所述步骤C具体包括:步骤C1:针对训练集有效特征集合中的每个有效特征创建一个贝叶斯分类器;步骤C2:利用带有恶意代码标签及正常代码标签的训练集训练所创建的贝叶斯分类器;步骤C3:将训练后的各个贝叶斯分类器按照正确率从小到大进行排序;步骤C4:利用Boosting算法根据所排列次序对训练后的贝叶斯分类器进行二次训练并进行特征融合。所述的基于多特征融合的恶意代码检测方法,其中,所述步骤C4具体包括:步骤C41:利用Boosting算法根据所排列次序对训练后的贝叶斯分类器进行二次训练并得到各个贝叶斯分类器的权重;步骤C42:根据所得到的权重融合各个贝叶斯分类器所对应的有效特征。所述的基于多特征融合的恶意代码检测方法,其中,所述步骤B具体包括:步骤B1:通过信息增益的方式由所提取的训练集基本特征集合中筛选出训练集有效特征集合;步骤B2:通过信息增益的方式由所提取的测试集基本特征集合中筛选出测试集有效特征集合。所述的基于多特征融合的恶意代码检测方法,其中,所述步骤B1包括:步骤B11:计算所有基本特征的信息增益;步骤B12:根据计算结果将所有基本特征按照递减顺序排列,并选取前若干个基本特征作为有效特征。一种基于多特征融合的恶意代码检测系统,其中,所述基于多特征融合的恶意代码检测系统包括:提取模块,用于提取训练集和测试集中代码序列的N-gram及变长N-gram,分别作为训练集基本特征集合及测试集基本特征集合;筛选模块,用于通过信息增益的方式由所提取的训练集基本特征集合及测试集基本特征集合中分别筛选出训练集有效特征集合及测试集有效特征集合;融合模块,用于通过Boosting算法对所筛选出的训练集有效特征集合进行特征融合以得到融合特征分类器;检测模块,用于利用融合特征分类器检测所筛选出的测试集有效特征集合。所述的基于多特征融合的恶意代码检测系统,其中,所述融合模块具体包括:创建子模块,用于针对训练集有效特征集合中的每个有效特征创建一个贝叶斯分类器;训练子模块,用于利用带有恶意代码标签及正常代码标签的训练集训练所创建的贝叶斯分类器;排序子模块,用于将训练后的各个贝叶斯分类器按照正确率从小到大进行排序;融合子模块,用于利用Boosting算法根据所排列次序对训练后的贝叶斯分类器进行二次训练并进行特征融合。所述的基于多特征融合的恶意代码检测系统,其中,所述融合子模块具体包括:训练单元,用于利用Boosting算法根据所排列次序对训练后的贝叶斯分类器进行二次训练并得到各个贝叶斯分类器的权重;融合单元,用于根据所得到的权重融合各个贝叶斯分类器所对应的有效特征。所述的基于多特征融合的恶意代码检测系统,其中,所述筛选模块具体包括:第一筛选子模块,用于通过信息增益的方式由所提取的训练集基本特征集合中筛选出训练集有效特征集合;第二筛选子模块,用于通过信息增益的方式由所提取的测试集基本特征集合中筛选出测试集有效特征集合。所述的基于多特征融合的恶意代码检测系统,其中,所述第一筛选子模块具体包括:计算单元,用于计算所有基本特征的信息增益;筛选单元,用于根据计算结果将所有基本特征按照递减顺序排列,并选取前若干个基本特征作为有效特征。本专利技术所提供的基于多特征融合的恶意代码检测方法,由于采用了提取训练集及测试集特征,并通过信息增益进行训练集特征进行初步筛选,然后利用Boosting算法进行多特征融合以进行测试集样本检测的方式,使得最终得到的融合特征具有更强的鉴别性及鲁棒性,能够更好的分类出恶意代码。附图说明图1是本专利技术中基于多特征融合的恶意代码检测方法的主要流程示意图;图2是本专利技术基于多特征融合的恶意代码检测方法中步骤S100一实施例的N-gram提取示意图;图3是本专利技术中基于多特征融合的恶意代码检测系统的结构示意图。具体实施方式本专利技术提供一种基于多特征融合的恶意代码检测方法及系统,为使本专利技术的目的、技术方案及效果更加清楚、明确,以下参照附图并举实例对本专利技术进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。如图1所示,一种基于多特征融合的恶意代码检测方法,其中,所述基于多特征融合的恶意代码检测方法包括:S100:提取训练集和测试集中代码序列的N-gram及变长N-gram,分别作为训练集基本特征集合及测试集基本特征集合;研究中实际观测或调查的一部分个体称为样本(sample),研究对象的全部称为总体。一般将样本分为独立的三部分:训练集(train set),验证集(va本文档来自技高网...
【技术保护点】
一种基于多特征融合的恶意代码检测方法,其特征在于,所述基于多特征融合的恶意代码检测方法包括:步骤A:提取训练集和测试集中代码序列的N‑gram及变长N‑gram,分别作为训练集基本特征集合及测试集基本特征集合;步骤B:通过信息增益的方式由所提取的训练集基本特征集合及测试集基本特征集合中分别筛选出训练集有效特征集合及测试集有效特征集合;步骤C:通过Boosting算法对所筛选出的训练集有效特征集合进行特征融合以得到融合特征分类器;步骤D:利用融合特征分类器检测所筛选出的测试集有效特征集合。
【技术特征摘要】
1.一种基于多特征融合的恶意代码检测方法,其特征在于,所述基于多特征融合的恶意代码检测方法包括:步骤A:提取训练集和测试集中代码序列的N-gram及变长N-gram,分别作为训练集基本特征集合及测试集基本特征集合;步骤B:通过信息增益的方式由所提取的训练集基本特征集合及测试集基本特征集合中分别筛选出训练集有效特征集合及测试集有效特征集合;步骤C:通过Boosting算法对所筛选出的训练集有效特征集合进行特征融合以得到融合特征分类器;步骤D:利用融合特征分类器检测所筛选出的测试集有效特征集合。2.根据权利要求1所述的基于多特征融合的恶意代码检测方法,其特征在于,所述步骤C具体包括:步骤C1:针对训练集有效特征集合中的每个有效特征创建一个贝叶斯分类器;步骤C2:利用带有恶意代码标签及正常代码标签的训练集训练所创建的贝叶斯分类器;步骤C3:将训练后的各个贝叶斯分类器按照正确率从小到大进行排序;步骤C4:利用Boosting算法根据所排列次序对训练后的贝叶斯分类器进行二次训练并进行特征融合。3.根据权利要求2所述的基于多特征融合的恶意代码检测方法,其特征在于,所述步骤C4具体包括:步骤C41:利用Boosting算法根据所排列次序对训练后的贝叶斯分类器进行二次训练并得到各个贝叶斯分类器的权重;步骤C42:根据所得到的权重融合各个贝叶斯分类器所对应的有效特征。4.根据权利要求1所述的基于多特征融合的恶意代码检测方法,其特征在于,所述步骤B具体包括:步骤B1:通过信息增益的方式由所提取的训练集基本特征集合中筛选出训练集有效特征集合;步骤B2:通过信息增益的方式由所提取的测试集基本特征集合中筛选出测试集有效特征集合。5.根据权利要求4所述的基于多特征融合的恶意代码检测方法,其特征在于,所述步骤B1包括:步骤B11:计算所有基本特征的信息增益;步骤B12:根据计算结果将所有基本特征按照递减顺序排列,并选取前若干个基本特征作为有效特征。6.一种基于多特征融合的恶意代码检测系统,其特...
【专利技术属性】
技术研发人员:杨卫国,范娜娜,何震宇,
申请(专利权)人:康佳集团股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。