文件特征提取范围配置及静态恶意软件识别的方法、系统技术方案

技术编号:31889552 阅读:22 留言:0更新日期:2022-01-15 12:15
一种文件特征提取范围配置及静态恶意软件识别的方法、系统,根据预设的n个不同扫描范围的候选配置对m个样本文件进行特征提取,以得到针对m个样本文件中每个样本文件的n类特征向量,n≥2,m≥2,n和m为正整数。基于机器学习模型对m个样本文件的同一个候选配置对应的特征向量进行训练,以得到n个用于判定待识别文件是否为恶意文件的判别模型。基于相同的评价指标对n个判别模型进行评价,以得到n个归一化的效果指标值。根据预设的n个扫描范围的候选配置确定n个归一化的IO指标值。根据每个候选配置的IO指标值和效果指标值确定n个扫描范围的候选配置中的最优化配置,最优化配置为待识别文件用于进行特征提取的扫描范围配置。识别文件用于进行特征提取的扫描范围配置。识别文件用于进行特征提取的扫描范围配置。

【技术实现步骤摘要】
文件特征提取范围配置及静态恶意软件识别的方法、系统


[0001]本公开涉及人工智能
,更具体地,涉及一种文件特征提取范围配置及静态恶意软件识别的方法、系统。

技术介绍

[0002]恶意软件是对破坏系统正常运行的软件的统称,恶意软件同时具备正常功能和恶意行为,恶意软件例如含有病毒、木马程序,或者具有其他恶意行为,诸如为:未经用户允许的广告行为、在用户不知情的情况下开启后门的行为、对用户的浏览器进行篡改的行为、采用非法手段强制捆绑的共享软件行为等,给用户带来实质危害。
[0003]在实现本公开构思的过程中,专利技术人发现现有技术中至少存在如下问题:现有的机器学习模型在进行恶意软件识别时,需要先将待识别文件提取出特征向量,然后输入至机器学习模型中进行判别。通常可执行文件,例如软件,具有文件头和若干个节的结构,在进行特征提取时,无法实现特征提取和模型识别结果之间的权衡。有的研究只使用文件头的信息生成特征向量,这种方式虽然具有读取速度快的优点,但是由于丢弃了文件主体的全部信息,提升了误报和漏报的风险,所以在实际应用中不常使用;有的研究是使用文件全部内容生成向量,这种方式虽然具有文件信息损失小,有利于提高模型预测的准确度的优点,但是由于需要扫描文件的全部内容,读取量与文件大小成正比,对于超多、超大文件来说,处理速度慢,严重影响用户体验;有的研究采用头文件和人工制定规则来选取节的部分片段以进行特征提取,但是上述方式需要领域专家总结并量化经验,基于人工的方式事先设定好各个节的扫描范围,难度大,且后续维护或者更新这些规则的成本很大,灵活性较差。

技术实现思路

[0004]有鉴于此,本公开提供了一种文件特征提取范围配置及静态恶意软件识别的方法、系统。
[0005]本公开的第一个方面提供了一种用于静态恶意软件识别的文件特征提取范围配置的方法。上述方法包括:根据预设的n个不同扫描范围的候选配置对训练集中的m个样本文件进行特征提取,以得到针对m个样本文件中每个样本文件的n类特征向量,n≥2,m≥2,n和m为正整数。上述方法还包括:基于机器学习模型对m个样本文件的同一个候选配置对应的特征向量进行训练,以得到n个用于判定待识别文件是否为恶意文件的判别模型。上述方法还包括:基于相同的评价指标对n个判别模型进行评价,以得到n个归一化的效果指标值。上述方法还包括:根据预设的n个扫描范围的候选配置确定n个归一化的IO指标值。上述方法还包括:根据每个候选配置的IO指标值和效果指标值确定n个扫描范围的候选配置中的最优化配置,最优化配置为待识别文件用于进行特征提取的扫描范围配置。
[0006]根据本公开的实施例,n个扫描范围的候选配置中,每个扫描范围的候选配置包括:节头部扫描范围和节尾部扫描范围。根据预设的n个扫描范围的候选配置确定n个归一
化的IO指标值包括:将每个候选配置的节头部扫描范围和节尾部扫描范围相加得到每个候选配置的绝对IO指标值。根据预设的n个扫描范围的候选配置确定n个归一化的IO指标值还包括:确定n个候选配置的绝对IO指标值中的最大值、最小值以及最大值与最小值之间的极差。根据预设的n个扫描范围的候选配置确定n个归一化的IO指标值还包括:根据最大值和每个候选配置的绝对IO指标值的差值与极差的比值得到每个候选配置归一化的IO指标值。
[0007]根据本公开的实施例,根据预设的n个扫描范围的候选配置确定n个归一化的IO指标值,包括:将每个候选配置的节头部扫描范围和节尾部扫描范围相加得到每个候选配置的绝对IO指标值;以及根据第一预设值和每个候选配置的绝对IO指标值的差值与所述第一预设值的比值得到每个候选配置归一化的IO指标值。其中,第一预设值大于等于样本文件的最大扫描范围。
[0008]根据本公开的实施例,根据每个候选配置的IO指标值和效果指标值确定n个扫描范围的候选配置中的最优化配置,包括:将每个候选配置的IO指标值与效果指标值进行融合,以得到综合效果指标值;以及根据综合效果指标值的大小确定综合效果指标值最大的候选配置为n个扫描范围的候选配置中的最优化配置。
[0009]根据本公开的实施例,融合的方法包括以下一种:将IO指标值与效果指标值进行加权平均计算,或者,将IO指标值与效果指标值进行算术平均计算,或者,将IO指标值与效果指标值进行调和平均数计算。
[0010]根据本公开的实施例,基于机器学习模型对m个样本文件的同一个候选配置对应的特征向量进行训练,以得到n个用于判定待识别文件是否为恶意文件的判别模型,包括:将第1个样本文件~第m个样本文件的第j类特征向量输入至机器学习模型中进行训练,机器学习模型的输出为:所输入的样本文件是否为恶意文件的结果,训练标签为样本文件是否为恶意文件的真实情况,其中j的取值遍历1~n中的每一个,针对j为不同取值的训练过程,保证训练程度相当,以得到n个用于判定待识别文件是否为恶意文件的判别模型。
[0011]本公开的第二个方面提供了一种静态恶意软件识别的方法。上述静态恶意软件识别的方法包括:基于最优化配置对待识别文件进行特征提取,以得到待识别文件的特征向量;最优化配置采用如上所述的任一种文件特征提取范围配置方法获得。上述静态恶意软件识别的方法还包括:将待识别文件的特征向量输入至最优化判别模型进行识别,以得到待识别文件是否为恶意文件的结果;其中,最优化判别模型为最优化配置对应的判别模型。
[0012]本公开的第三个方面提供了一种用于静态恶意软件识别的文件特征提取范围配置系统。上述系统包括:特征提取模块、判别模型构建模块、效果指标值确定模块、IO指标值确定模块以及特征提取范围确定模块。特征提取模块用于根据预设的n个不同扫描范围的候选配置对训练集中的m个样本文件进行特征提取,以得到针对m个样本文件中每个样本文件的n类特征向量,n≥2,m≥2,n和m为正整数。判别模型构建模块用于基于机器学习模型对m个样本文件的同一个候选配置对应的特征向量进行训练,以得到n个用于判定待识别文件是否为恶意文件的判别模型。效果指标值确定模块用于基于相同的评价指标对n个判别模型进行评价,以得到n个归一化的效果指标值。IO指标值确定模块,用于根据预设的n个扫描范围的候选配置确定n个归一化的IO指标值。特征提取范围确定模块用于根据每个候选配置的IO指标值和效果指标值确定n个扫描范围的候选配置中的最优化配置,最优化配置为待识别文件用于进行特征提取的扫描范围配置。
[0013]本公开的第四个方面提供了一种静态恶意软件识别的系统。上述系统包括:第一特征提取模块、判别模型构建模块、效果指标值确定模块、IO指标值确定模块、特征提取范围确定模块、第二特征提取模块以及文件识别模块。第一特征提取模块用于根据预设的n个不同扫描范围的候选配置对训练集中的m个样本文件进行特征提取,以得到针对m个样本文件中每个样本文件的n类特征向量,n≥2,m≥2,n和m为正整数。判别模型构建模块用于基于机器学习模型对m个样本文件的同一个候选配置对应的特征向量进行训练,以得到n个用于判定待识别文件是否为恶意文件的判别模型。效本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于静态恶意软件识别的文件特征提取范围配置的方法,其特征在于,包括:根据预设的n个不同扫描范围的候选配置对训练集中的m个样本文件进行特征提取,以得到针对m个样本文件中每个样本文件的n类特征向量,n≥2,m≥2,n和m为正整数;基于机器学习模型对m个样本文件的同一个候选配置对应的特征向量进行训练,以得到n个用于判定待识别文件是否为恶意文件的判别模型;基于相同的评价指标对n个判别模型进行评价,以得到n个归一化的效果指标值;根据预设的n个扫描范围的候选配置确定n个归一化的IO指标值;以及根据每个候选配置的IO指标值和效果指标值确定n个扫描范围的候选配置中的最优化配置,所述最优化配置为待识别文件用于进行特征提取的扫描范围配置。2.根据权利要求1所述的方法,其特征在于,所述n个扫描范围的候选配置中,每个扫描范围的候选配置包括:节头部扫描范围和节尾部扫描范围;所述根据预设的n个扫描范围的候选配置确定n个归一化的IO指标值,包括:将每个候选配置的节头部扫描范围和节尾部扫描范围相加得到每个候选配置的绝对IO指标值;确定n个候选配置的绝对IO指标值中的最大值、最小值以及最大值与最小值之间的极差;以及根据所述最大值和每个候选配置的绝对IO指标值的差值与所述极差的比值得到每个候选配置归一化的IO指标值。3.根据权利要求1所述的方法,其特征在于,所述n个扫描范围的候选配置中,每个扫描范围的候选配置包括:节头部扫描范围和节尾部扫描范围;所述根据预设的n个扫描范围的候选配置确定n个归一化的IO指标值,包括:将每个候选配置的节头部扫描范围和节尾部扫描范围相加得到每个候选配置的绝对IO指标值;以及根据第一预设值和每个候选配置的绝对IO指标值的差值与所述第一预设值的比值得到每个候选配置归一化的IO指标值;其中,第一预设值大于等于样本文件的最大扫描范围。4.根据权利要求1所述的方法,其特征在于,所述根据每个候选配置的IO指标值和效果指标值确定n个扫描范围的候选配置中的最优化配置,包括:将每个候选配置的IO指标值与效果指标值进行融合,以得到综合效果指标值;以及根据综合效果指标值的大小确定综合效果指标值最大的候选配置为n个扫描范围的候选配置中的最优化配置。5.根据权利要求4所述的方法,其特征在于,其中,所述融合的方法包括以下一种:将所述IO指标值与效果指标值进行加权平均计算,或者,将所述IO指标值与效果指标值进行算术平均计算,或者,将所述IO指标值与效果指标值进行调和平均数计算。6.根据权利要求1所述的方法,其特征在于,基于机器学习模型对m个样本文件的同一个候选配置对应的特征向量进行训练,以得到n个用于判定待识别文件是否为恶意文件的判别模型,包括:将第1个样本文件~第m个样本文件的第j类特征向量输入至机器学习模型中进行训练,机器学习模型的输出为:所输入的样本文件是否为恶意文件的结果,训练标签为样本文件是否为恶意文件的真实情况,其中j的取值遍历1~n中的每一个,针对j为不同取值的训
练过程,保证训练程度相当,以得到n个用于判定待...

【专利技术属性】
技术研发人员:赵毅强王志刚刘恒齐向东吴云坤
申请(专利权)人:奇安信科技集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1