本申请提供一种ELF文件的聚类方法、装置、电子设备及计算机可读存储介质,其中,该方法包括:输入原始ELF文件;获取所述原始ELF文件的影像化矩阵和影像化衍生体矩阵;根据所述影像化矩阵和所述影像化衍生体矩阵构建CNN分类模型;将待分类的ELF文件输入所述CNN分类模型,获得分类概率矩阵;根据所述分类概率矩阵获得聚类结果。实施本申请实施例,能够自动进行ELF文件的特征提取,避免了对ELF文件解析、手动提取特征的过程,同时提升模型的拟合能力,实现在没有标签的情况下对ELF文件进行聚类。类。类。
【技术实现步骤摘要】
一种ELF文件的聚类方法、装置、电子设备及存储介质
[0001]本申请涉及文件聚类
,具体而言,涉及一种ELF文件的聚类方法、装置、电子设备及计算机可读存储介质。
技术介绍
[0002]随着互联网的快速发展,可执行与可链接格式(Executable and Linkable Format,ELF)恶意文件数量持续增长,恶意文件的分析研究处于信息安全的主要位置。其中许多新型恶意文件往往是在已有的恶意文件基础上修改而来,因此对恶意文件的家族同源性分析有助于研究恶意文件的演化趋势和溯源。对于待分类的恶意文件由于维度高、结构复杂等特点,直接应用传统聚类算法往往会失效。
[0003]现有技术中存在一种恶意代码家族聚类方法,采用T
‑
SNE算法对特征进行降维可视化,从而确定聚类簇数K,再使用K
‑
means算法进行聚类处理。采用这种方法需要手动进行特征提取,特征表征能力不足,导致模型的鲁棒性差。而且采用的是启发式的迭代方法,通常只能得到局部最优解。而存在另一种基于ELF文件特征的静态检测规则提取方法及检测方法,通过对ELF文件进行解析,分别提取ELF文件中表头的静态化结构属性内容、程序表的静态化结构属性内容、节头表的静态化结构属性内容,再进行特征的精简去除冗余特征,自动化提取特征字典列表中所包含的检测规则。在这种技术中,需要对ELF文件进行解析,在特征筛选时,需要反复的实验确定使用哪些特征,过度的裁剪也会由于特征的表征能力不足,导致模型的鲁棒性差;且在特征简化时,需要手动调整最小支持阈值,需要大量的实验,工作量大。
技术实现思路
[0004]本申请实施例的目的在于提供一种ELF文件的聚类方法、装置、电子设备及计算机可读存储介质,能够自动进行ELF文件的特征提取,避免了对ELF文件解析、手动提取特征的过程,同时提升模型的拟合能力,实现在没有标签的情况下对ELF文件进行聚类。
[0005]近年来,深度学习凭借层次化非线性映射能力使得大规模深度特征提取成为可能,因此基于深度学习的聚类(深度聚类)算法迅速成为无监督学习领域的研究热点,其中用的比较多的就是基于K
‑
means+深度学习,比较普遍的是使用自编码器。
[0006]第一方面,本申请实施例提供了一种ELF文件的聚类方法,所述方法包括:
[0007]输入原始ELF文件;
[0008]获取所述原始ELF文件的影像化矩阵和影像化衍生体矩阵;
[0009]根据所述影像化矩阵和所述影像化衍生体矩阵构建CNN分类模型;
[0010]将待分类的ELF文件输入所述CNN分类模型,获得分类概率矩阵;
[0011]根据所述分类概率矩阵获得聚类结果。
[0012]在上述实现过程中,通过设计双输入卷积神经网络,获取原始ELF文件的影像化矩阵和影像化衍生体矩阵,来实现无监督的聚类。通过CNN分类模型,能够自动进行ELF文件的
特征提取,避免了对ELF文件解析、手动提取特征的过程,同时通过获取影像化衍生体矩阵,能够提升模型的拟合能力,实现在没有标签的情况下对ELF文件进行聚类。
[0013]进一步地,所述根据所述影像化矩阵和所述影像化衍生体矩阵构建CNN分类模型,包括:
[0014]根据初始CNN分类模型分别对所述影像化矩阵和所述影像化衍生体矩阵进行特征分类提取,获得影像化矩阵特征和影像化衍生体矩阵特征;
[0015]获取所述影像化矩阵特征和所述影像化衍生体矩阵特征的特征相似性;
[0016]获取所述影像化矩阵特征和所述影像化衍生体矩阵特征的互信息;
[0017]根据所述特征相似性和所述互信息训练所述初始CNN分类模型,获得所述CNN分类模型。
[0018]在上述实现过程中,为了避免输出的杂乱,使用最大互信息作为目标函数,将特征相似性比对作为参考,拉大在使用互信息进行评价时,缩小类内差距,增大类间差距,可以提升识别能力,解决仅使用互信息而导致识别能力不足的问题。
[0019]进一步地,在所述获取所述影像化矩阵特征和所述影像化衍生体矩阵特征的互信息之后,还包括:
[0020]对所述互信息进行奖惩处理,获得奖惩处理后的互信息。
[0021]在上述使用过程中,通过对互信息进行奖励或者惩罚处理,可以通过预定的奖励策略或惩罚策略对优化目标(互信息)进行处理,可以提高CNN分类模型的性能,提高模型的识别能力。
[0022]进一步地,所述根据特征相似性和互信息训练所述初始CNN分类模型,获得所述CNN分类模型,包括:
[0023]根据所述特征相似性和所述互信息获得综合相似性;
[0024]根据所述综合相似性驱动所述初始CNN分类模型进行训练,获得所述CNN分类模型。
[0025]在上述实现过程中,根据特征相似性和互信息通过双输入卷积神经网络获得综合相似性,进而驱动训练初始CNN分类模型,使得训练后的CNN分类模型可以获得更强的识别能力,提高CNN分类模型的分类准确率。
[0026]进一步地,所述获取所述影像化矩阵特征和所述影像化衍生体矩阵特征的特征相似性,包括:
[0027]分别提取所述影像化矩阵特征的哈希值和所述影像化衍生体矩阵特征的哈希值;
[0028]通过汉明距离获得所述影像化矩阵特征的哈希值和所述影像化衍生体矩阵特征的哈希值之间的特征相似性。
[0029]在上述实现过程中,分别获取影像化矩阵特征的哈希值和影像化衍生体矩阵特征的哈希值,并通过汉明距离的获取方式,可以快速、准确地获取两者之间的特征相似性。
[0030]进一步地,所述获取所述原始ELF文件的影像化矩阵和影像化衍生体矩阵,包括:
[0031]对所述原始ELF文件进行影像化,获得所述影像化矩阵;
[0032]对所述影像化矩阵进行通道分离,获得所述影像化衍生体矩阵。
[0033]在上述实现过程中,由于在样本较少,又没有标签的情况下,很难进行样本的分类,因此对影像化矩阵进行通道分离,获得影像化衍生体矩阵,从而对影像化矩阵进行数据
增强,通过制作高质量的衍生样本,扩充样本集,可以提升分类模型的拟合能力。
[0034]进一步地,在所述输入原始ELF文件之前,还包括:
[0035]设置预置聚类类别区间;
[0036]根据所述预置聚类类别区间确定所述初始CNN分类模型。
[0037]在上述实现过程中,设置灵活的聚类类别区间,可以满足多种分类情况,方便进行分类模型的选择。对于有标签的测试样本可以通过对比分类准确率来评估模型性能,对于没有标签的测试样本,取分类区间得到的所有模型,分别通过计算轮廓系数进行评估,选择系数最大的模型作为最终使用的分类模型,可以提高分类模型的适用性。
[0038]第二方面,本申请实施例还提供一种ELF文件的聚类装置,所述装置包括:
[0039]输入模块,用于输入原始ELF文件;
[0040]矩阵获本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种ELF文件的聚类方法,其特征在于,所述方法包括:输入原始ELF文件;获取所述原始ELF文件的影像化矩阵和影像化衍生体矩阵;根据所述影像化矩阵和所述影像化衍生体矩阵构建CNN分类模型;将待分类的ELF文件输入所述CNN分类模型,获得分类概率矩阵;根据所述分类概率矩阵获得聚类结果。2.根据权利要求1所述的ELF文件的聚类方法,其特征在于,所述根据所述影像化矩阵和所述影像化衍生体矩阵构建CNN分类模型,包括:根据初始CNN分类模型分别对所述影像化矩阵和所述影像化衍生体矩阵进行特征分类提取,获得影像化矩阵特征和影像化衍生体矩阵特征;获取所述影像化矩阵特征和所述影像化衍生体矩阵特征的特征相似性;获取所述影像化矩阵特征和所述影像化衍生体矩阵特征的互信息;根据所述特征相似性和所述互信息训练所述初始CNN分类模型,获得所述CNN分类模型。3.根据权利要求2所述的ELF文件的聚类方法,其特征在于,在所述获取所述影像化矩阵特征和所述影像化衍生体矩阵特征的互信息之后,还包括:对所述互信息进行奖惩处理,获得奖惩处理后的互信息。4.根据权利要求2所述的ELF文件的聚类方法,其特征在于,所述根据特征相似性和互信息训练所述初始CNN分类模型,获得所述CNN分类模型,包括:根据所述特征相似性和所述互信息获得综合相似性;根据所述综合相似性驱动所述初始CNN分类模型进行训练,获得所述CNN分类模型。5.根据权利要求2所述的ELF文件的聚类方法,其特征在于,所述获取所述影像化矩阵特征和所述影像化衍生体矩阵特征的特...
【专利技术属性】
技术研发人员:李海燕,
申请(专利权)人:北京天融信科技有限公司北京天融信软件有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。