一种ELF文件的聚类方法、装置、电子设备及存储介质制造方法及图纸

技术编号：35217440 阅读：26 留言：0更新日期：2022-10-15 10:33

本申请提供一种ELF文件的聚类方法、装置、电子设备及计算机可读存储介质，其中，该方法包括：输入原始ELF文件；获取所述原始ELF文件的影像化矩阵和影像化衍生体矩阵；根据所述影像化矩阵和所述影像化衍生体矩阵构建CNN分类模型；将待分类的ELF文件输入所述CNN分类模型，获得分类概率矩阵；根据所述分类概率矩阵获得聚类结果。实施本申请实施例，能够自动进行ELF文件的特征提取，避免了对ELF文件解析、手动提取特征的过程，同时提升模型的拟合能力，实现在没有标签的情况下对ELF文件进行聚类。类。类。

全部详细技术资料下载

【技术实现步骤摘要】
一种ELF文件的聚类方法、装置、电子设备及存储介质

[0001]本申请涉及文件聚类
，具体而言，涉及一种ELF文件的聚类方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]随着互联网的快速发展，可执行与可链接格式(Executable and Linkable Format，ELF)恶意文件数量持续增长，恶意文件的分析研究处于信息安全的主要位置。其中许多新型恶意文件往往是在已有的恶意文件基础上修改而来，因此对恶意文件的家族同源性分析有助于研究恶意文件的演化趋势和溯源。对于待分类的恶意文件由于维度高、结构复杂等特点，直接应用传统聚类算法往往会失效。
[0003]现有技术中存在一种恶意代码家族聚类方法，采用T
‑
SNE算法对特征进行降维可视化，从而确定聚类簇数K，再使用K
‑
means算法进行聚类处理。采用这种方法需要手动进行特征提取，特征表征能力不足，导致模型的鲁棒性差。而且采用的是启发式的迭代方法，通常只能得到局部最优解。而存在另一种基于ELF文件特征的静态检测规则提取方法及检测方法，通过对ELF文件进行解析，分别提取ELF文件中表头的静态化结构属性内容、程序表的静态化结构属性内容、节头表的静态化结构属性内容，再进行特征的精简去除冗余特征，自动化提取特征字典列表中所包含的检测规则。在这种技术中，需要对ELF文件进行解析，在特征筛选时，需要反复的实验确定使用哪些特征，过度的裁剪也会由于特征的表征能力不足，导致模型的鲁棒性差；且在特征简化时，需要手动调整最小...

【技术保护点】

【技术特征摘要】
1.一种ELF文件的聚类方法，其特征在于，所述方法包括：输入原始ELF文件；获取所述原始ELF文件的影像化矩阵和影像化衍生体矩阵；根据所述影像化矩阵和所述影像化衍生体矩阵构建CNN分类模型；将待分类的ELF文件输入所述CNN分类模型，获得分类概率矩阵；根据所述分类概率矩阵获得聚类结果。2.根据权利要求1所述的ELF文件的聚类方法，其特征在于，所述根据所述影像化矩阵和所述影像化衍生体矩阵构建CNN分类模型，包括：根据初始CNN分类模型分别对所述影像化矩阵和所述影像化衍生体矩阵进行特征分类提取，获得影像化矩阵特征和影像化衍生体矩阵特征；获取所述影像化矩阵特征和所述影像化衍生体矩阵特征的特征相似性；获取所述影像化矩阵特征和所述影像化衍生体矩阵特征的互信息；根据所述特征相似性和所述互信息训练所述初始CNN分类模型，获得所述CNN分类模型。3.根据权利要求2所述的ELF文件的聚类方法，其特征在于，在所述获取所述影像化矩阵特征和所述影像化衍生体矩阵特征的互信息之后，还包括：对所述互信息进行奖惩处理，获得奖惩处理后的互信息。4.根据权利要求2所述的ELF文件的聚类方法，其特征在于，所述根据特征相似性和互信息训练所述初始CNN分类模型，获得所述CNN分类模型，包括：根据所述特征相似性和所述互信息获得综合相似性；根据所述综合相似性驱动所述初始CNN分类模型进行训练，获得所述CNN分类模型。5.根据权利要求2所述的ELF文件的聚类方法，其特征在于，所述获取所述影像化矩阵特征和所述影像化衍生体矩阵特征的特...

【专利技术属性】
技术研发人员：李海燕，
申请(专利权)人：北京天融信科技有限公司北京天融信软件有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人