一种基于深度学习的恶意软件分类方法技术

技术编号：43681590 阅读：38 留言：0更新日期：2024-12-18 21:03

本发明专利技术公开了一种基于深度学习的恶意软件分类方法，属于网络安全技术领域，该方法包括如下步骤：对待识别软件的字节文件进行图形化处理，生成字节特征图像；提取待识别软件的操作码序列特征；将字节特征图像和操作码序列特征进行融合，获得特征融合序列；根据特征融合序列，对待识别软件进行分类。该方法从.bytes文件中提取灰度图像纹理特征，从.asm文件中提取N‑grams操作数子序列特征，通过将二维图像和一维序列特征进行融合，融合生成的特征融合序列可以从两个不同角度表示待识别软件的特征，从而对恶意软件/代码的识别的检测精度，对恶意软件的分类准确度更高。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数据网络安全，尤其是涉及一种基于深度学习的恶意软件分类方法。

技术介绍

1、恶意代码是指由人类设计的、以某种方式执行恶意操作或攻击行为的代码。常见的恶意代码包括木马、蠕虫和计算机病毒。恶意代码对用户的日常生活和社会生产造成了严重影响，也可能威胁到网络安全，需要加强对恶意代码的检测和打击力度，降低其带来的威胁和风险。

2、恶意代码分类技术旨在根据恶意代码的共同特征和行为，将恶意代码样本分为不同的系列或类别。这种分类有助于研究人员更好地了解恶意代码的来源、演变过程和传播方式，并为安全研究人员提供指导，帮助他们针对特定的威胁系列制定防御措施。家族分类技术通常使用机器学习和数据挖掘等方法从恶意代码样本中提取特征，并使用这些特征进行分类和聚类分析。

3、传统的恶意代码分类方法基于特征码匹配的思想，需要人工手动提取恶意代码的特征码并与已知特征码进行比对。然而，随着技术的变革，恶意代码的作者为了使恶意代码逃避检测手段，还会对恶意代码进行混淆、加壳等反检测操作，从而产生恶意代码的变种，而且这一过程往往是自动化的，更新速度极快。显然，面对复杂且更新速度极快的恶意代码，传统的检测手段已经无法应对。

技术实现思路

1、本专利技术要解决的技术问题是克服以上困难，通过执行深度学习的恶意代码分类算法，高效、准确地识别恶意代码及其变种的所属，从而采取有针对性的措施。

2、为实现上述目的，本专利技术提供一种基于深度学习的恶意软件分类方法，技术方案如下：

>3、一种基于深度学习的恶意软件分类方法，包括如下步骤：

4、步骤s1：对待识别软件的字节文件，进行图形化处理，生成字节特征图像；

5、基于待识别软件的汇编语言文件，提取汇编语言文件的操作码序列特征；

6、步骤s2：将字节特征图像和操作码序列特征进行融合，获得特征融合序列；

7、步骤s3：对特征融合序列进行分类，得到待识别软件的分类结果。

8、进一步的，步骤s1中，字节文件图形化处理的过程，具体为：把灰度图像的像素点转换成二维矩阵。

9、进一步的，把灰度图像的像素点转换成二维矩阵的过程为：以字节文件为输入，将字节文件中的二进制序列切割成8位子序列，每个子序列转换成数值范围为[0,255]的十进制数，并将形成的一维十进制数组转换成二维数组。

10、进一步的，将字节文件中的二进制序列切割成8位子序列的过程中，采用按行读取并舍弃前八位数字的策略进行起始地址的切割。

11、进一步的，步骤s1中还包括对字节特征图像大小进行归一化处理，将字节特征图像调整为预设大小。

12、进一步的，图像大小归一化处理的方法为双线性插值法。

13、进一步的，步骤s1中，使用n-grams方法来提取待识别软件的汇编语言文件的操作码序列特征，将操作码序列的文本分割成连续的n个项。

14、进一步的，步骤s2包括：

15、步骤s201：提取字节特征图像中的多尺度第一图像特征，将第一图像特征输入基于特征融合的压缩激励网络模型(ffse模型)，第一图像特征上不同尺度的局部特征和全局特征相互经过一次特征融合后得到第二图像特征，将第二图像特征拉伸为第一特征序列，对第一特征序列进行裁剪，得到第二特征序列，第二特征序列为空间特征；

16、步骤s202：将第二特征序列与操作码序列特征输入双向时间卷积网络模型(bitcn模型)进行融合，获得特征融合序列，操作码序列特征为语义特征，特征融合序列同时具有空间特征和语义特征。

17、进一步的，ffse模型包括多尺度图像特征融合模块(ff)与通道注意力模块(se)。

18、进一步的，多尺度图像特征融合模块包括多个crb模块。

19、进一步的，每个crb模块包括依次连接的conv2d卷积层、relu激活函数和bn层，

20、conv2d卷积层通过卷积操作对输入特征进行空间上的信息提取，通过选取不同卷积核大小，获得图像的多尺度特征；

21、relu激活函数层用于引入非线性变换，增强特征的表达能力；

22、bn层用于对卷积层的输出进行批量归一化，以加速训练过程并提高模型的稳定性。

23、进一步的，通道注意力模块实现通道注意力机制包括压缩和激励两个阶段；

24、在压缩阶段通过全局平均池化操作，将每个通道的特征图压缩为一个标量值，来捕捉通道的全局信息；在激励阶段，使用前馈神经网络，通过学习非线性函数生成每个通道激励权重，每个通道的激励权重与该通道在压缩阶段得到的标量值进行相乘，生成该通道的加权特征表示。

25、进一步的，通道注意力模块自适应地学习每个通道的激励权重。

26、进一步的，bitcn模型包括第一tcn模块、第二tcn模块、crd模块、池化层和全连接层；其中：

27、第一tcn模块、第二tcn模块相互并联，二者均为时间卷积网络；

28、crd模块连接在第一tcn模块、第二tcn模块的后端，crd模块包括一维卷积(conv1d)、relu激活函数和dropout层；

29、crd模块、池化层和全连接层依次连接。

30、进一步的，特征融合序列以正向方式输入到第一tcn模块，得到第一特征融合序列；以反向方式输入到第二tcn模块，得到第二特征融合序列；第一特征融合序列、第二特征融合序列再与特征融合序列自身进行特征融合，得到二次融合后的特征融合序列；

31、二次融合后的特征融合序列通过crd模块进行池化和拉伸降维操作。

32、进一步的，第一tcn模块、第二tcn模块均包括若干的因果膨胀卷积层(tb)。

33、进一步的，因果膨胀卷积层(tb)数量为4。

34、进一步的，每个因果膨胀卷积层均包括两层wccrd层，两层wccrd层之间引入残差连接。

35、进一步的，wccrd层包括依次连接的正则化模块、一维卷积(conv1d)、裁剪模块、relu激活函数和dropout层。

36、进一步的，所述步骤s3中，对特征融合序列进行分类是通过全连接结构进行的，全连接结构包括依次连接的第一全连接层、第一relu激活函数、第一dropout层、第二全连接层、第二relu激活函数、第二dropout层、第三全连接层。

37、进一步的，第一dropout层设置第一丢弃值、第二dropout层设置第二丢弃值。

38、与现有技术相比，本专利技术具有以下有益效果：

39、1.本专利技术基于待识别软件反汇编生成的.bytes文件和.asm文件，从.bytes文件中提取灰度图像纹理特征，从.asm文件中提取n-grams操作数子序列特征，通过将二维图像和一维序列特征进行融合，融合生成的特征融合序列可以从两个不同角度表示待识别软件的特征，从而对恶意软件/代码的识别的检测精度，对恶意软件本文档来自技高网...

【技术保护点】

1.一种基于深度学习的恶意软件分类方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于深度学习的恶意软件分类方法，其特征在于：把灰度图像的像素点转换成二维矩阵的过程为：以字节文件为输入，将字节文件中的二进制序列切割成8位子序列，每个子序列转换成数值范围为[0,255]的十进制数，并将形成的一维十进制数组转换成二维数组。

3.如权利要求2所述的基于深度学习的恶意软件分类方法，其特征在于：将字节文件中的二进制序列切割成8位子序列的过程中，采用按行读取并舍弃前八位数字的策略进行起始地址的切割。

4.如权利要求1所述的基于深度学习的恶意软件分类方法，其特征在于：基于特征融合的压缩激励网络模型包括多尺度图像特征融合模块与通道注意力模块，多尺度图像特征融合模块包括多个CRB模块，每个CRB模块包括依次连接的Conv2d卷积层、ReLU激活函数和BN层，

5.如权利要求4所述的基于深度学习的恶意软件分类方法，其特征在于：通道注意力模块自适应地学习每个通道的激励权重，通道注意力模块实现通道注意力机制包括压缩和激励两个阶段；

7.如权利要求6所述的基于深度学习的恶意软件分类方法，其特征在于：特征融合序列以正向方式输入到第一TCN模块，得到第一特征融合序列；以反向方式输入到第二TCN模块，得到第二特征融合序列；第一特征融合序列、第二特征融合序列再与特征融合序列自身进行特征融合，得到二次融合后的特征融合序列；

8.如权利要求7所述的基于深度学习的恶意软件分类方法，其特征在于，第一TCN模块、第二TCN模块均包括若干的因果膨胀卷积层。

9.如权利要求8所述的基于深度学习的恶意软件分类方法，其特征在于，每个因果膨胀卷积层均包括两层WCCRD层，两层WCCRD层之间引入残差连接。

10.如权利要求9所述的基于深度学习的恶意软件分类方法，其特征在于，WCCRD层包括依次连接的正则化模块、一维卷积、裁剪模块、ReLU激活函数和Dropout层。

...

【技术特征摘要】

1.一种基于深度学习的恶意软件分类方法，其特征在于，包括如下步骤：

4.如权利要求1所述的基于深度学习的恶意软件分类方法，其特征在于：基于特征融合的压缩激励网络模型包括多尺度图像特征融合模块与通道注意力模块，多尺度图像特征融合模块包括多个crb模块，每个crb模块包括依次连接的conv2d卷积层、relu激活函数和bn层，

5.如权利要求4所述的基于深度学习的恶意软件分类方法，其特征在于：通道注意力模块自适应地学习每个通道的激励权重，通道注意力模块实现通道注意力机制包括压...

【专利技术属性】
技术研发人员：赵金雄，白静，赵博，白万荣，杨岚，付娟，
申请(专利权)人：国网甘肃省电力公司电力科学研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人