一种恶意样本分类方法、装置、电子设备及存储介质制造方法及图纸

技术编号:38826285 阅读:20 留言:0更新日期:2023-09-15 20:05
本申请公开了一种恶意样本分类方法、装置、电子设备及存储介质,用以解决现有的恶意样本分类方法的准确度低的问题。所述恶意样本分类方法,包括:获取待处理恶意样本的通联流量信息,通联流量信息是待处理恶意样本运行过程中流经各个网络节点的数据流量信息;分别从每一待处理恶意样本的通联流量信息中提取各个会话阶段的会话通联信息,基于各个会话阶段的会话通联信息生成对应的会话通联信息序列;根据待处理恶意样本中的每两个待处理恶意样本对应的会话通联信息序列,分别确定每两个待处理恶意样本的相似度;根据每两个待处理恶意样本的相似度对待处理恶意样本进行分类,获得分类结果。分类结果。分类结果。

【技术实现步骤摘要】
一种恶意样本分类方法、装置、电子设备及存储介质


[0001]本申请涉及网络安全
,尤其涉及一种恶意样本分类方法、装置、电子设备及存储介质。

技术介绍

[0002]恶意样本是指恶意软件(或代码),其目的是为了攻击计算机、服务器、客户端、物联网设备、计算机网络或者其他智能设备,或者用于窃取用户信息。恶意样本包括病毒、木马、蠕虫、恶意广告软件(Adware)、恶意安装软件(Installer)、间谍软件(Spyware)以及恶意浏览器插件等。为了便于对恶意样本进行分析,对恶意样本进行分类成为近年来的研究热点之一。
[0003]相关技术中,在对恶意样本进行分类时主要采用静态分析和动态分析两种方式。静态分析是通过获取恶意样本的代码、文件结构等信息,提取恶意样本的特征,这些特征可称为静态特征,基于这些恶意样本的静态特征进行分类,然而,恶意样本的静态特征的提取过程受到诸多制约,难以充分挖掘恶意样本的动态行为特征,并且,由于恶意攻击方式和攻击手段繁多,静态分析方式难以对所有类型的恶意样本建立统一的分类依据。动态分析通过运行恶意样本,分析运行过程中恶意样本的行为来提取特征,这些特征可称为动态特征,基于这些恶意样本的动态特征进行分类,然而,动态分析需要投入大量的时间和计算资源,不适用于大规模数据的分析,并且,由于恶意样本的种类繁多,每个恶意样本的动态特征均不同,因此,使用动态分析方式难以保证对所有恶意样本分类的准确度。

技术实现思路

[0004]为了解决
技术介绍
中的问题,本申请实施例提供了一种恶意样本分类方法及、装置、电子设备及存储介质。
[0005]第一方面,本申请实施例提供了一种恶意样本分类方法,包括:
[0006]获取待处理恶意样本的通联流量信息,所述通联流量信息是所述待处理恶意样本运行过程中流经各个网络节点的数据流量信息;
[0007]分别从每一待处理恶意样本的通联流量信息中提取各个会话阶段的会话通联信息,基于所述各个会话阶段的会话通联信息生成对应的会话通联信息序列;
[0008]根据所述待处理恶意样本中的每两个待处理恶意样本对应的会话通联信息序列,分别确定所述每两个待处理恶意样本的相似度;
[0009]根据所述每两个待处理恶意样本的相似度对所述待处理恶意样本进行分类,获得分类结果。
[0010]在一种可能的实施方式中,分别从每一待处理恶意样本的通联流量信息中提取各个会话阶段的会话通联信息,具体包括:
[0011]针对所述每一待处理恶意样本,根据所述待处理恶意样本对应的五元组信息,确定所述待处理恶意样本的通联流量信息中的各个会话阶段;
[0012]从所述各个会话阶段对应的预设字段中提取所述各个会话阶段的会话信息;
[0013]将所述各个会话阶段的会话信息确定为所述各个会话阶段的会话通联信息。
[0014]在一种可能的实施方式中,根据所述待处理恶意样本中的每两个待处理恶意样本对应的会话通联信息序列,分别确定所述每两个待处理恶意样本的相似度,具体包括:
[0015]针对任意两个待处理恶意样本对应的会话通联信息序列中的相同会话阶段的两个会话通联信息,分别对所述两个会话通联信息进行签名,生成所述两个会话通联信息各自的签名信息;
[0016]根据所述两个会话通联信息的签名信息的相似性确定所述两个会话通联信息的相似度得分;
[0017]根据所述任意两个待处理恶意样本对应的会话通联信息序列中的各个相同会话阶段的两个会话通联信息的相似度得分,确定所述任意两个待处理恶意样本的相似度。
[0018]在一种可能的实施方式中,根据所述两个会话通联信息的签名信息的相似性确定所述两个会话通联信息的相似度得分,具体包括:
[0019]根据所述两个会话通联信息的签名信息之间的相似性,确定所述两个会话通联信息的签名信息的匹配分数,所述匹配分数表征所述两个会话通联信息的相似性匹配程度;
[0020]计算所述两个会话通联信息之间的距离;
[0021]根据所述两个会话通联信息的签名信息的匹配分数和所述两个会话通联信息之间的距离,确定所述两个会话通联信息的相似度得分。
[0022]在一种可能的实施方式中,根据所述任意两个待处理恶意样本对应的会话通联信息序列中的各个相同会话阶段的两个会话通联信息的相似度得分,确定所述任意两个待处理恶意样本的相似度,具体包括:
[0023]根据所述任意两个待处理恶意样本对应的会话通联信息序列中的各个相同会话阶段的两个会话通联信息的相似度得分、预设长度惩罚项以及所述任意两个待处理恶意样本对应的会话通联信息序列的长度,确定所述任意两个待处理恶意样本的相似度。
[0024]在一种可能的实施方式中,分别对所述两个会话通联信息进行签名,生成所述两个会话通联信息各自的签名信息,具体包括:
[0025]针对每一会话通联信息,对所述会话通联信息进行分块,得到会话通联信息块;
[0026]逐个对每一会话通联信息块分别进行哈希计算,得到每一会话通联信息块的哈希值;
[0027]根据所述每一会话通联信息块的哈希值,生成所述会话通联信息的签名信息。
[0028]在一种可能的实施方式中,根据所述两个会话通联信息的签名信息之间的相似性,确定所述两个会话通联信息的签名信息的匹配分数,具体包括:
[0029]分别对所述两个会话通联信息的签名信息进行分块,生成各自对应的签名信息块;
[0030]逐一计算所述两个会话通联信息的签名信息的相同位置的签名信息块之间的加权编辑距离;
[0031]若任意两个签名信息块之间的加权编辑距离小于第一预设阈值,则确定所述任意两个签名信息块相似;
[0032]根据相似的签名信息块对的数量、所述两个会话通联信息的签名信息各自的签名
信息块的数量,确定所述两个会话通联信息的签名信息的匹配分数。
[0033]在一种可能的实施方式中,计算所述两个会话通联信息的距离,具体包括:
[0034]基于N

gram模型计算所述两个会话通联信息之间的N

gram距离;以及
[0035]根据所述两个会话通联信息的签名信息的匹配分数和距离,确定所述两个会话通联信息的相似度得分,具体包括:
[0036]根据所述两个会话通联信息的签名信息的匹配分数和所述两个会话通联信息之间的N

gram距离,确定所述两个会话通联信息的相似度得分。
[0037]在一种可能的实施方式中,根据所述两个会话通联信息的签名信息的匹配分数和所述两个会话通联信息之间的N

gram距离,确定所述两个会话通联信息的相似度得分,具体包括:
[0038]通过以下公式计算所述两个会话通联信息的相似度得分:
[0039][0040]其中,Score表示所述两个会话通联信息的相似度得分;
[0041]match
score
表示所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种恶意样本分类方法,其特征在于,包括:获取待处理恶意样本的通联流量信息,所述通联流量信息是所述待处理恶意样本运行过程中流经各个网络节点的数据流量信息;分别从每一待处理恶意样本的通联流量信息中提取各个会话阶段的会话通联信息,基于所述各个会话阶段的会话通联信息生成对应的会话通联信息序列;根据所述待处理恶意样本中的每两个待处理恶意样本对应的会话通联信息序列,分别确定所述每两个待处理恶意样本的相似度;根据所述每两个待处理恶意样本的相似度对所述待处理恶意样本进行分类,获得分类结果。2.如权利要求1所述的方法,其特征在于,分别从每一待处理恶意样本的通联流量信息中提取各个会话阶段的会话通联信息,具体包括:针对所述每一待处理恶意样本,根据所述待处理恶意样本对应的五元组信息,确定所述待处理恶意样本的通联流量信息中的各个会话阶段;从所述各个会话阶段对应的预设字段中提取所述各个会话阶段的会话信息;将所述各个会话阶段的会话信息确定为所述各个会话阶段的会话通联信息。3.如权利要求1或2所述的方法,其特征在于,根据所述待处理恶意样本中的每两个待处理恶意样本对应的会话通联信息序列,分别确定所述每两个待处理恶意样本的相似度,具体包括:针对任意两个待处理恶意样本对应的会话通联信息序列中的相同会话阶段的两个会话通联信息,分别对所述两个会话通联信息进行签名,生成所述两个会话通联信息各自的签名信息;根据所述两个会话通联信息的签名信息的相似性确定所述两个会话通联信息的相似度得分;根据所述任意两个待处理恶意样本对应的会话通联信息序列中的各个相同会话阶段的两个会话通联信息的相似度得分,确定所述任意两个待处理恶意样本的相似度。4.如权利要求3所述的方法,其特征在于,根据所述两个会话通联信息的签名信息的相似性确定所述两个会话通联信息的相似度得分,具体包括:根据所述两个会话通联信息的签名信息之间的相似性,确定所述两个会话通联信息的签名信息的匹配分数,所述匹配分数表征所述两个会话通联信息的相似性匹配程度;计算所述两个会话通联信息之间的距离;根据所述两个会话通联信息的签名信息的匹配分数和所述两个会话通联信息之间的距离,确定所述两个会话通联信息的相似度得分。5.如权利要求3所述的方法,其特征在于,根据所述任意两个待处理恶意样本对应的会话通联信息序列中的各个相同会话阶段的两个会话通联信息的相似度得分,确定所述任意两个待处理恶意样本的相似度,具体包括:根据所述任意两个待处理恶意样本对应的会话通联信息序列中的各个相同会话阶段的两个会话通联信息的相似度得分、预设长度惩罚项以及所述任意两个待处理恶意样本对应的会话通联信息序列的长度,确定所述任意两个待处理恶意样本的相似度。6.如权利要求3所述的方法,其特征在于,分别对所述两个会话通联信息进行签名,生
成所述两个会话通联信息各自的签名信息,具体包括:针对每一会话通联信息,对所述会话通联信息进行分块,得到会话通联信息块;逐个对每一会话通联信息块分别进行哈希计算,得到每一会话通联信息块的哈希值;根据所述每一会话通联信息块的哈希值,生成所述会话通联信息的签名信息。7.如权利要求4所述的方法,其特征在于,根据所述两个会话通联信息的签名信息之间的相似性,确定所述两个会话通联信息的签名信息的匹配分数,具体包括:分别对所述两个会话通联信息的签名信息进行分块,生成各自对应的签名信息块;逐一计算所述两个会话通联信息的签名信息的相同位置的签名信息块之间的加权编辑距离;若任意两个签名信息块之间的加权编辑距离小于第一预设阈值,则确定所述任意两个签名信息块相...

【专利技术属性】
技术研发人员:何清林何跃鹰罗冰
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1