病毒检测模型训练方法、装置及存储介质制造方法及图纸

技术编号:38016195 阅读:16 留言:0更新日期:2023-06-30 10:41
本申请公开了一种病毒检测模型训练方法、装置及存储介质,涉及计算机领域,用于实现对Mirai病毒的准确检测。该方法包括:获取多个可执行文件,确定多个函数调用图中的第一函数调用图,确定与第一函数的函数符号相似度大于第一阈值的至少一个第二函数;确定至少一个第二函数中,与第一函数的函数符号段相似度最大的第三函数;将第三函数的函数属性信息作为第一函数的属性信息添加到第一函数调用图中,确定第二函数调用图;对比第二函数调用图中的函数信息与病毒数据库中的函数信息,确定第一函数调用图对应的可执行文件是否为病毒文件;若是,则基于第二函数调用图,训练病毒检测模型。本申请的实施例应用于病毒检测的过程中。本申请的实施例应用于病毒检测的过程中。本申请的实施例应用于病毒检测的过程中。

【技术实现步骤摘要】
病毒检测模型训练方法、装置及存储介质


[0001]本申请涉及计算机领域,尤其涉及一种病毒检测模型训练方法、装置及存储介质。

技术介绍

[0002]随着互联网技术的发展,物联网设备开始广泛应用。然而物联网设备的安全防护措施不完善,导致Mirai病毒大量入侵物联网设备。
[0003]Mirai病毒的源代码是开源的,以二进制可执行文件的形式体现,这就导致Mirai病毒容易快速演化,在Mirai病毒演化的过程中,Mirai病毒中的函数名称以及函数的部分符号信息可能会进行删减,从而导致难以准确的检测出Mirai病毒。
[0004]因此,如何准确检测物联网设备中的Mirai病毒,是目前亟需解决的技术问题。

技术实现思路

[0005]本申请提供了病毒检测模型训练方法、装置及存储介质,用于实现对Mirai病毒的准确检测。
[0006]为达到上述目的,本申请采用如下技术方案:
[0007]第一方面,本申请提供了一种病毒检测模型训练方法,包括病毒检测模型训练装置获取多个可执行文件,多个可执行文件中的每个可执行文件包括至少一个函数;病毒检测模型训练装置基于多个可执行文件确定多个函数调用图;一个可执行文件对应一个函数调用图;病毒检测模型训练装置确定多个函数调用图中的第一函数调用图,第一函数调用图为包括缺失函数属性信息的第一函数;病毒检测模型训练装置确定多个可执行文件的多个函数中,与第一函数的函数符号相似度大于第一阈值的至少一个第二函数;病毒检测模型训练装置确定至少一个第二函数中,与第一函数的函数符号段相似度最大的第三函数;函数符号段包括至少一个函数符号;病毒检测模型训练装置将第三函数的函数属性信息作为第一函数的属性信息添加到第一函数调用图中,确定第二函数调用图;病毒检测模型训练装置对比第二函数调用图中的函数信息与病毒数据库中的函数信息,确定第一函数调用图对应的可执行文件是否为病毒文件,若是,则基于第二函数调用图,训练病毒检测模型。
[0008]结合上述第一方面,在一种可能的实现方式中,该方法还包括:病毒检测模型训练装置根据BLAST算法,将第一函数的函数符号与多个可执行文件中的每个函数的函数符号比对,确定第一函数与每个函数的函数符号相似度;函数符号包括:函数符号的类别和函数符号的数量,函数符号的类别与函数符号的数量一一对应;病毒检测模型训练装置从多个可执行文件的多个函数中,选择与第一函数的函数符号相似度大于第一阈值的至少一个第二函数。
[0009]结合上述第一方面,在一种可能的实现方式中,该方法还包括:病毒检测模型训练装置根据Smith

Waterman算法、将第一函数中的函数符号段与至少一个第二函数的函数符号段比对,确定第一函数与每个第二函数的函数符号段相似度;病毒检测模型训练装置从至少一个第二函数中,选择与第一函数的函数符号段相似度最大的第三函数。
[0010]结合上述第一方面,在一种可能的实现方式中,该方法还包括:病毒检测模型训练装置获取M个函数中每个函数被前后项函数调用的次数;病毒检测模型训练装置删除第二函数调用图中被前后项函数调用的次数最少的N个函数,得到第三函数调用图;其中,N小于M,N为正整数;病毒检测模型训练装置基于支持向量机SVM的机器学习,将第三函数调用图中的函数输入到初始网络模型中进行训练,确定病毒检测模型。
[0011]第二方面,本申请实施例提供了一种病毒检测模型训练装置,该装置包括:获取单元,用于获取多个可执行文件,多个可执行文件中的每个可执行文件包括至少一个函数;处理单元,用于基于多个可执行文件确定多个函数调用图;一个可执行文件对应一个函数调用图;处理单元,还用于确定多个函数调用图中的第一函数调用图,第一函数调用图为包括缺失函数属性信息的第一函数;处理单元,还用于确定多个可执行文件的多个函数中,与第一函数的函数符号相似度大于第一阈值的至少一个第二函数;处理单元,还用于确定至少一个第二函数中,与第一函数的函数符号段相似度最大的第三函数;函数符号段包括至少一个函数符号;处理单元,还用于将第三函数的函数属性信息作为第一函数的属性信息添加到第一函数调用图中,确定第二函数调用图;处理单元,还用于对比第二函数调用图中的函数信息与病毒数据库中的函数信息,确定第一函数调用图对应的可执行文件是否为病毒文件,处理单元,还用于若是,则基于第二函数调用图,训练病毒检测模型。
[0012]结合上述第二方面,在一种可能的实现方式中,处理单元,还用于:根据BLAST算法,将第一函数的函数符号与多个可执行文件中的每个函数的函数符号比对,确定第一函数与每个函数的函数符号相似度;函数符号包括:函数符号的类别和函数符号的数量,函数符号的类别与函数符号的数量一一对应;从多个可执行文件的多个函数中,选择与第一函数的函数符号相似度大于第一阈值的至少一个第二函数。
[0013]结合上述第二方面,在一种可能的实现方式中,处理单元,还用于:根据Smith

Waterman算法、将第一函数中的函数符号段与至少一个第二函数的函数符号段比对,确定第一函数与每个第二函数的函数符号段相似度;从至少一个第二函数中,选择与第一函数的函数符号段相似度最大的第三函数。
[0014]结合上述第二方面,在一种可能的实现方式中,第二函数调用图中包括M个函数,M为正整数;获取单元,还用于:获取M个函数中每个函数被前后项函数调用的次数;处理单元,还用于:删除第二函数调用图中被前后项函数调用的次数最少的N个函数,得到第三函数调用图;其中,N小于M,N为正整数;基于支持向量机SVM的机器学习,将第三函数调用图中的函数输入到初始网络模型中进行训练,确定病毒检测模型。
[0015]第三方面,本申请实施例提供了一种病毒检测模型训练装置,该病毒检测模型训练装置包括:处理器以及存储器;其中,存储器用于存储计算机执行指令,当病毒检测模型训练装置运行时,处理器执行存储器存储的计算机执行指令,以使病毒检测模型训练装置执行如第一方面任一种可能的实现方式中描述的病毒检测模型训练方法。
[0016]第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当计算机可读存储介质中的指令由病毒检测模型训练装置的处理器执行时,使得病毒检测模型训练装置能够执行如第一方面任一种可能的实现方式中描述的病毒检测模型训练方法。
[0017]本申请的这些方面或其他方面在以下的描述中会更加简明易懂。
[0018]上述方案至少带来以下有益效果:由于本申请实施例中,现有技术中,在Mirai病毒演化的过程中,Mirai病毒中的函数名称以及函数的部分符号信息通常会被删减,得到一些缺失函数属性信息的函数,从而使得病毒检测软件未能及时准确地检测出Mirai病毒。相比于现有技术,本申请实施例中首先,由于Mirai病毒中的函数可能缺失函数属性信息的函数,因此,病毒检测模型训练装置从可执行文件生成的函数调用图中,确定缺失函数属性信息的第一函数,并验证第一函数对应的可执行文件是否为病毒文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种病毒检测模型训练方法,其特征在于,所述方法包括:获取多个可执行文件,所述多个可执行文件中的每个可执行文件包括至少一个函数;基于所述多个可执行文件确定多个函数调用图;一个可执行文件对应一个函数调用图;确定所述多个函数调用图中的第一函数调用图,所述第一函数调用图为包括缺失函数属性信息的第一函数;确定所述多个可执行文件的多个函数中,与所述第一函数的函数符号相似度大于第一阈值的至少一个第二函数;确定所述至少一个第二函数中,与所述第一函数的函数符号段相似度最大的第三函数;所述函数符号段包括至少一个函数符号;将所述第三函数的函数属性信息作为所述第一函数的属性信息添加到所述第一函数调用图中,确定第二函数调用图;对比所述第二函数调用图中的函数信息与病毒数据库中的函数信息,确定所述第一函数调用图对应的可执行文件是否为病毒文件;若是,则基于所述第二函数调用图,训练病毒检测模型。2.根据权利要求1所述的方法,其特征在于,所述确定所述多个可执行文件的多个函数中,与所述第一函数的函数符号相似度大于第一阈值的至少一个第二函数,包括:根据BLAST算法,将所述第一函数的函数符号与所述多个可执行文件中的每个函数的函数符号比对,确定所述第一函数与所述每个函数的函数符号相似度;所述函数符号包括:所述函数符号的类别和所述函数符号的数量,所述函数符号的类别与所述函数符号的数量一一对应;从所述多个可执行文件的多个函数中,选择与所述第一函数的函数符号相似度大于所述第一阈值的所述至少一个第二函数。3.根据权利要求2所述的方法,其特征在于,所述确定所述至少一个第二函数中,与所述第一函数的函数符号段相似度最大的第三函数,包括:根据Smith

Waterman算法、将所述第一函数中的函数符号段与所述至少一个第二函数的函数符号段比对,确定所述第一函数与所述每个第二函数的函数符号段相似度;从所述至少一个第二函数中,选择与所述第一函数的函数符号段相似度最大的所述第三函数。4.根据权利要求1

3任一项所述的方法,其特征在于,所述第二函数调用图中包括M个函数,所述M为正整数;所述基于所述第二函数调用图,训练病毒检测模型,包括:获取所述M个函数中每个函数被前后项函数调用的次数;删除所述第二函数调用图中被前后项函数调用的次数最少的N个函数,得到第三函数调用图;其中,N小于M,所述N为正整数;基于支持向量机SVM的机器学习,将所述第三函数调用图中的函数输入到初始网络模型中进行训练,确定所述病毒检测模型。5.一种病毒检测模型训练装置,其特征在于,所述装置包括:获取单元和处理单元:所述获取单元,用于获取多个可执行文件,所述多个可执行文件中的每个可执行文件
包括至少一个函数;所述处理单元,用于基于所述多个可执行文件确定多个函数调用图;一个可执行文件对应一个函数调用图;所述处理...

【专利技术属性】
技术研发人员:王绪国鲍迪胡越
申请(专利权)人:亚信科技成都有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1