本发明专利技术公开了一种文件类型的确定方法和装置,该方法包括:提取待确定的文件的属性特征信息;将提取的属性特征信息与规则集中预先保存的每个类型的文件所对应的属性特征信息进行比较;将规则集中与待确定的文件的属性特征信息相符合的属性特征信息所对应的类型确定为待确定的文件的类型。本发明专利技术通过提取待确定的文件的属性特征信息,将其与预先保存有每个类型的文件所对应的属性特征信息的规则集进行比较,并将规则集中与待确定的文件的属性特征信息相符合的属性特征信息所对应的类型确定为待确定的文件的类型,能够根据待确定文件的属性特征信息确定文件的类型。
【技术实现步骤摘要】
本专利技术涉及计算机领域,并且特别地,涉及一种文件类型的确定方法和装置。
技术介绍
近年来,全球范围内的恶意程序数量呈几何级增长,基于这种爆发式的增速,用于查杀恶意程序的特征库的生成与更新往往是存在滞后性,也就是说,特征库中恶意程序的特征码的补充无法跟上层出不穷的未知恶意程序。随着恶意程序制作者对免杀技术的应用,通过对恶意程序加壳或修改该恶意程序的特征码的手法已经出现;另外,目前的许多木马程序采用了更多以及更频繁快速的自动变形。因此,上述对恶意程序的处理,都会导致通过恶意行为和/或恶意特征对恶意程序进行判定的难度越来越大,从而增大对恶意程序进行查杀或清理的难度。可移植的执行体(Portable Execute,简称为PE)文件是一种常见的文件,例如,EXE、DLL、OCX、SYS、COM都是PE文件,PE文件是微软Windows操作系统上的程序文件(可能是间接被执行的,如DLL)对于传统杀毒软件,在对文件进行扫描时,其仅仅提取病毒特征,无法提正常文件的属性特征,并且,传统杀毒软件的提特征方式比较被动,发现一个特征提取一个特征,而且提取的特征不一定是最流行的特征。并且,由于提取的特征是特定恶意程序的特定特征,因此,传统的提取可执行文件的特征方式中,一个特征只能解决小范围内的一类样本,具有滞后性和片面性,从而导致确定文件类型的处理准确度差、效率低。针对相关技术中确定文件类型时处理准确度差、效率低的问题,目前尚未提出有效的解决方案。
技术实现思路
针对相关技术中确定文件类型时处理准确度差、效率低的问题,本专利技术提出一种文件类型的确定方法和装置,能够根据待确定文件的属性特征确定文件的类型。本专利技术的技术方案是这样实现的根据本专利技术的一个方面,提供了一种文件类型的确定方法,该方法包括提取待确定的文件的属性特征信息;将提取的属性特征信息与规则集中预先保存的每个类型的文件所对应的属性特征信息进行比较;将规则集中与待确定的文件的属性特征信息相符合的属性特征信息所对应的类型确定为待确定的文件的类型。其中,该方法进一步包括对预先给定的多个文件的共有属性特征进行提取,将提取的共有属性特征的属性特征信息作为预先给定的文件的类型所对应的属性特征信息并存储至规则集中。并且,对预先给定的文件的共有属性特征进行提取包括对预先给定的多个文件,提取用户指定的属性特征,并根据提取的属性特征确定该多个文件的类型。在确定预先给定的多个文件是否属于恶意文件类型时,根据情况参照一条提取的属性特征或多条属性特征的组合进行判断,该提取的属性特征包括以下至少之一导入导出表和/或代码段循环冗余校验码CRC ;在确定待确定的多个文件是否属于普通文件类型时,提取的属性特征至少包括代码段CRC。此外,规则集中预先保存的每个类型的文件所对应的属性特征包括以下至少之一文件结构、编译器信息、版本信息、数字签名、程序入口点值、代码段CRC、导入导出表CRC, Section CRC、附加数据偏移、Tls值、图标、作者开发环境、制作CRC规则步骤及描述。优选地,待确定的文件为可移植的执行体文件。 优选地,待确定的文件为具有相同属性特征信息的一类文件。根据本专利技术的另一个方面,提供了一种文件类型的确定装置,该装置包括提取模块,用于提取待确定的文件的属性特征信息;比较模块,用于将提取的属性特征信息与规则集中预先保存的每个类型的文件所对应的属性特征信息进行比较;确定模块,用于将规则集中与待确定的文件的属性特征信息相符合的属性特征信息所对应的类型确定为待确定的文件的类型。并且,规则集中预先保存的每个类型的文件所对应的属性特征包括以下至少之一文件结构、编译器信息、版本信息、数字签名、代码段CRC、导入导出表CRC、SectionCRC、附加数据偏移、Tls值、图标、作者开发环境、制作CRC规则步骤及描述。此外,可选地,待确定的文件为可移植的执行体文件。本专利技术通过提取待确定的文件的属性特征信息,将其与预先保存有每个类型的文件所对应的属性特征信息的规则集进行比较,根据属性特征信息确定文件的类型,由于属性特征信息是文件本身的属性,并非是文件的特定特征,因此,通过属性特征信息进行文件类型的判断并不需要借助最新的特征库,能够避免恶意文件确定时的滞后性和不准确性,并且文件的属性特征的提取和比对较为容易,因此,能够提高文件类型确定的效率,另外,不仅能够用于判断恶意文件,对于普通文件,同样能够采用本专利技术的方案来确定文件类型。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图I是根据本专利技术实施例的文件类型的确定方法的流程图;图2是根据本专利技术实施例的文件类型的确定装置的框图。具体实施例方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本专利技术保护的范围。根据本专利技术的实施例,提供了一种文件类型的确定方法。如图I所示,根据本专利技术实施例的文件类型的确定方法包括步骤SlOl,提取待确定的文件的属性特征信息;步骤S103,将提取的属性特征信息与规则集中预先保存的每个类型的文件所对应的属性特征信息进行比较;步骤S105,将规则集中与待确定的文件的属性特征信息相符合的属性特征信息所对应的类型确定为待确定的文件的类型。 其中,该方法进一步包括预先确定规则集的步骤。规则集中可以保存多个样本,样本来源是通过软件的云计划任务上传的文件和人工收集及网络上下载的文件,还有通过监控到某台计算机上有需要更新的软件,这样就可以去下载该软件的升级包,本专利技术实施例对如何获得文件并没有限制。只要能够获取到文件,即可应用本专利技术实施例的技术方案。程序有专门提取模块自动提取每个待确定文件的所有属性特征。收集到一个新样本后,会和已有的特征库进行匹配比较,如果匹配成功则自动置相应级别。如果未匹配会通过提取模块自动提取文件的程序入口点等几十处PE结构里的信息以及编译器信息、版本信息、数字签名、包括代码段在内的各个节CRC、导入导出表CRC、Section CRC、附加数据偏移、Tls值、图标CRC、作者开发环境等多种信息。在制作规则集时,可以对预先给定的多个文件的共有属性特征进行提取,将提取的共有属性的属性特征信息作为预先给定的文件的类型所对应的属性特征信息并存储至规则集中,由此得到的规则集可以用于步骤S103和步骤S105的判断。在上述过程中,这多个文件是通过自动化程序根据某一共同特征归为一类的文件,这时分析人员会根据经验选择性的找出这一类文件的共同特征,可以是一条也可以是多条共同特征。找到一条或多条共同特征后会在页面选择已找到的共同特征,并在后台匹配提取特征的所有样本,如果匹配出的结果是这多个文件的大部分都被命中则认为是一类,并根据分析经验在页面选择相应级别。因此,本申请所采用的规则集中实际上保存了文件类型与一种属性特征/多种属性特征的组合之间的对应关系(对于属性特征,在规则集中以本文档来自技高网...
【技术保护点】
一种文件类型的确定方法,其特征在于,包括:提取待确定的文件的属性特征信息;将提取的所述属性特征信息与规则集中预先保存的每个类型的文件所对应的属性特征信息进行比较;将所述规则集中与待确定的文件的属性特征信息相符合的属性特征信息所对应的类型确定为所述待确定的文件的类型。
【技术特征摘要】
【专利技术属性】
技术研发人员:金正虎,陈添,梁志文,
申请(专利权)人:北京奇虎科技有限公司,奇智软件北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。