异常文件识别方法及装置制造方法及图纸

技术编号:16216817 阅读:25 留言:0更新日期:2017-09-15 23:02
本发明专利技术公开了一种异常文件识别方法及装置,属于网络技术领域。方法包括:获取多个样本异常文件的特征集合以及公共数据串,样本异常文件的特征集合由样本异常文件的多个数据层的特征确定,多个样本异常文件通过同一加密变形算法加密变形得到,公共数据串为至少两个样本异常文件的指定数据层均包括的数据串;获取待识别的目标文件;根据目标文件的多个数据层的特征,获取目标文件的特征集合;当特征集合与任一样本异常文件的特征集合匹配,且目标文件与任一样本异常文件的指定数据层均包括公共数据串,确定目标文件为异常文件。本发明专利技术扩展了一种异常文件识别方法,解决了异常文件加密变形后无法识别的问题,提升了灵活性。

Method and device for identifying abnormal files

The invention discloses an abnormal file recognition method and a device, belonging to the network technical field. The method includes: obtaining multiple samples of abnormal feature set file and public data string, abnormal characteristics of sample collection of documents is determined by the characteristics of a plurality of data sample normal file layer, a plurality of sample abnormal files through the same encryption algorithm encryption deformation deformation is obtained, the public data on the specified data layer for at least two samples of abnormal files both the data string; access to identify the target file; according to the characteristics of a plurality of data of the target file layer, set feature acquisition target file; when the feature set and any abnormal sample sets of document, specify the data layer and the target file and any sample files are abnormal including public data string. Determine the target file for abnormal file. The invention extends an abnormal file recognition method, solves the problem that the abnormal file can not be identified after the encryption deformation, and improves the flexibility.

【技术实现步骤摘要】
异常文件识别方法及装置
本专利技术涉及网络
,特别涉及一种异常文件识别方法及装置。
技术介绍
随着网络技术的发展以及网络信息的广泛传播,网络中存在着多个类型的文件,例如脚本、文档、页面等,这些文件中很可能包括异常文件。通常情况下,异常文件会影响系统的正常运行,导致用户信息泄露,为用户带来损失。因此,识别异常文件成为一个亟需解决的问题。相关技术中,异常特征码可以认为是导致文件出现异常的根源,一旦某一文件中包括异常特征码,即可认为该文件为异常文件,在该文件的运行过程中该异常特征码会影响系统的正常运行,因此识别异常文件的过程可以通过识别异常特征码实现。通常情况下,首先会获取已知的异常特征码,而对于待识别的文件,可以将文件中的数据与该异常特征码进行匹配,以判断该文件是否包括该异常特征码,当确定该文件包括该异常特征码时,可以确定该文件为异常文件。然而,当采用加密变形算法对异常文件进行加密变形后,异常文件中的异常特征码也会被加密变形,导致异常文件中包括异常特征码加密变形后的数据,而不包括原始的异常特征码,此时将无法识别出该异常文件,存在局限性。
技术实现思路
为了解决相关技术的问题,本专利技术实施例提供了一种异常文件识别方法及装置。所述技术方案如下:第一方面,提供了一种异常文件识别方法,所述方法包括:获取多个样本异常文件中每个样本异常文件的特征集合以及根据所述多个样本异常文件确定的公共数据串,所述样本异常文件的特征集合由所述样本异常文件的多个数据层的特征确定,所述多个样本异常文件通过采用同一加密变形算法对多个异常文件进行加密变形后得到,所述公共数据串为至少两个样本异常文件的指定数据层均包括的数据串;获取待识别的目标文件;根据所述目标文件的多个数据层的特征,获取所述目标文件的特征集合;当所述特征集合与任一样本异常文件的特征集合匹配,且所述目标文件与所述任一样本异常文件的指定数据层均包括所述公共数据串时,确定所述目标文件为异常文件。第二方面,提供了一种异常文件识别装置,所述装置包括:特征集合获取模块,用于获取多个样本异常文件中每个样本异常文件的特征集合,所述样本异常文件的特征集合由所述样本异常文件的多个数据层的特征确定,所述多个样本异常文件通过采用同一加密变形算法对多个异常文件进行加密变形后得到,公共数据串获取模块,用于获取根据所述多个样本异常文件确定的公共数据串,所述公共数据串为至少两个样本异常文件的指定数据层均包括的数据串;目标文件获取模块,用于获取待识别的目标文件;所述特征集合获取模块,还用于根据所述目标文件的多个数据层的特征,获取所述目标文件的特征集合;异常文件确定模块,用于当所述特征集合与任一样本异常文件的特征集合匹配,且所述目标文件与所述任一样本异常文件的指定数据层均包括所述公共数据串时,确定所述目标文件为异常文件。本专利技术实施例提供的技术方案带来的有益效果是:本专利技术实施例提供的方法及装置,扩展了一种异常文件识别方法,将待识别的目标文件与经过加密变形的样本异常文件进行匹配,在目标文件的特征集合与样本异常文件的特征集合匹配,且目标文件包括该样本异常文件的指定数据层所包括的公共数据串时,说明目标文件是与样本异常文件类似的文件,因此可以确定目标文件为异常文件。采用上述异常文件识别方法,即使异常文件加密变形后也能够被识别出来,解决了异常文件加密变形后无法识别的问题,提升了灵活性。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1A是本专利技术实施例提供的一种异常文件识别方法的流程图;图1B是本专利技术实施例提供的一种处理样本异常文件的流程图;图1C是本专利技术实施例提供的第一数据层的示意图;图1D是本专利技术实施例提供的第二数据层的示意图;图1E是本专利技术实施例提供的特征集合的示意图;图1F是本专利技术实施例提供的公共数据串的示意图;图2A是本专利技术实施例提供的一种异常文件识别装置的结构示意图;图2B是本专利技术实施例提供的一种异常文件识别装置的结构示意图;图3是本专利技术实施例提供的一种终端的结构示意图;图4是本专利技术实施例提供的一种服务器的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。异常文件是指会影响系统正常运行的文件,例如病毒文件、被损坏的文件等。从文件类型的角度来说,异常文件可以包括脚本、文档、页面等类型的文件,从文件格式的角度来说,异常文件可以包括javascript、vbscript、python、java、shell、powshell等格式的文件。为了避免异常文件造成不良影响,本专利技术实施例通过识别装置识别异常文件,该识别装置可以为手机、电脑、服务器等具有数据处理功能的设备。其中,识别异常文件的过程可以应用于多种场景下。例如在下载到一个新文件时,对该新文件进行识别,判断该新文件是否为异常文件,仅在确定该新文件不是异常文件时才允许存储该新文件。或者,在打开一个来源未知的文件时,对该文件进行识别,判断该文件是否为异常文件,仅在确定该文件不是异常文件时才允许打开该文件。图1A是本专利技术实施例提供的一种异常文件识别方法的流程图,该专利技术实施例的执行主体为识别装置,参见图1A,该方法包括:101、识别装置将样本异常文件中包括的多个类型划分为多组,对样本异常文件中的数据进行分类,得到与多组分别匹配的多个数据层,使得同一数据层中包括对应的至少一个类型的数据,不同数据层的数据的类型不同。为了识别经过加密变形后的异常文件,去除加密变形算法对识别异常文件的影响,识别装置可以获取多个已知的异常文件,并采用相同加密变形算法,对多个异常文件进行加密变形,得到经过加密变形后的多个样本异常文件,该多个样本异常文件用于识别经过加密变形后的异常文件。那么,当待识别的目标文件是经过同一加密变形算法加密变形后的异常文件时,可以采用本专利技术实施例提供的识别方法识别出来。其中,该加密变形算法可以由识别装置安装的混淆器提供。例如,识别装置可以调用与混淆器之间的接口,向该混淆器传入多个异常文件,混淆器会基于加密变形算法,对多个异常文件进行加密变形,得到加密变形后的多个样本异常文件。之后,识别装置可以获取每个样本异常文件的特征集合,以特征集合来表示样本异常文件。考虑到样本异常文件中会包括多个类型的数据,不同类型的数据往往具有不同的特征。若直接对样本异常文件进行特征提取,会得到样本异常文件的整体特征,由于整体特征体现不出每个类型各自的特征,也体现不出不同类型的特征之间的区别,将导致样本异常文件中的细节数据的特征被湮没。因此,在一种可能实现方式中,可以将样本异常文件划分为多个彼此独立的数据层,从而获取到每个数据层各自的特征,再将多个数据层的特征组合构成特征集合。识别装置可以对样本异常文件中的数据进行分析,确定该样本异常文件中包括的多个类型,并根据每个类型和对数本文档来自技高网...
异常文件识别方法及装置

【技术保护点】
一种异常文件识别方法,其特征在于,所述方法包括:获取多个样本异常文件中每个样本异常文件的特征集合以及根据所述多个样本异常文件确定的公共数据串,所述样本异常文件的特征集合由所述样本异常文件的多个数据层的特征确定,所述多个样本异常文件通过采用同一加密变形算法对多个异常文件进行加密变形后得到,所述公共数据串为至少两个样本异常文件的指定数据层均包括的数据串;获取待识别的目标文件;根据所述目标文件的多个数据层的特征,获取所述目标文件的特征集合;当所述特征集合与任一样本异常文件的特征集合匹配,且所述目标文件与所述任一样本异常文件的指定数据层均包括所述公共数据串时,确定所述目标文件为异常文件。

【技术特征摘要】
1.一种异常文件识别方法,其特征在于,所述方法包括:获取多个样本异常文件中每个样本异常文件的特征集合以及根据所述多个样本异常文件确定的公共数据串,所述样本异常文件的特征集合由所述样本异常文件的多个数据层的特征确定,所述多个样本异常文件通过采用同一加密变形算法对多个异常文件进行加密变形后得到,所述公共数据串为至少两个样本异常文件的指定数据层均包括的数据串;获取待识别的目标文件;根据所述目标文件的多个数据层的特征,获取所述目标文件的特征集合;当所述特征集合与任一样本异常文件的特征集合匹配,且所述目标文件与所述任一样本异常文件的指定数据层均包括所述公共数据串时,确定所述目标文件为异常文件。2.根据权利要求1所述的方法,其特征在于,所述获取多个样本异常文件中每个样本异常文件的特征集合以及根据所述多个样本异常文件确定的公共数据串之前,所述方法还包括:对于每个样本异常文件,将所述样本异常文件中包括的多个类型划分为多组,每组包括与同一数据层对应的至少一个类型;对所述样本异常文件中的数据进行分类,得到与所述多组分别匹配的多个数据层,使得同一数据层中包括对应的至少一个类型的数据,不同数据层的数据的类型不同;获取所述多个数据层的特征,组成所述特征集合。3.根据权利要求1所述的方法,其特征在于,所述根据所述多个样本异常文件的指定数据层中的数据串,确定公共数据串,包括:获取所述多个样本异常文件的指定数据层中的数据串,得到多个数据串;确定所述多个数据串中每个数据串的覆盖率,所述数据串的覆盖率为所述指定数据层包括所述数据串的样本异常文件的数量;根据所述每个数据串的覆盖率,从所述多个数据串中选取所述公共数据串。4.根据权利要求3所述的方法,其特征在于,所述根据所述每个数据串的覆盖率,从所述多个数据串中选取所述公共数据串,包括:从所述多个数据串中,选取所述多个样本异常文件的指定数据层均包括的数据串,作为所述公共数据串。5.根据权利要求3所述的方法,其特征在于,所述根据所述每个数据串的覆盖率,从所述多个数据串中选取所述公共数据串,包括:当所述多个数据串不包括所述多个样本异常文件的指定数据层均包括的数据串时,从所述多个数据串中选取覆盖率最大的第一数据串;确定所述指定数据层不包括所述第一数据串的多个样本异常文件,确定所述多个样本异常文件的指定数据层均包括的第二数据串;将所述第一数据串和所述第二数据串均作为所述公共数据串。6.根据权利要求1所述的方法,其特征在于,所述获取所述目标文件的特征集合之后,所述方法还包括:当所述特征集合中的每个特征与所述任一样本异常文件的相同数据层的特征均匹配时,确定所述特征集合与所述任一样本异...

【专利技术属性】
技术研发人员:姜澎毕磊吴彬郭晓龙苏蒙申金娟
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1