一种识别AVI类型block的方法技术

技术编号:16312922 阅读:36 留言:0更新日期:2017-09-29 11:14
本发明专利技术公开了一种识别AVI类型block的方法,该方法是基于AVI文件格式的字节识别码和C4.5决策树的方法,是针对磁盘、U盘等存储介质中AVI文件类型block的识别方法,该方法设计针对磁盘、U盘等存储介质删除数据不依赖文件系统元数据进行雕刻提供了预处理步骤,一般的文件雕刻需要经历分类和恢复两个步骤;本发明专利技术的步骤是:首先通过字节识别码识别出具有特定标识码的block,然后对于尚未识别出的block,在通过模拟出与磁盘存储环境相似的训练集得到决策树后,再进行二次识别。该方案适应复杂、多文件、大容量的存储环境。此外,本发明专利技术针对原本属于AVI的block具有良好的识别准确率,对于司法取证、数据恢复等应用领域都有较高的应用价值。

【技术实现步骤摘要】
一种识别AVI类型block的方法
本专利技术涉及计算机数据挖掘
,特别涉及一种识别AVI类型block的方法。背景分析随着信息技术发展,数据恢复作为信息安全的最后一道屏障的作用越来越重要,在司法取证、军事和民用领域的应用需求越发强烈。传统的数据恢复方法针对碎片化的数据即使使用残存的元数据也不能恢复。因此,在数据可能破损并且缺少元数据的情况下如何恢复出数据这一问题亟需解决。破损的数据往往价值很大,有时候包含着案件的关键信息。而在民用领域,视频恢复也有着广泛的应用场合,例如:婚庆公司需要找回不小心删除的客户婚宴DV。视频恢复对于特定企业具有重大的经济价值。信息技术的发展在为人们创造了惊人的数据同时,也向研究人员提出了数据恢复这一课题。早期的数据恢复过于依赖文件系统提供的元数据,后来逐步出现不依赖元数据恢复数据的文件雕刻方法。文件雕刻根据对文件内部结构和内容恢复出数据。最早出现的文件雕刻方法根据文件头尾的标志顺序读取的方法值适合文件顺序存储的情形。研究表明,几M(兆)以上的文件约有15%~20%的文件会产生碎片,也就是说磁盘上存在大量碎片化的文件。针对碎片化的文件,采用连续读取的雕刻方法就会出错。因此,有必要研究能够适用于碎片文件的雕刻方法。目前,针对碎片文件的雕刻,已经有相应的框架提出。主要包含识别block、恢复两个部分。但是,在针对AVI(音频视频交错格式)的识别方法中,普遍都有识别率不高的问题。本专利技术将提出一种新的方法用于AVI类型block的分类。
技术实现思路
本专利技术目的在于提出了一种识别磁盘等存储介质中AVI类型block的方法,该方法通过AVI格式固有的字节识别码进行初步识别,然后针对剩余block应用C4.5决策树方法,以字节值频率分布BFD作为特征识别出无字节识别码的AVI类型block,通过先后两轮的识别实现对AVI类型block的识别,本专利技术解决其技术问题所采取的技术方案是:本专利技术是一种在分析AVI类型block特征的基础上,对block中可能含有的字节特征码和字节值频率分布信息进行挖掘,进而依据字节识别码匹配和应用C4.5决策树分类方法识别目标block的方法,该方法主要包含镜像备份、提取block、字节标志码匹配、C4.5决策树识别等步骤。方法流程:步骤1:镜像备份。主要通过专用的备份工具将存储介质中的内容完全备份到其他存储介质中,避免数据恢复过程中对数据源造成破坏。备份的范围从第一个扇区一直到最后一个扇区。备份数据包括元数据部分和实际数据部分。步骤2:提取block。通过扫描存储介质,根据文件表,标记出文件表没有记录的块。这些没有记录的块包含未存储的块和元数据丢失或者毁坏的数据块。将没有标记的块备份到其他存储介质中去作为识别目标block的对象。步骤3:字节标志码匹配。AVI类型block独有的字节标识码有List、avi、hdrl、avih、strl、strf、strd、JUNK、odml、movi、##wb、##dc、##db(##表示编号01,02,03等)、rec、idx1等。对每个blcok依次检索字节识别码,当block中出现了上文提及到的字节识别码集合中的字节识别码时,就判定为AVI碎片。步骤4:C4.5决策树识别。在确定镜像所包含的文件类型后,建立由这些类型block构成的训练集。在各种文件类型数量多少未知的情况下,选取每种类型的block等量,并保证block的数目足够多。然后提取每个block的字节频率分布(ByteFrequencyDistribution,BFD)。以此为特征,针对训练集依照C4.5算法建立决策树。使用决策树对每个测试集中的block进行识别。C4.5算法通过以下步骤建立分类树:(1)计算类别随机变量的熵。(2)轮流以其中一个属性作为根,然后计算熵增益。(3)选择熵增益最大的那个属性为根。有益效果:1、本专利技术能够以较高识别率识别出AVI类型的block。2、本专利技术能够适应复杂的存储环境,在包含图片、视频、文档等多种类型格式的block的环境下识别出目标block。附图说明:图1为本专利技术的方法流程图。图2为C4.5算法的流程图。具体实施方式以下结合说明书附图对本专利技术创造作进一步的详细说明。如图1和图2所示,本专利技术提出了一种识别AVI类型block的方法,该方法包括如下步骤:步骤1:镜像备份备份的对象包括磁盘、U盘、光盘等存储介质。Ghost是针对硬盘克隆的工具。针对U盘备份有UBackUp、U盘备份工具等软件。光盘备份就可以通过刻录软件来实现。这里的备份是完全备份,存储在备份对象上的删除数据和未删除数据都被拷贝存储在另一个介质上。1)选择另一存储介质。2)根据备份对象不同,选择不同的备份工具,对备份对象的所有数据进行完全备份。3)备份完成,保存原存储介质。备份在另一存储介质上的数据将用于AVI类型block的识别。本专利技术所述步骤1是确保根据存储介质类型,选择合适的备份软件,并且备份完成后,保存原存储介质。备份的范围从第一个扇区一直到最后一个扇区。备份数据包括元数据部分和实际数据部分。步骤2:提取block1)扫描镜像数据,分析元数据,确定镜像中已分配的block和未分配的block。2)已分配的block数据不需要恢复。将已分配的block做标记。然后,依次读取出未分配的block,并以一定的文件形式(这里设定为txt)存储起来。每一个被以txt格式存储的block是识别的对象。本专利技术所述步骤2是根据元数据信息,标记出已分配的block,也即不需要恢复的block。对于未分配block,采用txt文件类型将其逐个保存,用于后续识别。步骤3:字节标志码匹配AVI文件类型属于RIFF封装类型的文件一种。RIFF文件类型包含各种用去区分数据类型的字节识别码。通过对RIFF文件类型的文件分析,除了RIFF这个字节识别码外,这些类型的文件没有其他相同的识别码。也就是说,可以通过除RIFF外的字节识别码确定block的类型。1)确定AVI类型文件特有的字节标志码。通过对文件格式分析,得到以下字节标志码为AVI类型文件独有:List、avi、hdrl、avih、strl、strf、strd、JUNK、odml、movi、##wb、##dc、##db(##表示编号01,02,03等)、rec、idx1。2)通过KMP方法对每个以txt格式存储的block进行字节识别码匹配。只要该txt文件中含有一个匹配的字节识别码,就停止匹配运算,并且认为该block就是AVI类型的block。3)已经识别出来的block组成一个集合。从原来的txt文件集合中剔除出已经识别出来的block。剩下的txt文件用作第二轮C4.5决策树方法识别。本专利技术所述步骤3包括对AVI格式文件特有的字节标识码,有如下:List、avi、hdrl、avih、strl、strf、strd、JUNK、odml、movi、##wb、##dc、##db(##表示编号01,02,03等)、rec、idx1。这些标识码被用于对每个需要识别的block进行字节匹配。采用KMP方法,对每个以txt格式存储的block进行字节识别码匹配。只要该txt文件中含有一个匹配的字节标识码,就停止匹配本文档来自技高网...
一种识别AVI类型block的方法

【技术保护点】
一种识别AVI类型block的方法,其特征在于,所述方法包括如下步骤:步骤1:镜像备份;所述备份为完全备份,存储在备份对象上的删除数据和未删除数据都被拷贝存储在另一个介质上,包括:1)选择另一存储介质;2)根据备份对象不同,选择不同的备份工具,对备份对象的所有数据进行完全备份;3)备份完成,保存原存储介质;备份在另一存储介质上的数据将用于AVI类型block的识别;步骤2:提取block;1)扫描镜像数据,分析元数据,确定镜像中已分配的block和未分配的block;2)已分配的block数据不需要恢复;将已分配的block做标记;然后,依次读取出未分配的block,并以txt文件形式存储起来;每一个被以txt格式存储的block是识别的对象;步骤3:字节标志码匹配;AVI文件类型属于RIFF封装类型的文件一种;RIFF文件类型包含各种用于区分数据类型的字节识别码;通过对RIFF文件类型的文件分析,除了RIFF这个字节识别码外,这些类型的文件没有其他相同的识别码;通过除RIFF外的字节识别码确定block的类型;步骤4:C4.5决策树识别;建立一个与存储介质类型存储环境相当的训练集,该训练集包含了存储介质中所有文件类型的block,并且每种文件类型的block数量足够且相同,然后对这些block进行预处理,包括:1)应用Matlab提取输入的block的字节频率分布特征,所有文件的字节频率分布特征构成了block数*256的矩阵,并保存为CSV文件;每一行代表一个block的字节频率分布特征,每一列就是一个用作特征的字节值;2)根据每个block所属的文件类型,确定每一行的属性值;如果该行的字节频率分布为AVI碎片特征,记作Yes,反之,记作No;对于预处理获得的CSV文件,通过C4.5决策树方法建立决策树,决策树的每个节点都是作为特征的字节值,将字节识别码匹配后剩下的block依次根据C4.5算法识别,包括:步骤4‐2‐1:读取需要识别的block,提取其字节频率分布特征;步骤4‐2‐2:根据已经建立的C4.5决策树,在获得某个需要识别的block的字节频率分布后,按照每个节点的阈值逐个选择分支,当判断到叶子结点时,识别完成;步骤4‑2‑3:按照步骤4‐2‐1、步骤4‐2‐2完成其他所有block的识别。...

【技术特征摘要】
1.一种识别AVI类型block的方法,其特征在于,所述方法包括如下步骤:步骤1:镜像备份;所述备份为完全备份,存储在备份对象上的删除数据和未删除数据都被拷贝存储在另一个介质上,包括:1)选择另一存储介质;2)根据备份对象不同,选择不同的备份工具,对备份对象的所有数据进行完全备份;3)备份完成,保存原存储介质;备份在另一存储介质上的数据将用于AVI类型block的识别;步骤2:提取block;1)扫描镜像数据,分析元数据,确定镜像中已分配的block和未分配的block;2)已分配的block数据不需要恢复;将已分配的block做标记;然后,依次读取出未分配的block,并以txt文件形式存储起来;每一个被以txt格式存储的block是识别的对象;步骤3:字节标志码匹配;AVI文件类型属于RIFF封装类型的文件一种;RIFF文件类型包含各种用于区分数据类型的字节识别码;通过对RIFF文件类型的文件分析,除了RIFF这个字节识别码外,这些类型的文件没有其他相同的识别码;通过除RIFF外的字节识别码确定block的类型;步骤4:C4.5决策树识别;建立一个与存储介质类型存储环境相当的训练集,该训练集包含了存储介质中所有文件类型的block,并且每种文件类型的block数量足够且相同,然后对这些block进行预处理,包括:1)应用Matlab提取输入的block的字节频率分布特征,所有文件的字节频率分布特征构成了block数*256的矩阵,并保存为CSV文件;每一行代表一个block的字节频率分布特征,每一列就是一个用作特征的字节值;2)根据每个block所属的文件类型,确定每一行的属性值;如果该行的字节频率分布为AVI碎片特征,记作Yes,反之,记作No;对于预处理获得的CSV文件,通过C4.5决策树方法建立决策树,决策树的每个节点都是作为特征的字节值,将字节识别码匹配后剩下的block依次根据C4.5算法识别,包括:步骤4‐2‐1:读取需要识别的block,提取其字节频率分布特征;步骤4‐2‐2:根据已经建立的C4.5决策树,在获得某个需要识别的block的字节频率分布后,按照每个节点的阈值逐个选择分支,当判断到叶子结点时,识别完成;步骤4-2-3:按照步骤4‐2‐1、步骤4‐2‐2完成其他所有block的识别。2.根据权利要求1所述的一种识别AVI类型block的方法,其特征在于,所述方法的步骤1中包括:确保根据存储介质类型,选择合适的...

【专利技术属性】
技术研发人员:杨一涛潘俊孙国梓刘力颖
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1