碎片数据类型的识别方法技术

技术编号:7627711 阅读:202 留言:0更新日期:2012-08-01 21:02
本发明专利技术提供了一种碎片数据类型的识别方法,包括以下步骤:首先,提取待测试碎片数据x的字节频率分布F(x);而后,通过公式计算待测试碎片数据x与某一样本S之间字节频率分布的相似度Tx,接着,判定所述待测试碎片数据x与某一样本S之间字节频率分布的相似度Tx是否落入已知数据类型T中的一种碎片数据类型Ti的相似度的范围内,如果落入,则判定所述测试碎片数据x属于已知数据类型Ti代表的类型;如果没有落入任何一个已知数据类型T的范围内,则判定所述待测试碎片数据x的类型无法识别。本发明专利技术提供的方法可以对碎片数据的类型进行识别,为后续的碎片数据重组工作提供基础,从而可以使得能够根据碎片数据恢复出具有一定内容的文件,为司法取证提供技术支持。

【技术实现步骤摘要】

本专利技术涉及一种计算机硬盘或其他可移动存储介质的磁盘碎片数据的类型或内存镜像中,特别是涉及基于字节频率分布的
技术介绍
磁盘的簇或块由一个或多个扇区组成,扇区是磁盘最小的物理存储单元,而簇是操作系统分配的最小单元,磁盘的簇通常为多个扇区,例如有2、4、8、16、32、64等多个扇区,每个簇只能由一个文件占用,即使这个文件中只有几个字节,也决不允许两个以上的文件共用一个簇,否则会造成数据的混乱。其中,扇区是物理的,而簇是逻辑的,簇可以由操作系统改变,形成簇便于系统管理。文件系统在存储数据到磁盘时以簇或块为单位,分散保存到整个磁盘的不同地方,在现有技术中,将这些分散保存到磁盘的不同地方一个文件的不同部分称为文件碎片。这些文件碎片会导致系统性能降低,使得运行速度下降,因而,通过传统的磁盘碎片整理程序来处理碎片,磁盘碎片整理程序可以分析硬盘中的磁盘碎片,移动并合并文件碎片,使每个文件都可以占用硬盘上单独而连续的储存空间,从而提高磁盘使用空间的使用率,提高磁盘读取文件的速度。在磁盘中除了存在上述传统意义上的文件碎片外,还存在着另一种数据,即存在于未分配簇或块中的数据,这些数据的产生通常是由于在磁盘使用一段时间后,反复地复制、生成和删除文件造成的。例如,文件被删除后,但是该文件的部分实际内容仍然存储在该空间中。这类数据具有不完整、易被覆盖的特点。以删除文件的操作为例,文件被删除后,原来存储该文件的空间被标识为“未分配空间”,磁盘中的磁盘文件系统在回收使用未分配空间过程中,会将新内容写入这部分区域。然而实际上,此未分配空间还存有原来被删除的文件的部分内容,在将新内容写入该空间时,使得原已存在的数据信息被新的数据信息所覆盖。尽管这类数据通常是不完整的、易被覆盖的,但是这类数据在提取并重构后可以得到较为完整的内容,从而作为电子证据来使用。为了清楚地说明本专利技术,在本专利技术中,将这种保存在磁盘中未分配簇或块中的数据定义为碎片数据。另外,有什么类型的文件,就存在对应类型的碎片数据,碎片数据的类型识别是文件重组或文件还原的一个基础,因此,本专利技术基于扇区512B为单位,定义碎片数据类型是指以512B为单位的碎片数据所代表的数据的类型。通过上述分析可见,所述碎片数据在形成电子证据方面起着重要的作用,而对碎片数据类型的识别可以提高后续的文件重组工作的识别率,并降低相应的计算量。然而,目前并没有任何现有技术可以对所述的碎片数据进行分析和利用,对碎片数据类型进行识别。
技术实现思路
本专利技术为了解决上述问题而提供一种,用以识别碎片数据的类型,为后续的碎片数据重组工作提供基础。为了解决上述技术问题,本专利技术提供了如下技术方案一种,包括以下步骤步骤I,提取待测试碎片数据X的字节频率分布F(X);其中,F(x) = {f0, fi··· fi*··f255},fi为以扇区为单位的碎片数据中字节值i出现的次数;步骤2,通过公式(1)计算待测试碎片数据X与某一样本S之间字节频率分布的相似度Tx,权利要求1.一种,其特征在于包括以下步骤 步骤I,提取待测试碎片数据X的字节频率分布F(X);其中,F(X) = {fo,^···Ti--^f255I,も为以扇区为单位的碎片数据中字节值i出现的次数; 步骤2,通过公式(I)计算待测试碎片数据X与某一祥本S之间字节频率分布的相似度2.根据权利要求I所述的,其特征在于还包括步骤4, 步骤4,当所述待测试碎片数据X与某一祥本S之间字节频率分布的相似度Tx落入一已知数据类型Ti的相似度的范围内吋,进ー步判断碎片数据X中是否存在δ χ,如果存在,则确定是否满足Sx e Ir如果满足,并且,如果i = j,则判定所述测试碎片数据χ属于已知数据类型Ti代表的类型; 其中,S x为所述某一文件类型的结构特征,Tj为未知类型数据的结构特征的集合。3.根据权利要求I或2所述的,其特征在于还包括步骤5, 步骤5,当步骤3中的所述待测试碎片数据χ与某一祥本S之间字节频率分布的相似度Tx落入一已知数据类型Ti的相似度的范围内的相似度小于预定范围时,或者步骤4中的i幸j时,判断所述待测碎片数据所在的数据块内的其他碎片数据的相似度落入所述已知数据类型Ti的范围内的数量是否达到预定数量,如果达到,则判定所述碎片数据χ属于数据类型Ti代表的类型,否则判定所述碎片数据χ无法识别。4.根据权利要求I所述的,其特征在于在步骤I之前包括如下步骤 步骤A :提取样本模型S,确定各种文件类型的碎片数据与所述样本模型S之间的相似度。5.根据权利要求所述的,其特征在于在步骤I之前包括如下步骤 步骤B:提取各种文件类型的结构特征δ,其中,δ = {δ17 δ^·· δΓ·· δπ},表示δ共有m种文件类型的结构特征。6.根据权利要求I所述的,其特征在于所述的碎片数据包括各种磁盘中的碎片数据和内存中的碎片数据。7.根据权利要求3所述的,其特征在于所述待测碎片数据所在数据块的数量为25-28块。8.根据权利要求3所述的,其特征在于所述的预定数量为占所述待测碎片数据所在数据块数量的80%以上的数量。全文摘要本专利技术提供了一种,包括以下步骤首先,提取待测试碎片数据x的字节频率分布F(x);而后,通过公式计算待测试碎片数据x与某一样本S之间字节频率分布的相似度Tx,接着,判定所述待测试碎片数据x与某一样本S之间字节频率分布的相似度Tx是否落入已知数据类型T中的一种碎片数据类型Ti的相似度的范围内,如果落入,则判定所述测试碎片数据x属于已知数据类型Ti代表的类型;如果没有落入任何一个已知数据类型T的范围内,则判定所述待测试碎片数据x的类型无法识别。本专利技术提供的方法可以对碎片数据的类型进行识别,为后续的碎片数据重组工作提供基础,从而可以使得能够根据碎片数据恢复出具有一定内容的文件,为司法取证提供技术支持。文档编号G06F12/02GK102622302SQ20111003112公开日2012年8月1日 申请日期2011年1月26日 优先权日2011年1月26日专利技术者刘宝旭, 杨泽明, 汤燕彬 申请人:中国科学院高能物理研究所本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:汤燕彬杨泽明刘宝旭
申请(专利权)人:中国科学院高能物理研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术