一种基于内容特征和K-means的数据碎片类型识别方法技术

技术编号：12818298 阅读：59 留言：0更新日期：2016-02-07 10:37

一种基于内容特征和K-means的数据碎片类型识别方法，所采取的识别方法为：通过提取数据碎片的PCA-LDA特征，以此作为特征向量，利用K-means分类器对数据碎片类型进行分类识别。一方面利用PCA-LDA能够对数据碎片的特征进行很好的刻画，有利于提高识别的准确度；另一方面利用K-means分类器进行分类识别能够提高识别效率，从而提高了数据碎片的识别的精度和速度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于电子取证领域，具体涉及一种基于内容特征和K-means的数据碎片类型识别方法。
技术介绍
在计算机取证中，取证人员常会遇到数据碎片问题，由于数据碎片位于存储介质的底层，且其元信息遭到丢失或损坏，一般的基于扩展名和魔术的识别方法对其失效，不能够对数据碎片类型进行正确的识别，从而对后续的数据恢复等工作造成困难。如何对当前已知的数据类型的数据碎片进行自动化分析并提取其特征，用于对未知类型的数据块（可能为整个文件，也可能为数据碎片）的分类及检测，已经成为目前国内外研究的热点和难点问题之一，亟需在数据碎片类型识别的精度及速度上有所突破。在现有的数据碎片分类识别算法中，主要方法有基于字节频率的分布特征识别法 (许潭潭.基于内容的数据碎片类型识别技术研究.杭州电子科技大学，2014.)，基于统计量特征识别法（曹鼎，罗军勇.改进的基于内容的文件类型识别算法.计算机工程与设计，2012, 32(12) :4246-4250.)等。基于字节频率的分布特征识别法基本思想是通过统计数据碎片中字节的频率分布（Byte Frequency Distribution, BFD)直方图作为特征向量进行识别，Xu等通过离散余弦变换（Discrete Cosine Transform，DCT)利用中低频系数和BFD作为特征向量进行识别较好地提高了识别精度。基于统计量特征的识别方法的基本思想是利用数据碎片的统计量（如均值、标准差、峰值等）进行分析识别。曹鼎等将定长和变长元组运用于统计特征中，有效的提高了识别的准确率，但是其实验数据集也...

【技术保护点】
一种基于Krawtchouk矩和KNN‑SMO分类器的密级标志识别方法，其特征在于，包括以下步骤：(1)对密级标识图像按照式(a)进行灰度化，以减少不必要的干扰和降低处理的复杂度；设图像灰度f(x,y)∈[c1,c2]，若令集合则可以通过判断像素值是否在集合C中进行分类：f(x,y)=af(x,y)∈Cbf(x,y)∉C---(a)]]>通过选定适当的a,b值就可以对图像的灰度化分割，实现图像的增强，达到拉伸图像的效果增加图像对比度；(2)对灰度化后的图像进行去噪，采取3*3或者5*5的均值滤波法进行去噪，去除干扰信息的影响；(3)将灰度化后的图像进行反相操作，使字符区域呈现为白色，背景区域呈现为黑色，使得文字轮廓与背景色对比更加强烈，有利于观察文字特征，然后利用全局阈值法对反相后的按照式(b)进行二值化：f(x,y)=255f(x,y)≤T0f(x,y)>T---(b)]]>(4)对二值化后的图像采用Hough变换方法进行倾斜校正，通过把直线从图像空间转换到参数空间，求得参数空间局部极大值获得图像文字的倾斜角；(5)利用垂直投影法进行...

【技术特征摘要】

【专利技术属性】
技术研发人员：傅德胜，经正俊，
申请(专利权)人：南京信息工程大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人