OOXML文档夹带检测方法、存储介质和电子设备技术

技术编号:37590220 阅读:20 留言:0更新日期:2023-05-18 11:20
本发明专利技术特别涉及一种OOXML文档夹带检测方法、存储介质和电子设备,其中一种OOXML文档夹带检测方法,包括如下步骤:对文档进行解析得到多层级目录和文件;读取所有内嵌文件的OLE名称;根据内嵌文件的OLE名称,提取每个内嵌文件对应的ID;根据文档的类型以及内嵌文件的ID,从解析后的文件中提取内嵌文件的参数;根据所提取的内嵌文件参数判断每个内嵌文件是否属于隐藏文件,根据其缩略图路径获取缩略图并识别得到隐藏文件的名称和类型。通过上述检测方法,一方面从多角度全方位筛查文件,制定合理的检测策略,另一方面,给人工审批人员提供线索,快速判断文件是否携带了其他可疑文件,提高人工审批效率。提高人工审批效率。提高人工审批效率。

【技术实现步骤摘要】
OOXML文档夹带检测方法、存储介质和电子设备


[0001]本专利技术涉及文件安全管控
,特别涉及一种OOXML文档夹带检测方法、存储介质和电子设备。

技术介绍

[0002]在Office Open XML中,可以在OOXML里面插入文档、表格、图片等形式的附件,从而使得文档内容更加丰富,但是因为这些文档的插入,也使得文件夹带成为可能。现有检测文档夹带泄密的方法主要有如下几种:文档后缀篡改检测(将docx、pptx、xlsx后缀修改成xml、opj、stp等不易查看怀疑的对象)、OOXML文件包内隐藏文件检测提取、OOXML文件冗余空间隐藏文件检测提取等。这些现有的检测方法忽略了“不通过修改文件后缀及内部组件结构,使用正常手段插入附件,但是在页面呈现上动用手段使得文件不被发现,进行传播泄露秘密”的问题。产品宣传介绍PPT、产品介绍宣传材料、常规表格文件,内容丰富、页数多、图文结合场景多,是天然的夹带隐蔽文件载体,企业内部员工外发文件资料,可以轻松将各类重要文件插入到外发的文件中,躲过常规技术筛查、人工审核。

技术实现思路

[0003]本专利技术的目的在于提供一种OOXML文档夹带检测方法,能够自动的将疑似的隐藏文件检测出来。
[0004]为实现以上目的,本专利技术采用的技术方案为:一种OOXML文档夹带检测方法,包括如下步骤:S100、对OOXML文档进行解析得到解析后的多层级目录和文件;S200、从embeddings目录中读取所有内嵌文件的OLE名称;S300、根据内嵌文件的OLE名称,提取每个内嵌文件对应的ID;S400、根据OOXML文档的类型以及内嵌文件的ID,从解析后的文件中提取每个内嵌文件的如下参数中所包含的参数:内嵌文件所属子表编号、内嵌文件所属页数、缩略图路径、内嵌文件位置、内嵌文件尺寸、内嵌文件透明度;S500、根据所提取的内嵌文件参数判断每个内嵌文件是否属于隐藏文件,根据其缩略图路径获取缩略图并识别得到隐藏文件的名称和类型。
[0005]与现有技术相比,本专利技术存在以下技术效果:首先通过解析得到的文件,找到内嵌文件的OLE名称,每个内嵌文件对应一个;再根据OLE名称找到对应的ID,这个ID相当于内嵌文件的标识;再根据该ID找到内嵌文件的一些参数,我们所找到的参数,都是后续用于隐藏文件判断的,隐藏文件和正常嵌入的文件在这些参数上有所区别,通过挖掘这种区别从而进行隐藏文件的判断,也避免了将所有的内嵌文件都提取出来从而造成误判;通过上述检测方法,一方面补充现有检测手段的不足,多角度全方位筛查文件,制定合理的检测策略,另一方面,给人工审批人员提供线索,通过与原文件呈现的附件做对比,即可快速判断文件是否携带了其他可疑文件,提高人工审批效率。
附图说明
[0006]图1是本专利技术的流程示意图。
具体实施方式
[0007]下面结合图1,对本专利技术做进一步详细叙述。
[0008]参阅图1,本专利技术公开了一种OOXML文档夹带检测方法,包括如下步骤:S100、对OOXML文档进行解析得到解析后的多层级目录和文件。OOXML是由微软公司为Office 2007产品开发的技术规范,现已成为国际文档格式标准,兼容前国际标准开放文档格式和中国文档标准“标文通”(外语简称:UOF),于2006年12月成为ECMA标准。使用zip解压缩程序对OOXML文档进行解压缩,就可以得到解析后的文件。S200、从embeddings目录中读取所有内嵌文件的OLE名称,OLE即Object Linking and Embedding的缩写,即“对象链接与嵌入”,这是一种把一个文件的一部分嵌入到另一个文件之中的技术,例如把Excel图表加入到PowerPoint演示文稿或Word文档。一般来说,内嵌文件插入到文档中以后,文档的embeddings目录中就会为其对应新建一个*.bin或*.docx或*.pptx或*.xlsx的OLE名称,因此我们需要先读取这些OLE名称,从而确定所有的内嵌文件。S300、根据内嵌文件的OLE名称,提取每个内嵌文件对应的ID;嵌入文件的很多参数都是通过ID进行关联的,因此我们先根据OLE名称,提取对应的ID。
[0009]S400、根据OOXML文档的类型以及内嵌文件的ID,从解析后的文件中提取每个内嵌文件的如下参数中所包含的参数:内嵌文件所属子表编号、内嵌文件所属页数、缩略图路径、内嵌文件位置、内嵌文件尺寸、内嵌文件透明度。这些参数是判断嵌入文件是否是隐藏文件的关键参数,我们也可以根据其他的判断逻辑,去提取这些参数以外的其他参数。需要特别说明的是,此处述及的“从解析后的文件中提取每个内嵌文件的如下参数中所包含的参数:内嵌文件所属子表编号、内嵌文件所属页数、缩略图路径、内嵌文件位置、内嵌文件尺寸、内嵌文件透明度”也可以理解为:我们提取参数时,所列的几个参数如果存在,则必须提取,若不存在,则可以不用提取。比如内嵌文件所属子表编号,这个参数只有当内嵌文件是表格时才会有,因此如果内嵌文件是word文档,则可以不用提取这个参数,如果内嵌文件时excel表格,则必须提取这个参数。S500、根据所提取的内嵌文件参数判断每个内嵌文件是否属于隐藏文件,根据其缩略图路径获取缩略图并识别得到隐藏文件的名称和类型。隐藏文件和正常嵌入的文件在这些参数上有所区别,通过挖掘这种区别从而进行隐藏文件的判断,也避免了将所有的内嵌文件都提取出来从而造成误判;通过上述检测方法,一方面补充现有检测手段的不足,多角度全方位筛查文件,制定合理的检测策略,另一方面,给人工审批人员提供线索,通过与原文件呈现的附件做对比,即可快速判断文件是否携带了其他可疑文件,提高人工审批效率。
[0010]以常见的文档类型为例,对“从解析后的文件中提取每个内嵌文件的如下参数中所包含的参数:内嵌文件所属子表编号、内嵌文件所属页数、缩略图路径、内嵌文件位置、内嵌文件尺寸、内嵌文件透明度”进行详细的说明。所述的步骤S400中:若OOXML文档的类型为*.docx,每个内嵌文件均包含缩略图路径和内嵌文件尺寸这两个参数,内嵌文件位置为可选参数,之所以将内嵌文件的位置作为可选参数,是因为对于隐藏在其他内嵌文件下的内嵌文件而言,其属性中没有位置信息,这一特点也可以用于内嵌文件是否为隐藏文件的
判断。若OOXML文档的类型为*.xlsx,每个内嵌文件均包含内嵌文件所属子表编号、缩略图路径、内嵌文件位置、内嵌文件尺寸这四个参数。若OOXML文档的类型为*.pptx,每个内嵌文件均包含内嵌文件所属页数、缩略图路径、内嵌文件位置、内嵌文件尺寸、内嵌文件透明度这五个参数。
[0011]针对不同格式的文档,参数提取和隐藏文件的判断也有所不同,本专利技术中提供了三种具体的实施例供参考。
[0012]实施例一,所述的OOXML文档的类型为*.docx。步骤S300中,依据内嵌文件的OLE名称从document.xml.rels文件中提取该内嵌文件对应的ID;步骤S400中,内嵌文件参数通过如下步骤提取:根据内嵌文件ID,从document本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种OOXML文档夹带检测方法,其特征在于:包括如下步骤:S100、对OOXML文档进行解析得到解析后的多层级目录和文件;S200、从embeddings目录中读取所有内嵌文件的OLE名称;S300、根据内嵌文件的OLE名称,提取每个内嵌文件对应的ID;S400、根据OOXML文档的类型以及内嵌文件的ID,从解析后的文件中提取每个内嵌文件的如下参数中所包含的参数:内嵌文件所属子表编号、内嵌文件所属页数、缩略图路径、内嵌文件位置、内嵌文件尺寸、内嵌文件透明度;S500、根据所提取的内嵌文件参数判断每个内嵌文件是否属于隐藏文件,根据其缩略图路径获取缩略图并识别得到隐藏文件的名称和类型。2.如权利要求1所述的OOXML文档夹带检测方法,其特征在于:所述的步骤S400中:若OOXML文档的类型为*.docx,每个内嵌文件均包含缩略图路径和内嵌文件尺寸这两个参数,内嵌文件位置为可选参数;若OOXML文档的类型为*.xlsx,每个内嵌文件均包含内嵌文件所属子表编号、缩略图路径、内嵌文件位置、内嵌文件尺寸这四个参数;若OOXML文档的类型为*.pptx,每个内嵌文件均包含内嵌文件所属页数、缩略图路径、内嵌文件位置、内嵌文件尺寸、内嵌文件透明度这五个参数。3.如权利要求2所述的OOXML文档夹带检测方法,其特征在于:所述的OOXML文档的类型为*.docx;步骤S300中,依据内嵌文件的OLE名称从document.xml.rels文件中提取该内嵌文件对应的ID;步骤S400中,内嵌文件参数通过如下步骤提取:根据内嵌文件ID,从document.xml文件中提取该内嵌文件对应的缩略图ID;根据内嵌文件的缩略图ID,从document.xml.rels文件中提取该内嵌文件对应的缩略图路径;根据内嵌文件ID,从document.xml文件中提取该内嵌文件的位置和尺寸,若无位置信息,则只提取该内嵌文件的尺寸。4.如权利要求3所述的OOXML文档夹带检测方法,其特征在于:所述的步骤S500中,根据所提取的内嵌文件参数判断每个内嵌文件是否属于隐藏文件包括:判断该内嵌文件有无位置信息,若有位置信息则认为该内嵌文件为隐藏文件,若无位置信息则进入下一步;判断该内嵌文件的尺寸是否小于设定阈值,若小于,则认为该内嵌文件为隐藏文件,否则认为该内嵌文件为正常的内嵌文件。5.如权利要求2所述的OOXML文档夹带检测方法,其特征在于:所述的OOXML文档的类型为*.xlsx;步骤S300中,依据内嵌文件的OLE名称从sheet1.xml.rels、sheet2.xml.rels、

文件中提取该内嵌文件对应的ID,并将内嵌文件ID所在文件名称中sheet后的数字作为该内嵌文件的所属子表编号m;步骤S400中,内嵌文件参数通过如下步骤提取:根据内嵌文件ID,从sheetm.xml文件中提取该内嵌文件对应的缩略图ID;
根据内嵌文件的缩略图ID,从sheetm.xml.rels文件中提取该内嵌文件对应的缩略图路径;根...

【专利技术属性】
技术研发人员:田辉鲁国峰吕子艳郭玉刚张志翔
申请(专利权)人:合肥高维数据技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1