当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于PDF文件体的PDF文件信息嵌入和提取方法技术

技术编号:7700473 阅读:145 留言:0更新日期:2012-08-23 05:50
本发明专利技术属于多媒体信号处理领域,具体涉及一种基于PDF文件体的PDF文件信息嵌入和提取方法。本发明专利技术利用PDF文件追加式更新中添加的新文件体作为隐藏信息的载体,隐藏信息在文件建立之初就不可见地被写入,对文件显示层面没有任何影响,可以随着文档内容的传输而在互联网上传输,可嵌入容量足够大,不会因为传输或常用的文档编辑行为而被破坏。对于攻击者,具有隐蔽性,不易查找破坏。本发明专利技术作为PDF文档认证的一种方法,可以不可见地在PDF文件中嵌入文件的作者、出处、版权等相关认证信息,对PDF文件的版权认证、真伪辨别等具有实用性。

【技术实现步骤摘要】

本专利技术属于多媒体信号处理领域,具体涉及ー种基于PDF文件体的PDF文件信息嵌入和提取方法
技术介绍
近些年,随着网络技术的快速发展,人们开始越来越多地通过互联网传输和获取信息。与此同吋,电子商务、电子政务等新型办公模式正被广泛应用,越来越多的行政、商业 文件如授权书、注册单、合同、发票等开始以电子文档的形式进行流通和传输。但在互联网这个开放的环境中,拷贝、篡改等恶意行为时刻威胁着电子文档的版权归属问题,大量版权盗用、非法传输、信息伪造等问题层出不穷。基于这种情況,电子文档的数据隐藏技术日益成为版权认证、真伪鉴定、解决纠纷的主要手段。PDF (Portable Document Format)文件格式是Adobe公司开发的电子文件格式。这种文件格式在Windows、Unix、Mac等操作系统中都是通用的,独立于操作系统平台。I3DF文件格式可以将文字、字型、格式、顔色及独立于设备和分辨率的图形图像等封装在ー个文件中。该格式文件还可以包含超文本链接、声音和动态影像等电子信息,支持特长文件,集成度和安全可靠性都较高。再者,PDF文件使用了エ业标准的压缩算法,易于传输与储存。上述特性使得PDF成为在Internet上进行电子文档发行和数字化信息传播的理想文档格式。因此,基于PDF文档的信息隐藏技术的研究,对当前的应用环境,是有十分重要的实际意义的。下面对现有技术中PDF文件的结构进行简要分析,以便对本专利技术进行理解。如图I所示是原始HF的文件结构图,包括四部分文件头(Header),文件体(Body),交叉引用表(Cross-reference table)和文件尾(Trailer)。文件头标识PDF文件版本信息;文件体由一系列的间接对象组成,基本包含了 PDF文件的内容;交叉引用表包含间接对象的地址信息,初始状态只有ー个单元;文件尾记录PDF文件的根对象以及交叉引用表的起始地址等信息。如图2所示,是经过追加式更新操作的PDF文件结构。在一次追加更新操作中,任何新的对象或者被修改的对象都会被添加到原始PDF文件尾的后面,组成新的文件体,新文件体对应的新交叉引用単元和新文件尾也会随着被插入到末尾。如图3所不,是PDF文件交叉引用表不例图。姆个交叉引用表包含一定范围内相邻对象号的对象词条。每个交叉引用表以关键字xref为一行开始,开始的一行包含由空格分开的两个数字,第一个数字表示该文件体中第一个对象的对象号,第二个数字表示该文件体中所有对象的数量。接下来的是对应PDF文件每个对象的每行一条的词条,词条结构是 nnnnnnnnnn ggggg x y 其中nnnnnnnnnn是10字节的偏移量,表示从PDF文件开头到该对象开头的字节数,字节数不够10字节的则偏移量前面的数字填零;ggggg是5字节的等级号,除去O号対象外,其它对象的交叉引用表中的初始等级号均为0,毎次词条被重用,都会被赋予ー个新的等级号,最大为65535。X为对象状态关键字,有n、f、eol三个状态关键字,η表示正在使用的词条,f表示已被废弃的词条。eol为结束符。图3中的示例中指示了 O到5 —共六个对象的相关信息。
技术实现思路
本专利技术解决的技术问题是克服现有技术的不足,提供ー种将嵌入信息嵌入到TOF文件新建的文件体中并能从PDF文件中提取出嵌入信息以对PDF文件进行鉴定的基于TOF文件体的PDF文件信息嵌入和提取方法。利用本专利技术对PDF嵌入信息后能够有效解决TOF 版权认证、真伪辨别的问题,而且本专利技术对PDF文档的编辑行为具有很好的鲁棒性。为解决上述技术问题,本专利技术的技术方案如下 一种基于PDF文件体的PDF文件信息嵌入和提取方法,包括如下步骤 (1)进行隐藏信息嵌入,其具体是 读入原始PDF文件流; 读入隐藏信息进行分段,对每个隐藏信息段进行置乱,记录置乱參数; 查找并确定原始PDF文件流中的最大对象号; 将最大对象号加I作为新文件体插入的第一个新对象号,将每个隐藏信息段进行编码后作为新文件体的新对象依次写入原始PDF文件中,并生成新对象位置标志; 隐藏信息嵌入完毕后,写入新文件体对应的新交叉引用表和新文件尾,完成一次追加更新; 输出带隐藏信息的PDF文件及输出置乱參数和新对象位置标志作为密钥; (2)提取隐藏信息,其具体是 读取带隐藏信息的PDF文件流及密钥; 根据密钥中新对象位置标志,在PDF文件的数据流中查找并确定以追加更新方式写入的新对象; 提取所确定的新对象内的数据流并对其进行解码; 根据密钥中的置乱參数,将解码后的新对象数据流进行反置乱; 将进行反置乱后的数据流顺序组合并输出,得到隐藏信息。上述方案中,所述对每个隐藏信息段进行置乱,记录置乱參数的具体步骤是利用混沌映射对每个隐藏信息段进行置乱,记录映射參数作为置乱參数。上述方案中,其特征在于,所述新对象位置标志为所有隐藏信息段所对应的新对象号。上述方案中,其特征在于,所述读入隐藏信息进行分段获得隐藏信息段吋,还记录隐藏信息段的数量值; 所述对象位置标志为插入的新文件体中的第一个新对象号和隐藏信息段的数量值。与现有技术相比,本专利技术技术方案的有益效果是 本专利技术利用PDF文件追加式更新中添加的新文件体作为隐藏信息的载体,隐藏信息在文件建立之初就不可见地被写入,对文件显示层面没有任何影响,可以随着文档内容的传输而在互联网上传输,可嵌入容量足够大,不会因为传输或常用的文档编辑行为而被破坏。对于攻击者,具有隐蔽性,不易查找破坏。本专利技术作为PDF文档认证的ー种方法,可以不可见地在PDF文件中嵌入文件的作者、出处、版权等相关认证信息,对PDF文件的版权认证、真伪辨别等具有实用性。附图说明图I是原始PDF文件的结构示意图; 图2是经过追加式更新操作后的PDF文件结构 图3为PDF文件的交叉引用表具体实例效果 图4为本专利技术中进行隐藏信息嵌入的流程 图5为本专利技术中提取隐藏信息的流程 图6为本专利技术具体实施例中原始PDF文件显示效果 图7为本专利技术具体实施例中已嵌入隐藏信息的PDF文件显示效果 图8为本专利技术具体实施例中已嵌入隐藏信息的PDF文件进行各种注释、标记操作的效果 图9为本专利技术具体实施例中已嵌入隐藏信息的表单类PDF文件的显示效果 图10为本专利技术具体实施例中对已嵌入隐藏信息的表单类PDF文件进行编辑后的显示效果图。具体实施例方式下面结合附图和实施例对本专利技术的技术方案做进ー步的说明。如图4和图5所不,为本专利技术的一种基于PDF文件体的PDF文件信息嵌入和提取方法的流程图,所述方法的具体步骤如下 (SI)如图4所示,在原始PDF文件中进行隐藏信息嵌入,其具体步骤是 (511)读入原始PDF文件流; (512)按照固定长度对读入隐藏信息进行分段,然后对每个隐藏信息段进行置乱,所述置乱利用混沌映射进行,记录映射參数作为置乱參数,并记录隐藏信息段的段数; (513)在原始PDF文件流中查找并确定原始PDF文件流中的最大对象号,以此确定追加更新中新加对象的对象号; (514)将最大对象号加I作为新文件体插入的第一个新对象号,将每个隐藏信息段进行编码后作为新文件体的新对象依次写入原始PDF文件中,并生成新对象位置标志;新对象位置标志为所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于PDF文件体的PDF文件信息嵌入和提取方法,其特征在于,包括如下步骤 进行隐藏信息嵌入,其具体是 读入原始PDF文件流; 读入隐藏信息进行分段,对每个隐藏信息段进行置乱,记录置乱參数; 查找并确定原始PDF文件流中的最大对象号; 将最大对象号加I作为新文件体插入的第一个新对象号,将每个隐藏信息段进行编码后作为新文件体的新对象依次写入原始PDF文件中,并生成新对象位置标志; 隐藏信息嵌入完毕后,写入新文件体对应的新交叉引用表和新文件尾,完成一次追加更新; 输出带隐藏信息的PDF文件及输出置乱參数和新对象位置标志作为密钥; 提取隐藏信息,其具体是 读取带隐藏信息的PDF文件流及密钥; 根据密钥中新对象位置标志,在PDF文件的数据流中查找并确定以追加更新方式写入的新对象; 提取所确定的...

【专利技术属性】
技术研发人员:刘红梅李雷
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1