基于HTML标签属性序列的信息隐藏及提取方法技术

技术编号:12061983 阅读:77 留言:0更新日期:2015-09-17 12:43
本发明专利技术公开了一种基于HTML标签属性序列的信息隐藏及提取方法,步骤一、确定要隐藏的信息,转化为二进制Unicode;步骤二、确定“0”和“1”对应标签属性对表示方法。“0”由不同标签的二个属性表示,“1”由同一标签的二个属性表示;步骤三、确定序列码K;Unicode由8位二进制数组成,选取9个1(多一位),中间随机插入若干个0,组成本次信息隐藏序列码K;步骤四、参照序列码K确定9个标签属性按顺序放在“1”的位置,补充其余标签属性按顺序放在“0”位置,合成HTML文件标签属性序列;步骤五、根据合成HTML文件标签属性序列编写代码。本发明专利技术有益效果是:不需要数据库的支持,大大提高了网页执行效率。

【技术实现步骤摘要】

本专利技术涉及信息隐藏及提取方法,更具体说,它涉及一种基于HTML标签属性序列 的信息隐藏及提取方法。
技术介绍
HTML (Hyper Text Markup Language,超文本标记语言)是随着因特网技术而发展 起来的,是一种信息组织与管理技术,用于制作网页或作为电子邮件等在网上传递信息的 一种超文本标记语言。由于HTML可实现相关文字和数据的链接及文件与文件之间的超级 链接。与文本相比,超文本具有更丰富的多媒体内容和效果;与其它字处理文件相比,信息 量又相对较小,这一点对于网上传递多媒体信息是十分重要的。由于这些突出的特点,使得 这种格式文件在因特网的网站以及E-mail上广泛使用,而相应的信息安全问题也同时出 现。因此,HTML信息隐藏技术的研宄也就应运而生。 HTML页面是由一系列标签组合而成的,可以用来表示层次结构。每个标签可以有 属性,也可以有子标签、文本或者两者都有。超文本文件不同于一般的纯文本文件,它是由 标签和数据两部分组成。标签是用于控制数据显示格式和效果的,由浏览器解析执行的命 令,相当于程序的指令;数据即是文件中包含的能够在浏览器上显示出来的文字、图片和动 画等多媒体资料。标签用"〈"和"〉"括起来,有单标签和双标签两种类型。单标签只需单 独使用,格式是:〈标签名称〉,如〈BR>标签表不换彳丁的意思;双标签必须是起始标签和结 束标签成对出现,格式是:〈标签〉内容〈/标签),如〈HTML〉一〈/HTML)标签。大部分标签 还可以具有属性和属性值,带属性的标签的格式是:〈标签名称属性名称="属性值"〉。 HTML标记元素分为以上几种类型: (1)结构性标记,用来描述文字的意图。比较常用的结构性标记有html元素(标 记HTML内容的开始和结束)、head元素(标记HTML文件头)、title (标记HTML文件的 标题)、body元素(标记HTML文件正文的开始和结束)。一个基本的HTML文档至少包括 〈html>,〈head〉和〈body〉三个标签。 (2)呈现性标记,用来描述文字的外观。如<b>bold〈/b>表示给文字加粗, <i>italic〈/i>表示设置文字为斜体。 (3)超文本标记,用来将文档的一部分关联到其他文档。如〈a href = "aa. html " >〈/a>等超链接标记。 (4)框架页面标记,用来描述如何显示框架网页,较低版本的浏览器并不支持该功 能。如〈framesetX/frameset〉等框架标记。每个HTML文档都是以标签开始,由 标签结束。每个HTML文档由文档头(head)和正文(body)两个部分组成,并分别 用〈head〉和〈/head〉以及〈body〉和〈/body〉来做标记。文档头标签〈head〉和〈/head〉之 间可包含文档的名称(title),用〈title〉和〈/title〉标记。正文标签〈body〉与〈body〉 之间含有用各种HTML标签做标记的段落、列表以及其他元素组成的实际文档。 网页信息隐藏技术是将信息隐藏到网页文件中,隐藏的信息与网页原始文件数据 紧密结合,同时要求隐藏的信息不破坏原始文件的结构及质量,不使文件所表征内容的视 觉特性产生异常。现有的基于HTML标签的网页信息隐藏方法主要分为以下三种: (1)基于不可见字符的方法:早在2001年,就有研宄人员提出通过在每行行末加 入不可见字符如空格键和Tab键,可以将信息隐藏在网页中而又不影响网页在浏览器中的 显示效果,如已经商品化的网页信息隐藏软件Invisible Secret,Wbstego, FFEncode等都 是利用这种方法来隐藏信息的。 (2)基于标记中字母大小写变化的方法:使用主成分分析方法提取出网页的摘要 信息,然后利用网页中标签的大小写无关字符插入隐藏信息的方法。 (3)基于属性对顺序的方法:一种基于等价标记的网页信息隐藏算法。该方法将 待隐藏的秘密信息转变为一个大整数,按照嵌入规则,采用等价标记置换原标记的方法将 大整数隐藏在网页中。该算法没有增加网页文件的长度,具有较高的隐蔽性和安全性。 对以上三种信息隐藏方法的优缺点进行比较分析,如表1所示。 表1三种信息隐藏方法的优缺点分析 从表1中可以看出,不可见字符方法和标记大小写方法隐藏算法主要存在的缺 陷:增加文件长度、易检测、易攻击等缺陷。而基于属性对顺序方法虽然抗检测性较好,但隐 藏容量较小,而且信息提取时需原始数据库支持。如果能克服隐藏容量较小和需要数据库 支持的缺点,基于属性对顺序的隐藏算法无疑是三种方法中最好的。本文提出了一种基于 标签属性序列的方法,该方法能较好解决隐藏容量较小的问题,而且不需要数据库支持,大 大提高了算法的执行效率。
技术实现思路
本专利技术的目的是克服现有技术中的不足,提供一种能较好解决隐藏容量较小的问 题,而且不需要数据库支持,大大提高了算法的执行效率的基于HTML标签属性序列的信息 隐藏及提取方法。 这种基于HTML标签属性序列的信息隐藏方法,包括如下步骤: 步骤一、确定要隐藏的信息,转化为二进制的Unicode ; 步骤二、确定"0"和"1"对应的标签属性对表示方法。"0"由不同标签的二个属性 来表不,"1"由同一标签的二个属性来表不; 步骤三、确定序列码K ;Unic〇de由8位二进制数组成,选取9个1 (多一位),然后 中间随机插入若干个0,组成本次信息隐藏的序列码K; 步骤四、参照序列码K确定9个标签属性按顺序放在"1"的位置上,补充其余标签 属性按顺序放在"〇"位置上,合成HTML文件的标签属性序列; 步骤五、根据合成HTML文件的标签属性序列编写HTML代码。 一种基于HTML标签属性序列的信息提取方法,包括如下步骤: 步骤一、从隐藏信息的HTML代码中按顺序提取所有标签属性; 步骤二、序列码K和标签属性序列按位匹配; 步骤三、删除"0"位置所在的标签属性,确定保留的标签属性序列; 步骤四、根据标签属性序列确定隐藏的二进制序列;不同标签的二个属性来表示 "0",同一标签的二个属性来表示"1" ; 步骤五、二进制序列转化为Unicode对应的字符,从而提取出隐藏的信息。 本专利技术的有益效果是:基于网页标签的信息隐藏方法是目前基于HTML信息隐藏 中用的比较多的方法。其中基于不可见字符的方法,可以通过连续插入任意多个符号使得 隐藏的容量可以任意,该方法除了会增加网页的大小之外,如果以二进制形式打开网页代 码,当看见许多连续的空格时,会非常容易发现此处隐藏了信息。基于标记中字母大小写变 化的方法,如果改变字母的大小写太有规律,或者太杂乱无章,也比较容易被攻击者发现隐 藏了信息。而常用的基于标签属性对顺序的方法,虽然实现简单,隐蔽性好,不增加文件大 小。但是需要数据库记录原始属性对顺序,如果隐藏信息量多的当前第1页1 2 本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/CN104915409.html" title="基于HTML标签属性序列的信息隐藏及提取方法原文来自X技术">基于HTML标签属性序列的信息隐藏及提取方法</a>

【技术保护点】
一种基于HTML标签属性序列的信息隐藏方法,其特征在于:包括如下步骤:步骤一、确定要隐藏的信息,转化为二进制的Unicode;步骤二、确定“0”和“1”对应的标签属性对表示方法。“0”由不同标签的二个属性来表示,“1”由同一标签的二个属性来表示;步骤三、确定序列码K;Unicode由8位二进制数组成,选取9个1(多一位),然后中间随机插入若干个0,组成本次信息隐藏的序列码K;步骤四、参照序列码K确定9个标签属性按顺序放在“1”的位置上,补充其余标签属性按顺序放在“0”位置上,合成HTML文件的标签属性序列;步骤五、根据合成HTML文件的标签属性序列编写HTML代码。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈国宏
申请(专利权)人:浙江大学城市学院
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1