本发明专利技术实施例公开了一种用于文档构建的数据加工方法和装置,该方法包括:根据文档类型将所述文档分成至少一个信息层次,定义每个信息层次对应的语法规则;根据所述语法规则,生成文档中每个信息层次所对应的目标文件。本发明专利技术实施例中事先根据文档类型确定信息层次及其对应的语法规则,可以针对该类型的文档有针对性的产生目标文件,从而完成数据加工,实现电子显示,因此,大大提高了电子文档显示时的灵活性。
【技术实现步骤摘要】
本专利技术涉及通信领域,特别涉及一种用于文档构建的数据加工方法和装置。
技术介绍
随着互联网的快速发展,各种媒体传播方式层出不穷,数字资源传播越发的快速和普及,从而带来了阅读方式的改变。大量的读者从传统的纸质阅读转变为利用计算机等电子设备进行电子阅读。在文档数字化的过程中,为了实现文档的数字化显示,需要对文档进行数据加工, 并对其中的数据格式进行定义。但是,目前主要基于以下两种格式来显示数据加工后的文档第一种格式采用图片的形式,将文档生成图片,供用户在线阅读;第二种格式采用HF文件的形式,将文档生成PDF文件,供用户下载或在线阅读。但是,这两种方式都存在一定的缺陷采用图片形式时,即使对传输图片进行压缩,压缩比也比较低,不能从根本上节省带宽和传输时间,而且还会损失图片的清晰度。采用PDF文件形式时,若对其在线阅读可能还需要用户端安装相应的插件,不够便捷。由此可见,现有技术普遍存在如下缺陷在对文档进行数据加工时,没有专门定义能够在网络中传输以及在用户端展示的数据格式;且用户端很难从图片中解析出构成文档的各种元素,如文本、图片等,自然也无法控制这些元素的展示样式和风格,因此缺乏灵活性,同时导致生成的电子文档的可扩展性不好。
技术实现思路
本专利技术提供了一种用于文档构建的数据加工方法和装置,用以解决现有技术中的数据加工方法在显示时缺乏灵活性的问题。一种用于文档构建的数据加工方法,包括根据文档类型将所述文档分成至少一个信息层次,定义每个信息层次对应的语法规则; 根据所述语法规则,生成文档中每个信息层次所对应的目标文件。一种用于文档构建的数据加工装置,包括 定义单元,用于根据文档类型将所述文档分成至少一个信息层次,定义每个信息层次对应的语法规则; 生成单元,用于根据所述语法规则,生成文档中每个信息层次所对应的目标文件。本专利技术实施例中事先根据文档类型,为不同类型的文档确定出至少一个信息层次,并为每个信息层次制定对应的语法规则,在后续对文档进行电子显示时,只需根据事先确定的各个信息层次以及对应的语法规则,生成对应的目标文件即可。通过事先根据文档类型确定信息层次及其对应的语法规则,可以针对该类型的文档专门制定语法规则,有针对性的产生目标文件,从而实现数据加工,并可以进行电子显示,因此,大大提高了电子显示时的灵活性。附图说明图I为本专利技术实施例提供的一种用于文档构建的数据加工方法流程 图2为报纸的数据结构 图3为本专利技术实施例中基于报纸数据的信息结构 图4为本专利技术实施例提供的一种用于文档构建的数据加工装置结构图。·具体实施例方式本专利技术实施例提供了一种用于文档构建的数据加工方法和装置,可以解决现有技术中的文档数据加工方法在显示时缺乏灵活性的问题。本专利技术实施例提供了一种用于文档构建的数据加工方法,如图I所示,包括 SlOl :根据文档类型将所述文档分成至少一个信息层次,定义每个信息层次对应的语法规则。S102 :根据所述语法规则,生成文档中每个信息层次所对应的目标文件。在本实施例中,可以事先根据特定类型文档的特点,将该类型的文档分为至少一个信息层次,并为每个信息层次定义对应的语法规则,具体的,由于文档的信息层次最终会被加工为目标文件,通过目标文件进行显示,因此,定义每个信息层次对应的语法规则也可以理解为定义每个信息层次对应的目标文件的语法规则。这里,目标文件类型可以是可扩展标记语言(Extensible Markup Language, XML)文件,也可以是超文本标记语言(Hyper Text Mark-up Language,HTML)文件等,通过采用不同的编程语言可生成不同类型的目标文件。当所述目标文件为XML文件时,所述语法规则通过XML文件的文档类型定义(Document Type Definition , DTD)进行定义,所述DTD中包含生成该信息层次所对应的XML文件时所需的元素和属性。并且,在利用所述目标文件对文档进行电子显示时,还可以进一步根据定义的语法规则验证目标文件是否符合规范。具体实现时,可以根据文档类型的特点,将该类型的文档分为多个信息层次,例如,当文档类型为报纸时,报纸的数据结构如图2所示,每份报纸包含若干个版面,每个版面上又各自包含具体的文本信息和图片信息,因此,可以将报纸这一类型的文档分成两个信息层次,即第一信息层次和第二信息层次。其中,第一信息层次包括版面名称和版面路径信息,还可以包括报纸的相关信息,如报文封皮等,其中,版面名称主要指报纸共分为多少个版面以及每个版面的名称等,版面路径信息包括该版面所对应的目标文件的路径。第二信息层次包括版面上的文章及图片信息等。而且,当目标文件的语法规则通过XML文件的DTD来定义时,第一信息层次对应的XML文件的DTD中的元素主要包括报纸类型、版面列表和版面概要,其中,报纸类型对应的属性包括报纸名称和发行时间,版面概要对应的属性包括版面编号、版面标题、版面统一资源定位符(Universal Resource Locator ,URL)地址和版面封皮。所述第二信息层次对应的XML文件的DTD中的元素包括文章列表和文章信息。并且,为了便于用户阅读相关的内容,所述第一信息层次或第二信息层次对应的XML文件的DTD中的元素还可以包括指向其他文件的链接。如果文档属于其他类型时,例如,要显示的文档为书籍,则可以根据书籍的特点,事先将书籍这一类型的文档分为多个信息层次,如将书籍的章节信息作为第一信息层次,将每个章节的具体内容作为第二信息层次,分别为第一信息层次和第二信息层次对应的目标文件制定语法规则。在后续显示具体的书籍时,则直接根据第一信息层次和第二信息层次对应的语法规则生成相应的目标文件即可。通过采用本实施例提供的用于文档构建的数据加工方法,事先根据文档类型,为不同类型的文档确定出至少一个信息层次,并为每个信息层次所对应的目标文件制定语法规则,在后续对文档进行数据加工时,只需根据事先确定的各个信息层次以及对应的目标文件的语法规则,生成对应的目标文件即可。通过事先根据文档类型确定信息层次及其对应的目标文件的语法规则,可以针对该类型的文档有针对性的产生目标文件,从而利用目标文件实现显示,因此,大大提高了显示时的灵活性。 下面以一个优选实施例详细描述一下本专利技术提供的用于文档构建的数据加工方法。在本实施例中,以报纸类型的文档为例进行说明,但是本领域技术人员应当理解,其他类型的文档也可以应用本专利技术中提供的方法进行数据加工并显示,并不仅限于报纸这一种类型。另外,在本实施例中,采用可扩展标记语言,所产生的目标文件为XML文件,当然,也可以根据需要选择其他的语言来生成其他类型的目标文件,如HTML文件等,并不仅限于XML文件这一种实现方式。本实施例中报纸数据的信息结构如图3所示,分为包括版面名称、版面路径信息以及报纸相关信息,如报纸封皮等的第一信息层次,以及包括版面上的文章及图片信息等的第二信息层次。为了将报纸数据生成XML文件,并规范生成的XML文件格式以及XML文件所采用的标记元素,以便于后续对生成的XML文件进行验证,以确保XML文件格式正确且符合规范,可针对第一信息层次和第二信息层次分别定义一套标记元素,也可以称作文档类型定义DTD。在本实施例中,将第一信本文档来自技高网...
【技术保护点】
一种用于文档构建的数据加工方法,其特征在于,包括:根据文档类型将所述文档分成至少一个信息层次,定义每个信息层次对应的语法规则;根据所述语法规则,生成文档中每个信息层次所对应的目标文件。
【技术特征摘要】
1.一种用于文档构建的数据加工方法,其特征在于,包括 根据文档类型将所述文档分成至少一个信息层次,定义每个信息层次对应的语法规则; 根据所述语法规则,生成文档中每个信息层次所对应的目标文件。2.如权利要求I所述的方法,其特征在于,所述目标文件类型为XML文件。3.如权利要求2所述的方法,其特征在于,所述语法规则通过XML文件的DTD进行定义,所述DTD中包含生成该信息层次所对应的XML文件时所需的元素和属性。4.如权利要求I所述的方法,其特征在于,当所述文档类型对应为报纸时,将报纸分成第一信息层次和第二信息层次。5.如权利要求4所述的方法,其特征在于,所述第一信息层次包括版面名称和版面路径信息,所述第二信息层次包括版面上的文章及图片信息。6.如权利要求4所述的方法,其特征在于,当所述语法规则通过XML文件的DTD进行定义时,所述第一信息层次对应的XML文件的DTD中的元素包括报纸类型、版面列表和版面概要;其中,...
【专利技术属性】
技术研发人员:文秀,
申请(专利权)人:汉王科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。