一种格式化输出书版小样文件内容的方法及系统技术方案

技术编号:6994397 阅读:249 留言:0更新日期:2012-04-11 18:40
本发明专利技术属于内容输出技术领域,具体公开了一种格式化输出书版小样文件内容的方法,包括下述步骤:1)读取书版小样文件内容,并基于所读取的书版小样文件内容而构建逻辑树结构;2)基于逻辑树结构而构建标签树结构;3)基于标签树结构和逻辑树结构而形成后端输出所需要的格式化文档,并根据需要输出所述格式化文档。此外,本发明专利技术还提供一种格式化输出书版小样文件内容的系统。本发明专利技术提供的系统和方法能够对书版小样文件进行良好解析、合理组织,使得欲输出的书版小样文件内容中的特殊格式内容能够在后端输出过程中保留原始意义,从而使对书版小样内容进行结构组织后将其转化为其他类型的文档并输出成为可能。

【技术实现步骤摘要】

本专利技术涉及内容输出
,具体而言,涉及一种格式化输出书版小样文件内 容的方法及系统。
技术介绍
现有技术中,书版小样文件通常是借助于书版程序的排版引擎,并按照书版小样 中定义的规范而输出到诸如显示器、打印机或印刷机等输出设备。其中,书版小样文件中包 含各类特殊的格式内容,目前能够将这样的书版小样文件内的格式化内容按照原始意义正 确呈现的方式,只有通过书版的排版引擎。然而,随着技术的进步,对于书版小样文件内容的其他形式的输出要求越来越强 烈,例如,目前就迫切需要以书籍方式输出或者以数据库的形式输出书版小样内容。但是, 现有技术中还没有一种行之有效的方法能够完好地解析书版小样文件(特别是其所包含 的诸如公式、分数式、上/下标、多行图说内容等的特殊格式信息),因而使得即便得到了书 版内容,也因没有一种合理的处理流程来将得到的内容进行有效组织,而使得不能在后端 正确呈现该书版小样内容。换言之,目前还没有能够对书版小样文件进行良好解析、合理组 织并便于在后端正确呈现的方法。
技术实现思路
为解决上述技术问题,本专利技术提供了一种格式化输出书版小样文件内容的方法及 系统,其能够对书版小样文件进行良好解析、合理组织,从而可在后端输出中提供一种结构 化的输出方式,进而完成书版小样文件内容的格式化输出效果。为此,本专利技术提供了一种格式化输出书版小样文件内容的方法,包括下述步骤1) 读取书版小样文件内容,并基于所读取的书版小样文件内容而构建逻辑树结构;2)基于逻 辑树结构而构建标签树结构;3)基于标签树结构和逻辑树结构而形成后端输出所需要的 格式化文档,并根据需要输出所述格式化文档。其中,在所述步骤1)中,提取书版小样文件内容,并按照段落组织构建逻辑树结 构,所述逻辑树结构包括段落正文内容和与正文内容有关的格式信息。其中,在所述逻辑树结构中,每一段落可划分为若干格式片断,其中的每一格式片 断包含相应的具体格式信息。其中,在所述步骤2)中,根据需要输出的内容,按照匹配规则自动或者手动提取 相关信息,以便对逻辑树结构中的相关信息进行处理而生成有关所述输出内容的标签树结 构。其中,在所述标签树结构中,普通文字内容可以直接从逻辑树结构中获得,而对于 无法按普通文字组织的特殊格式信息,则在提取的文字内容上下文关系中用特殊格式助记 符表示,并且每一个特殊助记符对应逻辑树结构上相应段落内的特殊格式片断记录。其中,在所述步骤3)中,若遇到普通文字内容,则直接输出该普通文字内容以构成后端输出所需要的格式化文档。若遇到由特殊格式助记符标示的内容,则根据该助记符 在相应段落的位置到逻辑树结构中查找相应的特殊格式片断,并且对后端输出引擎可以处 理的特殊格式片断,提取和组织具体格式信息,以在后端输出引擎中按照结构化的内容进 行格式化输出;对后端输出引擎无法处理的特殊格式片断,根据特殊格式片断记录中所提 取的信息构建合法的书版小样片断,利用书版的发排引擎将其输出为图片文件,以在后端 输出引擎中的相应部位插入该图片文件。其中,所述步骤;3)具体包括下述步骤31)在标签树结构中读取格式分块。32) 判断所读取的格式分块是否为普通文字,若是,则直接输出该文字内容;若否,则转到步骤 33)。33)检索逻辑树结构,以找到该格式分块所对应的位置。34)判断相应位置的格式片 断是否可以解析,若是,则转到步骤35 ;若否,则转到步骤36)。35)判断所述格式片断中的 格式信息是否为特定格式信息,若是,则以该特定格式输出相应内容;若否,则输出占位符。36)将所述格式片断作为书版小样片断提取出来,并将所提取的书版小样片断生成图片。37)输出步骤36)中所生成的图片。重复上述步骤31)至步骤37),直至标签树结构中的全 部内容输出完毕。其中,所述特殊格式信息包括但不限于数学公式和/或分数式和/或上下标和/ 或补字处理格式信息和/或多行图说内容格式信息。此外,本专利技术提供一种格式化输出书版小样文件内容的系统,包括下述单元书版 小样读取单元,用于读取书版小样文件内容;逻辑树结构构建单元,用于基于所读取的书版 小样文件内容而构建逻辑树结构;标签树结构构建单元,用于基于逻辑树结构而构建标签 树结构;以及格式化及输出单元,用于基于标签树结构和逻辑树结构而形成后端输出所需 要的格式化文档,并根据需要输出所述格式化文档。其中,在所述逻辑树结构中,每一段落可划分为若干格式片断,其中的每一格式片 断包含相应的具体格式信息。其中,所述标签树结构构建单元按照匹配规则自动或者手动提取相关信息,以便 对逻辑树结构中的相关信息进行处理而生成有关所述输出内容的标签树结构。其中,在所述标签树结构中,普通文字内容可以直接从逻辑树结构中获得,而对于 无法按普通文字组织的特殊格式信息,则在提取的文字内容上下文关系中用特殊格式助记 符表示,并且每一个特殊助记符对应逻辑树结构上相应段落内的特殊格式片断记录。其中,格式化及输出单元在进行格式化和输出时,若遇到普通文字内容,则直接输 出该普通文字内容以构成后端输出所需要的格式化文档。若遇到由特殊格式助记符标示的 内容,则根据该助记符在相应段落的位置到逻辑树结构中查找相应的特殊格式片断,并且 对后端输出引擎可以处理的特殊格式片断,提取和组织具体格式信息,以在后端输出引擎 中按照结构化的内容而格式化输出;对后端输出引擎无法处理的特殊格式片断,根据特殊 格式片断记录中所提取的信息构建合法的书版小样片断,利用书版的发排引擎将其输出为 图片文件,以在后端输出引擎中的相应部位插入该图片文件。其中,所述特殊格式信息包括但不限于数学公式和/或分数式和/或上下标和/ 或补字处理格式信息和/或多行图说内容格式信息。相对于现有技术,本专利技术具有下述有益效果本专利技术提供的格式化输出书版小样文件内容的方法及系统,由于可根据书版小样文件内容而构建逻辑树结构,并可基于预定规则和逻辑树结构而构建标签树结构,因而使 得欲输出的书版小样文件内容(特别是其中的特殊格式内容)能够在后端输出过程中保留 原始意义(例如,原有的内容和格式),从而使对书版小样内容进行结构组织后将其转化为 其他类型的文档并进行输出成为可能。附图说明图1是本专利技术所涉及的书版小样文件的逻辑树结构示意图;图2是本专利技术所涉及的标签树结构示意图;图3是本专利技术一个具体实施例提供的格式化输出书版小样文件内容的方法流程 示意图;以及图4是本专利技术一个具体实施例所涉及的书版特殊结构内容的输出流程示意图。 具体实施例方式为了使本
的人员更好地理解本专利技术的技术方案,下面结合实施例和附图 对本专利技术提供的格式化输出书版小样文件内容的方法及系统进行详细描述。首先需要说明的是,在本专利技术提供的格式化输出书版小样文件内容的方法及系统 中,需要构建逻辑树结构和标签树结构。下面结合图1和图2详细说明逻辑树结构和标签 树结构。请参阅图1,其中示出了根据书版小样内容而构建的逻辑树结构。所谓书版,指的 是一种通过在正文中插入格式信息(注解命令)的可编辑文本文件。通常,逻辑树结构是按 照段落(亦称为Para)来对书版小样文件的内容进行组织的,其中,每个段落又可划分为一 个个格式片断(亦称为Range),每个格式片断中包含有具体的格式信息(亦称为Style)。 例如,在本文档来自技高网
...

【技术保护点】
1.一种格式化输出书版小样文件内容的方法,其特征在于,包括下述步骤:1)读取书版小样文件内容,并基于所读取的书版小样文件内容而构建逻辑树结构;2)基于逻辑树结构而构建标签树结构;3)基于标签树结构和逻辑树结构而形成后端输出所需要的格式化文档,并根据需要输出所述格式化文档。

【技术特征摘要】

【专利技术属性】
技术研发人员:严昌华缪萍
申请(专利权)人:北大方正集团有限公司北京北大方正电子有限公司
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1