本发明专利技术实施例提供了一种流式文档的处理方法及装置,用于将流式文档转化为版式文档,并正确呈现由文本和图形图像组成的组合图形图像。该方法包括:从流式文档中获取由图形图像与文本组成的组合图形图像的信息;其中包括图形图像的锚点信息和文本的属性信息;根据所述文本的属性信息和所述图形图像的锚点信息,确定各文本句的坐标;根据所述组合图形图像的信息和所述各文本句的坐标,将组合图形图像映射至版式文档。
【技术实现步骤摘要】
【专利摘要】本专利技术实施例提供了一种流式文档的处理方法及装置,用于将流式文档转化为版式文档,并正确呈现由文本和图形图像组成的组合图形图像。该方法包括:从流式文档中获取由图形图像与文本组成的组合图形图像的信息;其中包括图形图像的锚点信息和文本的属性信息;根据所述文本的属性信息和所述图形图像的锚点信息,确定各文本句的坐标;根据所述组合图形图像的信息和所述各文本句的坐标,将组合图形图像映射至版式文档。【专利说明】一种流式文档的处理方法及装置
本专利技术涉及文档转换领域,尤其涉及一种流式文档的处理方法及装置。
技术介绍
首先对本专利技术涉及的术语名词进行介绍: 版式文档:是一种独立于软件、硬件、操作系统、呈现/打印设备的文档,例如 pdf,cebx等格式的版式文档。一个版式文档可以包含多个页面,每个页面由与设备和分辨 率无关的若干的图元(即版面对象,页面上呈现内容的最基本单元,如文本、图形、图像、表 格、多媒体等类型图元,也包括基于这些基本图元组合而成的复合图元)组成。 版式文档的常见基本特性:原版原式呈现(文本图像等内容及其位置大小、色彩 等版式信息在不同平台软硬件上呈现/打印显示效果一致);文档内容等数据的结构化描 述(无论采用XML还是二进制描述方式,其文档格式都具有结构化特征);交互性(动画, 多媒体,执行动作动等);安全性(数字签名等)等。近年来也增添了许多新特性:多样化 互联网应用(线性化边下载边阅读、"一次出版,多平台应用,多途径传播"等);移动阅读灯 设备自适应性(要求原版原式的版式文档能在手机等各种大小不一的设备中自动调整文 档内容的呈现,如同办公软件等流式文档天然具备自适应特点)等。 流式文档:如Office文档,它描述的不是排版后生成的具有版面呈现所需要的所 有数据的文档(即版式文档),其相关(流式)数据通常不具有固定位置大小等版面信息, 每次加载文档时需要类似流水线式的对这些数据从头到尾进行重新排版计算得到相关位 置信息,然后才能呈现出来。 结构化信息:关于文档(流式、版式等类型)的逻辑结构的信息,包括文章、节、段 落等逻辑结构,以及显示样式信息。结构化信息可用于实现版面内容的重排(Reflow),以适 应不同屏幕尺寸的设备特别是移动设备的需求。常见粗粒度的逻辑结构单元有:区域、排版 框、段落、表格等。细粒度的基本逻辑结构单元有:文本句、图形、图像、公式、图表、多媒体对 象、复合对象等。这些富有语义的逻辑数字内容对象在流式文档、版式文档等中的数据逻辑 结构描述通常都是有差异的。 文本句:Run or Span,段落内最小的逻辑文字单元,连续的文本以是否具有相同 文字属性为依据来划分为若干个句。段落内被其它单元对象如图形图像等锚点对象分割开 始的即便有相同文字属性也会划分有不同的句。 复合图元:多个基本图元组合后形成的一个图元,类似办公文档中多个基本图形 等对象组合Group后形成的一个整体性对象,该对象还可进一步复原(拆分)为组合前的 对象。 图形图像:简单地讲图形用于表达各种形状shape,例如矩形,直线,曲线等,通 常采用矢量化方式来描述它们(内部都可以转换到自由路径path方式来统一表达);图像 (Image)即常见的图片,当然图形也可以用图像来表示,但大小相对矢量化描述的图形会大 不少。 锚点anchor :通常流式文档的逻辑结构中除了文字段落对象之外的对象如图形、 图像、图表、表格、公式、多媒体等对象都是要挂载(或锚)在某个其他节点对象(如段落对 象、文档页面对象等)之上的,在结构上它们是无法独 立存在的,必须依附中其他对象上,我们统一称这些锚在别的对象上的对象为锚点对象。此 外若锚点对象锚到段落或页面则此时锚点对象会记录其(x,y)的相对位置坐标,可统一换 算到页面坐标。但若该锚点对象作为字符(As Char)锚到段落文本中的某个字符上,则其 流式格式信息中只记录其相对文本行基线(Baseline)的垂直位置信息。锚点对象内的段 落文本或组合对象的位置通常是相对该锚点对象进行记录的,其中的段落文本通常还有相 对于该锚点对象的水平和垂直对齐描述信息,还有通用的段落文本属性组信息。 在文档转换领域,通常利用虚拟打印技术将流式文档(例如办公软件Microsoft Off ice文档)转换为版式文档(例如Apabi CEBX文档),但该技术只能得到纯版式信息。而其中的流式信息(如文档中的图形图像)利用 Microsoft Word等应用程序提供的二次开发应用接口就可以获取。最后若要得到一份在移 动设备上可阅读的兼版流式信息一体的版式文档,则需要将上述二者相关的纯版式信息和 待提取的流式信息结合起来以生成最终的版式文档。 制作带流式图形图像结构化信息的版式文档,现有公开的技术为采用虚拟打印技 术将流式图形图像结构化信息(包含其中的文字信息)简单地生成对应的版式文档图形、图 像、文本图元,并以页面图元块方式关联到其对应的流式结构化信息中。其缺陷是:在各种 移动设备阅读器中重排呈现图形图像信息时,要么图形图像信息丢失,要么只能呈现图形 图像中的文本信息,要么以多段落分别呈现图形图像和其中的文本信息。参见图1,为图形 阅读效果正确和错误比对示意图。 造成此缺陷的根本原因在于:一、版式文档中除了复合图元,其结构化信息中目前 尚无同时呈现带文本信息的图形图像,因此要么取舍其一(图1错误效果2和3)、要么二者 兼得,但以分离的模式提供(图1错误效果1)。二、采用类似虚拟打印技术智能识别带文本 信息的图形图像为复合图元是很困难的这往往是由于相互矛盾导致的:即这种情况被识别 为复合图元,但浮动于文本上的图形图像则显然会被识别错误。 因此,现有技术将流式文档转化为版式文档时,不能正确处理由文本和图形图像 组成的组合图形图像。
技术实现思路
本专利技术实施例提供了一种流式文档的处理方法及装置,用于将流式文档转化为版 式文档,并正确呈现由文本和图形图像组成的组合图形图像;增强文档在不同设备上显示 时的自适应性,提高用户体验。 本专利技术实施例提供的一种流式文档的处理方法包括: 从流式文档中获取由图形图像与文本组成的组合图形图像的信息;其中包括图形 图像的锚点信息和文本的属性信息; 根据所述文本的属性信息和所述图形图像的锚点信息,确定各文本句的坐标; 根据所述组合图形图像的信息和所述各文本句的坐标,将组合图形图像映射至版 式文档。 本专利技术实施例提供的一种流式文档的处理装置包括: 识别模块,用于从流式文档中获取由图形图像与文本组成的组合图形图像的信 息;其中包括图形图像的锚点信息和文本的属性信息; 坐标确定模块,用于根据所述文本的属性信息和所述图形图像的锚点信息,确定 各文本句的坐标; 映射模块,用于根据所述组合图形图像的信息和所述各文本句的坐标,将组合图 形图像映射至版式文档。 通过以上技术方案可知,本专利技术中从流式文档中获取由图形图像与文本组成的组 合图形图像的信息;其中包括图形图像的锚点信息和文本的属性信息;根据所述文本的属 性信息和所述图形图像的锚点信息,确定各文本句的坐标;根据所述组合本文档来自技高网...
【技术保护点】
一种流式文档的处理方法,其特征在于,该方法包括:从流式文档中获取由图形图像与文本组成的组合图形图像的信息;其中包括图形图像的锚点信息和文本的属性信息;根据所述文本的属性信息和所述图形图像的锚点信息,确定各文本句的坐标;根据所述组合图形图像的信息和所述各文本句的坐标,将组合图形图像映射至版式文档。
【技术特征摘要】
【专利技术属性】
技术研发人员:王长胜,邢国峰,
申请(专利权)人:北大方正集团有限公司,北京方正阿帕比技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。