一种扫描版文档重排版的方法技术

技术编号:8241678 阅读:204 留言:0更新日期:2013-01-24 22:37
本发明专利技术公开了一种扫描版文档重排版的方法,首先将扫描版文档生成图像,转化为二值图,对二值图进行游程平滑、求取连通域、水平合并和垂直合并,得出文字段落位置,根据获得的图片位置和文字段落位置,确定文档段落区域,计算每个文档段落区域的宽高之比和显示屏幕的宽高之比,判断文档段落区域的宽高之比是否满足预设条件,如果满足则不处理,如果不满足,则拆分成多个的满足预设条件的文档段落区域;确定所有文档段落区域的阅读顺序,并按照顺序提供逐屏阅读。采用了本发明专利技术的技术方案,能够对电子阅读中扫描版文档进行自动分栏,将扫描版文档根据自动划分的区域逐屏显示,减少选择放大区域的频率。

【技术实现步骤摘要】

本专利技术涉及电子阅读
,尤其涉及。
技术介绍
在科学技术日新月异的今天,尤其是伴随着互联网技术的高速发展,人们的阅读习惯不再只局限于传统的纸质出版物阅读,电子阅读已经非常普及并且比重正在逐渐加大。由于电子阅读终端(电子书、手机等)的便携性,人们可以在生活中的碎片时间里进行电子阅读,比如乘坐公交车、地铁时,甚至在排队买票的几分钟时间里也可以进行电子阅读。电子阅读素材的来源多种多样,有些来自电子出版物,有些来自纸质出版物的扫描版本。但是由于电子阅读终端的便携性,必然造成阅读屏幕的尺寸受限。在当前各种电子阅读终端的阅读体验中,对于扫描版文档的阅读非常不方便,如果将书页大小尺寸的扫描 图片全部显示在小尺寸屏幕中会觉得字太小;如果采用将扫描图片局部放大的方式阅读,需要频繁地选择放大区域,会影响用户的阅读体验。
技术实现思路
本专利技术的目的在于提出,能够对电子阅读中扫描版文档进行自动分栏,将扫描版文档根据自动划分的区域逐屏显示,减少选择放大区域的频率。为达此目的,本专利技术采用以下技术方案 ,包括以下步骤 A、将扫描版文档生成图像,转化为二值 B、对二值图进行游程平滑,并对游程平滑处理后的二值图求取连通域,把同值的且连通的一块区域的外接矩形的位置记录下来,作为初始块位置信息; C、将初始块进行水平合并,得出文字的行信息和图片位置,再将水平合并后的块进行垂直合并,得出文字段落位置; D、根据获得的图片位置和文字段落位置,确定文档段落区域; E、计算每个文档段落区域的宽高之比r,计算显示屏幕的宽高之比R; F、如果一个文档段落区域的宽高之比满足以下公式 r e ,其中dl和d2为预设的正的常数,则不处理所述文档段落区域,如果不满足,则将所述文档段落区域拆分成不少于2个的满足所述公式的文档段落区域; G、确定所有文档段落区域的阅读顺序,并按照顺序将获得的文档段落区域放大或缩小至需要显示的尺寸,提供逐屏阅读。步骤A中,采用全局自适应阈值方式将生成的图像转化为二值图。步骤F中,将所述文档段落区域拆分成不少于2个的满足所述公式的文档段落区域时,拆分的分割线在空白区域。或者步骤F中,将所述文档段落区域拆分成不少于2个的满足所述公式的文档段落区域时,采用将所述文档段落区域进行等分的方式。步骤G中确定所有文档段落区域的阅读顺序进一步包括以下步骤 Gl、设步骤D中获得的文档段落区域的数量为n,整个文档用集合表示为S= {BI,B2,…,Bn},其中Bn表示第η个文档段落区域,设(Xi,Yi)表示文档段落区域Bi的左上顶点的坐标,其中 1=1 2, ···, η ; G2、对整个文档S中元素进行调整,使调整后的S= {BI,Β2,…,Bn}满足以下条件对于Bi和Bj,并且i〈j,若Yi e ,其中al和a2为正的常数,则满足Xi < Xj,否则需满足Yi SYj ; G3、若步骤F中文档段落区域Bi被拆分为S’ ={P1,P2,…,Pk},按照步骤G2的要求去调整S’中元素的位置,得到调整后的S’={P1,P2,…,Pk},其中Pk表示调整后的第k个文 档段落区域,k为正整数; G4、对于每个被拆分的文档段落区域Bi,将采用步骤G3得到的调整后的S’中的元素全部加入到S中Bi所在的位置,并将Bi从S中删除,得到新的集合S” = {Ql,Q2,…,Qm},其中Qm表示调整后的第m个文档段落区域,m为正整数; G5、采用Ql,Q2,…,Qm的顺序确定阅读文档段落区域的顺序。采用了本专利技术的技术方案,能够对电子阅读中扫描版文档进行自动分栏,将扫描版文档根据自动划分的区域逐屏显示,减少选择放大区域的频率,从而提高用户电子阅读的感受度。附图说明图I是本专利技术具体实施方式中扫描版文档重排版的流程图。具体实施例方式下面结合附图并通过具体实施方式来进一步说明本专利技术的技术方案。图I是本专利技术具体实施方式中扫描版文档重排版的流程图。如图I所示,该扫描版文档重排版的流程包括以下步骤 步骤101、将扫描版文档生成图像,转化为二值图。可以有多种方法将原始图像转换为二值图,如全局自适应阈值方法、局部阈值方法等等。为了不失一般性,采用全局自适应阈值方法转换二值图。步骤102、对二值图进行游程平滑,并对游程平滑处理后的二值图求取连通域,把同值的且连通的一块区域的外接矩形的位置记录下来,作为初始块位置信息. 步骤103、将初始块进行水平合并,得出文字的行信息和图片位置,再将水平合并后的块进行垂直合并,得出文字段落位置。步骤104、根据获得的图片位置和文字段落位置,确定文档段落区域。步骤105、计算每个文档段落区域的宽高之比r=w/h,计算显示屏幕的宽高之比R=ff/H0步骤106、如果一个文档段落区域的宽高之比满足以下公式 r e ,其中dl和d2为预设的正的常数,dl和d2的选取原则是显示最后文档段落区域时能尽可能地利用显示屏幕,则不处理该文档段落区域,如果不满足,则将该文档段落区域拆分成多个满足上述公式的文档段落区域,并尽可能地保证拆分的分割线在空白区域,如果没有空白区域,则采用将该文档段落区域进行等分的方式分割。步骤107、确定所有文档段落区域的阅读顺序,具体包括以下步骤 I、设步骤104中获得的文档段落区域的数量为n,整个文档用集合表示为S= {BI,B2,…,Bn},其中Bn表示第η个文档段落区域,设(Xi,Yi)表示文档段落区域Bi的左上顶点的坐标,其中i=l,2, ···, rio2、对整个文档S中元素进行调整,使调整后的S= {BI,B2,…,Bn}满足 以下条件 对于Bi和Bj,并且i〈j,若Yi e ,其中al和a2为正的常数,则满足Xi ( Xj,否则需满足Yi ( Yj。3、若步骤106中文档段落区域Bi被拆分为S’ ={P1,P2,…,Pk},按照步骤2的要求去调整S’中元素的位置,得到调整后的S’ ={P1,P2,…,Pk},其中Pk表示调整后的第k个文档段落区域,k为正整数。4、对于每个被拆分的文档段落区域Bi,将采用步骤3得到的调整后的S’中的元素全部加入到S中Bi所在的位置,并将Bi从S中删除,得到新的集合S” = {Q1,Q2,…,Qm},其中Qm表示调整后的第m个文档段落区域,m为正整数。5、采用Q1,Q2,…,Qm的顺序作为阅读文档段落区域的顺序。步骤108、按照顺序将获得的文档段落区域放大或缩小至需要显示的尺寸,提供逐屏阅读。以上所述,仅为本专利技术较佳的具体实施方式,但本专利技术的保护范围并不局限于此,任何熟悉该技术的人在本专利技术所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本专利技术的保护范围之内。因此,本专利技术的保护范围应该以权利要求的保护范围为准。权利要求1.,其特征在于,包括以下步骤 A、将扫描版文档生成图像,转化为二值图; B、对二值图进行游程平滑,并对游程平滑处理后的二值图求取连通域,把同值的且连通的一块区域的外接矩形的位置记录下来,作为初始块位置信息; C、将初始块进行水平合并,得出文字的行信息和图片位置,再将水平合并后的块进行垂直合并,得出文字段落位置; D、根据获得的图片位置和文字段落位置,确定文档段落区域; E、计算每个文档段落区域的宽高之比r,计算显示本文档来自技高网...

【技术保护点】
一种扫描版文档重排版的方法,其特征在于,包括以下步骤:A、将扫描版文档生成图像,转化为二值图;B、对二值图进行游程平滑,并对游程平滑处理后的二值图求取连通域,把同值的且连通的一块区域的外接矩形的位置记录下来,作为初始块位置信息;C、将初始块进行水平合并,得出文字的行信息和图片位置,再将水平合并后的块进行垂直合并,得出文字段落位置;D、根据获得的图片位置和文字段落位置,确定文档段落区域;E、计算每个文档段落区域的宽高之比r,计算显示屏幕的宽高之比R;F、如果一个文档段落区域的宽高之比满足以下公式:r∈[R?d1,R+d2],其中d1和d2为预设的正的常数,则不处理所述文档段落区域,如果不满足,则将所述文档段落区域拆分成不少于2个的满足所述公式的文档段落区域;G、确定所有文档段落区域的阅读顺序,并按照顺序将获得的文档段落区域放大或缩小至需要显示的尺寸,提供逐屏阅读。

【技术特征摘要】

【专利技术属性】
技术研发人员:王毅
申请(专利权)人:北京多看科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1