一种多模态PDF版面结构分析系统技术方案

技术编号:37239751 阅读:11 留言:0更新日期:2023-04-20 23:21
本发明专利技术公开了一种多模态PDF版面结构分析系统,涉及多模态PDF技术领域,解决了未对版面中多元素排版形式的分析处理,多元素涵盖文本、图片、表格、形状等,本发明专利技术针对PDF多模态中的图片这一元素为出发点,首先对图片元素进行分析处理,获取图片元素的排版信息,调整图片元素排版的尺寸,对比例进行调整,确认PDF版面中图片的位置信息,使分析后的结果信息无限接近对应解析的PDF,提高多模态PDF图片元素之间的关联性,多模态PDF版面结构分析的结果也更利于提升观看阅读体验。利于提升观看阅读体验。利于提升观看阅读体验。

【技术实现步骤摘要】
一种多模态PDF版面结构分析系统


[0001]本专利技术属于多模态PDF
,具体是一种多模态PDF版面结构分析系统。

技术介绍

[0002]版面布局结构指报纸版面的全局与局部、局部与局部之间的联系的表现方式,新闻编辑工作的任务之一在于组织和安排好版面的整体与局部、局部与局部之间的关系,使版面真正成为一个统一的整体。
[0003]专利号为CN111241805A的专利技术为了给PDF文档留下足够的空间用于添加注释,提供一种PDF文档的版面重排方法,包括导入PDF文档每页的页面信息,提取BT和ET之间文本及其排版信息,把这些矢量文本进行纵向压缩,横向保持不变,替换对应的文本及其排版信息,生成版面重排的页面,所有页面组合成版面重排后的新PDF文档,版面重排后的PDF文档的文本行间距变大,足以放下一行注释文字,原版面基本不变,不影响阅读。
[0004]对多模态PDF版面结构进行分析处理时,一般对整个版面的参数进行获取,再进行重新调整,使多模态PDF的整体版面结构进行改变,但此种处理方式,在具体处理过程中,因未对版面中多元素排版形式的分析处理,改变排版图片的同时,再对排版图片与对应的区域进行分析,解析尺寸是否合适,会导致整个版面尺寸并不合适,并不能达到较好的观看体验。

技术实现思路

[0005]本专利技术旨在至少解决现有技术中存在的技术问题之一;为此,本专利技术提出了一种多模态PDF版面结构分析系统,用于解决未对内部的排版图片进行单独分析处理,改变排版图片的同时,再对排版图片与对应的区域进行分析,解析尺寸是否合适,会导致整个版面尺寸并不合适,并不能达到较好的观看体验的技术问题。
[0006]为实现上述目的,根据本专利技术的第一方面的实施例提出一种多模态PDF版面结构分析系统,包括版面参数采集端、分析处理中心以及显示终端;所述分析处理中心包括版面参数预分析单元、阈值单元、调整单元、版面参数排版单元以及存储单元;所述版面参数采集端,用于对多模态PDF文件的版面整体图像参数进行获取,并将所获取的版面整体图像参数传输至分析处理中心内;所述分析处理中心内部的版面参数预分析单元,对所获取的版面整体图像参数进行预分析处理,从版面整体图像参数内将不同的排版图片进行提取,并获取此排版图片的面积参数,根据面积参数,获取属于同一版面的排版图片比例参数,并将比例参数与阈值单元内设阈值进行比对,通过比对结果生成对应的调整信号;所述调整单元,根据所接收到的调整信号,对处理完毕的比对参照值BD进行参数改变,并通过所改变的参数,对排版图片的排版大小进行改变;所述版面参数排版单元,根据排版图片的个数,从存储单元内提取对应的排版模
板,再将不同的排版图片设置于排版模板内,再将排版完毕后的整体PDF版面传输至显示终端内进行显示。
[0007]优选的,所述版面参数预分析单元对所获取的版面整体图像参数进行预分析处理的具体方式为:将所获取的版面整体图像参数提取处,提取完毕后,从版面整体图像参数依次提取对应的排版图片;将不同排版图片的排版面积标记为PB
i
,其中i代表不同的排版图片,其中i=1、2、
……
、n;将若干个属于不同排版面积PB
i
的排版图片进行比对处理,得到比对参照值BD=PB1:PB2:
……
:PB
n
,从比对参照值BD内提取最大比值以及最小比值,采用最大比值除以最小比值得到待处理值CL;将待处理值CL与阈值单元内设阈值Y1进行比对,且内设阈值Y1的具体取值由操作人员根据经验拟定,当CL<Y1时,不生成任何处理信号,当CL≥Y1时,生产调整信号,并将调整信号传输至调整单元内。
[0008]优选的,所述调整单元对处理完毕的比对参照值BD进行参数改变的具体方式为:采用内设阈值Y1与所确定的最小比值得到对应的改变比值,并将获取得到的改变比值传输至比对参照值BD内,并对比对参照值BD内部的最大比值进行改变,使最大比值改变为对应的改变比值;再根据改变后的比对参照值BD,对不同的排版图片进行缩放,使若干组不同的排版图片的排版面积进行改变,再将改变完毕后的排版图片传输至版面参数排版单元内。
[0009]优选的,所述版面参数排版单元根据排版图片的个数进行具体排版的具体方式为:获取排版图片的个数,并标记为GS,并将个数GS传输至存储单元内,存储单元内根据个数GS提取对应的排版模板;所述排版模板内部设置有供不同尺寸大小排版图片进行排版的区域,根据排版图片的比对参照值BD,依次按照从大至小的方式,将不同大小的排版图片填补至对应的排版区域;将对应排版区域的排版图片面积参数标记为TP
k
,将排版区域的面积参数标记为PB
k
,其中k代表不同的排版区域,采用得到交叉参值SY
k
;将获取得到的交叉参值SY
k
与预设的内设阈值Y2进行比对,其中内设阈值Y2的具体取值由操作人员根据经验拟定,当SY
k
<Y2时,不生成任何信号,当SY
k
≥Y2时,生产微调信号;将所生成的微调信号转换为微调标记,并将微调标记设置于对应的排版区域,将经过微调标记处理后的整体PDF版面传输至显示终端内。
[0010]优选的,所述显示终端,对标记处理后的整体PDF版面进行接收,外部人员对整体PDF版面内查看是否存在对应的微调标记,若存在对应的微调标记,外部操作人员则对此区域的排版图片进行调整,若不存在对应的微调标记,则不进行处理。
[0011]与现有技术相比,本专利技术的有益效果是:预先对多模态PDF文件的版面整体图像参数进行获取,并将所获取的版面整体图像参数传输至分析处理中心内,对所获取的版面整体图像参数进行预分析处理,从版面整体图像参数内将不同的排版图片进行提取,并获取此排版图片的面积参数,根据面积参数,获取属于同一版面的排版图片比例参数,并将比例参数与阈值单元内设阈值进行比对,通过比对结果分析排版图片是否需要进行缩放,根据所接收到的调整信号,对处理完毕的比对参照值BD进行参数改变,并通过所改变的参数,对排版图片的排版大小进行改变,根据排版图片的个数,从存储单元内提取对应的排版模板,再将不同的排版图片设置于排版模板内,再将排版完毕后的整体PDF版面传输至显示终端内进行显示;首先对图片元素进行分析处理,获取图片元素的排版信息,调整图片元素排版的尺寸,对比例进行调整,确认PDF版面中图片的位置信息,使分析后的结果信息无限接近对应解析的PDF,提高多模态PDF图片元素之间的关联性,多模态PDF版面结构分析的结果也更利于提升观看阅读体验,对多模态PDF文件内的排版图片进行分析,并进行比例调整,调整完毕后,再将排版图片与对应的模板进行匹配,从而得到整体PDF版面,采用此种方式,对多模态PDF版面进行依次解析处理,使多模态PDF版面内部的图片与对应的PDF更加贴合,同时使多组排版图片的整体尺寸比例更加适合,提升整个多模态PDF的观看体验。
附图说明
[0012]图1为本专利技术原理框本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态PDF版面结构分析系统,其特征在于,包括版面参数采集端、分析处理中心以及显示终端;所述分析处理中心包括版面参数预分析单元、阈值单元、调整单元、版面参数排版单元以及存储单元;所述版面参数采集端,用于对多模态PDF文件的版面整体图像参数进行获取,并将所获取的版面整体图像参数传输至分析处理中心内;所述分析处理中心内部的版面参数预分析单元,对所获取的版面整体图像参数进行预分析处理,从版面整体图像参数内将不同的排版图片进行提取,并获取此排版图片的面积参数,根据面积参数,获取属于同一版面的排版图片比例参数,并将比例参数与阈值单元内设阈值进行比对,通过比对结果生成对应的调整信号;所述调整单元,根据所接收到的调整信号,对处理完毕的比对参照值BD进行参数改变,并通过所改变的参数,对排版图片的排版大小进行改变;所述版面参数排版单元,根据排版图片的个数,从存储单元内提取对应的排版模板,再将不同的排版图片设置于排版模板内,再将排版完毕后的整体PDF版面传输至显示终端内进行显示。2.根据权利要求1所述的一种多模态PDF版面结构分析系统,其特征在于,所述版面参数预分析单元对所获取的版面整体图像参数进行预分析处理的具体方式为:将所获取的版面整体图像参数提取处,提取完毕后,从版面整体图像参数依次提取对应的排版图片;将不同排版图片的排版面积标记为PB
i
,其中i代表不同的排版图片,其中i=1、2、
……
、n;将若干个属于不同排版面积PB
i
的排版图片进行比对处理,得到比对参照值BD=PB1:PB2:
……
:PB
n
,从比对参照值BD内提取最大比值以及最小比值,采用最大比值除以最小比值得到待处理值CL;将待处理值CL与阈值单元内设阈值Y1进行比对,且内设阈值Y1的具体取值由操作人员根据经验拟定,当CL<Y1时,不生成任何处理信号,当CL≥Y1时,生产调整信号,并将调整信号传输至调整单元内。3.根据权利...

【专利技术属性】
技术研发人员:刘静娜刘雨泽岳洋
申请(专利权)人:盟浪可持续数字科技深圳有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1