用于从原始文档生成新文档的方法、系统、装置、存储介质制造方法及图纸

技术编号:38042177 阅读:13 留言:0更新日期:2023-06-30 11:08
本申请提供一种用于从原始文档生成新文档的方法,其包括解析所述原始文档中的每一页,以获得每一页中用于划分区域的不同横线;识别所述原始文档中的每一页的段落左边界和右边界,以获得每一页的左侧边线和右侧边线;基于每一页的不同横线、左侧边线和右侧边线,将该页划分成多个识别区域;基于预设参数,在所述每一页的所述多个识别区域中分别定位需要识别的信息;根据定位结果,从所述每一页中的所述多个识别区域中提取所需内容;以及根据所提取的所述每一页中的所需内容,生成所述新文档。还提供用于从原始文档生成新文档的系统、装置和存储介质。装置和存储介质。装置和存储介质。

【技术实现步骤摘要】
用于从原始文档生成新文档的方法、系统、装置、存储介质


[0001]本申请涉及与文档相关的数据处理,更为具体地,涉及从原始文档生成新文档的技术。

技术介绍

[0002]在一些应用场景,例如PDF的项目文档按照所需内容转换为DOC格式的文件时,通常做法是:先将PDF文档转为例如TXT文本时,首先是将该PDF文档转换成图片,再由人工在该图片信息中标注出所需要的内容,然后映射所需要的内容的坐标生成DOC文件。
[0003]但是这种方式处理速度相对慢且因为人力投入等使得成本也较高。

技术实现思路

[0004]本申请意在提供从原始文档转换为新文档的方法,以至少解决上述问题中的至少一项。
[0005]根据本申请的一个方面,提供用于从原始文档生成新文档的方法,所述方法包括:解析所述原始文档中的每一页,以获得所述每一页中用于划分区域的不同横线;识别所述原始文档中的所述每一页的段落左边界和右边界,以获得所述每一页的左侧边线和右侧边线;基于所述每一页的不同横线、左侧边线和右侧边线,将该页划分成多个识别区域;基于预设参数,在所述每一页的所述多个识别区域中分别定位需要识别的信息;根据定位结果,从所述每一页中的所述多个识别区域中提取所需内容;以及根据所提取的所述每一页中的所需内容,生成所述新文档。
[0006]根据本申请的生成新文档的方法,作为示例,根据所提取的所述每一页中的识别信息,生成所述新文档包括:基于所提取内容,从关联的外部信息库中查找与所提取的内容有关的外部信息,以校准提取的内容;以及根据经校准的所述提取内容生成所述新文档。
[0007]根据本申请的生成新文档的方法,作为示例,所述预设参数包括多个标识词、位置信息。
[0008]根据本申请的生成新文档的方法,作为示例,所述原始文档为PDF文档。
[0009]根据本申请的又一方面,还提供用于从原始文档生成新文档的系统,所述系统包括:横线处理单元,用于解析所述原始文档中的每一页,以获得每一页中用于划分区域的不同横线;侧边线处理单元,用于识别所述原始文档中的每一页的段落左边界和右边界,以获得每一页的左侧边线和右侧边线;划分单元,用于基于每一页的不同横线、左侧边线和右侧边线,将该页划分成多个识别区域;定位单元,用于基于在所述每一页的所述多个识别区域中分别定位需要识别的信息;提取单元,用于根据定位结果,从所述每一页中的所述多个识别区域中提取所需内容;以及生成单元,用于根据所提取的所述每一页中的所需内容,生成所述新文档。
[0010]根据本申请的生成新文档的系统,作为示例,所述生成单元包括:校准子单元,用于基于所提取内容,从关联的外部信息库中查找与所提取的内容有关的外部信息,以校准
提取的内容;以及生成子单元,用于根据经校准的所述提取内容生成所述新文档。
[0011]根据本申请的生成新文档的系统,作为示例,所述预设参数包括多个标识词、位置信息。
[0012]根据本申请的生成新文档的系统,作为示例,所述原始文档为PDF文档。
[0013]根据本申请的再一方面,还提供用于从原始文档生成新文档的装置,所述装置包括处理器和存储器,所述存储器用于存储程序指令,所述处理器被配置为在执行所述程序指令时,实现如上所述的用于从原始文档生成新文档的方法。
[0014]根据本申请还提供用于一种存储介质,所述存储介质上存储有指令,在所述指令被执行时,实现如上所述的用于从原始文档生成新文档的方法。
附图说明
[0015]结合附图参阅以下具体实施方式的详细说明,将更加充分地理解本申请。其中:
[0016]图1示意了根据本申请示例的用于从原始文档生成新文档的方法的流程图;
[0017]图1a示意了实现图1中步骤S110的方法的流程图;
[0018]图2是示例了PDF文档中的一页;
[0019]图3是根据本申请一些示例的用于从原始文档生成新文档的系统的结构示意图;
[0020]图4是根据本申请的示例的从原始文档生成新文档的装置的结构示意图。
具体实施方式
[0021]为帮助本领域的技术人员能够确切地理解本申请要求保护的主题,下文将结合附图详细描述本申请的具体实施方式。
[0022]图1是根据本申请示例的用于从原始文档生成新文档的方法的流程图。该方法可由能够进行数据处理的电子设备执行,例如由电脑、笔记本电脑、平板电脑、智能手机等执行。此外,下文将以原始文档为PDF格式的文档为例进行说明,但根据本申请示例的方法也可用于对其它格式的文档进行转换。
[0023]如图1所示,在步骤S100,解析原始文档中的每一页,以获得每一页中用于划分区域的不同横线。在步骤S102,识别该原始文档中的每一页的段落左边侧线和右侧边线。在步骤S104,基于每一页的不同横线、左侧边线和右侧边线,将该页划分成多个识别区域。在步骤S106,基于预设参数,在每一页的多个识别区域中分别定位需要识别的信息。在步骤S108,根据定位结果,从每一页中的多个识别区域中提取所需内容。在步骤S110,根据所提取的每一页中的所需内容,生成新文档。
[0024]通过从原始文档的每页中识别出的线条(横线和左、右侧边线)来将该页中的内容划分为不同的区域,这就使得该方法能适用不同的原始文档。此外,根据预设参数从划分的区域中定位需要识别的信息,使得可通过配置预设参数而获得不同的提取内容,从而根据需求生成不同的新文档。
[0025]图2示例了PDF文档中的一页。需要说明的是,该页只是为了用来阐述本申请的示例,其记载的具体内容并未示出。同时参照图1和图2,解析(步骤S100)该PDF文档的示意页20,以获得可以用来划分区域的多个横线201、202、203、204、205、206。识别(步骤S102)示意页20的左边侧线20L和右侧边线20R。基于示意页20的多个横线201~206、左侧边线20L和右
侧边线20R,将示意页20划分(步骤S104)成多个识别区域,例如该页的第一识别区域40、第二识别区域41、第三识别区域42、第四识别区域43等。示例而非限制地,使用pdfplumber来解析示意页20,根据页面中文本对象的坐标获得划分区域的横线201~206和侧边线20L和20R,其中,文本对象例如为文本内容的段落、文本内容中的表格等,并据此将示意页20划分为不同的识别区域,例如由横线201、202和侧边线20L和20R构成的是识别区域、由横线202、203和侧边线20L和20R构成的识别区域等。
[0026]进一步,基于预设参数,在示意页20中划分的每一个识别区域中定位(步骤S106)需要识别的信息。预设参数例如是多个标识词、图标的位置信息等。在该PDF文档是某项目调研报告的情况下,则根据其内容可设置针对各章节、再细分到各页的标识词,具体而言,依据各章节主题确定针对该章节的标识词,并细分到各页。以示意页20为例,标识词可包括“导读”30、“投资”31等,位置信息可以包括诸如图表50、51位置坐标等。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于从原始文档生成新文档的方法,其特征在于,所述方法包括:解析所述原始文档中的每一页,以获得所述每一页中用于划分区域的不同横线;识别所述原始文档中的所述每一页的段落左边界和右边界,以获得所述每一页的左侧边线和右侧边线;基于所述每一页的不同横线、左侧边线和右侧边线,将该页划分成多个识别区域;基于预设参数,在所述每一页的所述多个识别区域中分别定位需要识别的信息;根据定位结果,从所述每一页中的所述多个识别区域中提取所需内容;以及根据所提取的所述每一页中的所需内容,生成所述新文档。2.根据权利要求1所述的生成新文档的方法,其特征在于,根据所提取的所述每一页中的识别信息,生成所述新文档包括:基于所提取内容,从关联的外部信息库中查找与所提取的内容有关的外部信息,以校准提取的内容;以及根据经校准的所述提取内容生成所述新文档。3.根据权利要求2所述的生成新文档的方法,其特征在于,所述预设参数包括多个标识词、位置信息。4.根据权利要求3所述的生成新文档的方法,其特征在于,所述原始文档为PDF文档。5.一种用于从原始文档生成新文档的系统,其特征在于,所述系统包括:横线处理单元,用于解析所述原始文档中的每一页,以获得每一页中用于划分区域的不同横线;侧边线处理单元,用于识别所述原始文档中的每一页的段落左边界和右边...

【专利技术属性】
技术研发人员:沈舜蓉
申请(专利权)人:上海水滴征信服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1