PDF文件的转换方法、装置、电子设备以及计算机可读介质制造方法及图纸

技术编号:30319270 阅读:25 留言:0更新日期:2021-10-09 23:24
本发明专利技术公开了PDF文件的转换方法、装置、电子设备以及计算机可读介质,涉及自然语言处理技术领域。该方法的一具体实施方式包括:对PDF文件进行文字识别,从而输出各个文字块的像素坐标以及文字内容;根据所述各个文字块的像素坐标以及文字内容,对所述各个文字块进行聚合,形成各个段落;从所述各个段落中抽取出编号和所述编号对应的标题;根据所述各个段落及其对应的编号和所述编号对应的标题,形成具有层级结构的文字内容。该实施方式能够解决无法获知文件的层级结构和检索结果缺少上下文语境的技术问题。境的技术问题。境的技术问题。

【技术实现步骤摘要】
PDF文件的转换方法、装置、电子设备以及计算机可读介质


[0001]本专利技术涉及自然语言处理
,尤其涉及PDF文件的转换方法、装置、电子设备以及计算机可读介质。

技术介绍

[0002]目前,通常采用OCR将PDF文件的页面内容从图片识别为文字,然后通过关键词检索到包含关键词的文字内容。
[0003]在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:
[0004]1)PDF文件内容是复印件形式,不能直接进行文件内的文字检索;
[0005]2)无法获知文件的层级结构,检索的结果是文字片段,片段内容不是完整的文字信息,无法快速地获知完整内容以及上下文语境,极大地削弱了信息检索利用的效率。

技术实现思路

[0006]有鉴于此,本专利技术实施例提供一种PDF文件的转换方法、装置、电子设备以及计算机可读介质,以解决无法获知文件的层级结构和检索结果缺少上下文语境的技术问题。
[0007]为实现上述目的,根据本专利技术实施例的一个方面,提供了一种PDF文件的转换方法,包括:
[0008]对PDF文件进行文字识别,从而输出各个文字块的像素坐标以及文字内容;
[0009]根据所述各个文字块的像素坐标以及文字内容,对所述各个文字块进行聚合,形成各个段落;
[0010]从所述各个段落中抽取出编号和所述编号对应的标题;
[0011]根据所述各个段落及其对应的编号和所述编号对应的标题,形成具有层级结构的文字内容。
[0012]可选地,对PDF文件进行文字识别,从而输出各个文字块的像素坐标以及文字内容,包括:
[0013]以页为单位,将PDF文件转换为多个连续的图片文件;
[0014]对所述图片文件进行文字识别,从而输出所述图片文件中各个文字块的像素坐标以及文字内容。
[0015]可选地,根据所述各个文字块的像素坐标以及文字内容,对所述各个文字块进行聚合,形成各个段落,包括:
[0016]对所述各个文字块的文字内容进行向量化,得到所述各个文字块的向量;
[0017]对于任意一个文字块,将所述文字块的向量和像素坐标输入到文本分类模型中,输出所述文字块是否归于上一段落或者下一段落,从而形成各个段落。
[0018]可选地,从所述各个段落中抽取出编号以及所述编号对应的标题,包括:
[0019]通过经过训练的Bi

LSTM

CRF模型从所述各个段落中抽取出编号以及所述编号对应的标题。
[0020]可选地,根据所述各个段落及其对应的编号和所述编号对应的标题,形成具有层级结构的文字内容,包括:
[0021]对所述各个段落的文字内容进行向量化,得到所述各个段落的向量;
[0022]对于任意一个段落,将所述段落的向量、所述段落内最边缘的文字块的像素坐标以及从所述段落中抽取出的编号和所述编号对应的标题输入到文本分类模型中,输出所述段落是否归于上一层级或者下一层级,从而形成具有层级结构的文字内容。
[0023]可选地,根据所述各个段落及其对应的编号和所述编号对应的标题,形成具有层级结构的文字内容之后,还包括:
[0024]将所述编号和所述编号对应的标题以及文字内容导入全文检索引擎。
[0025]可选地,将所述编号和所述编号对应的标题以及文字内容导入全文检索引擎之后,还包括:
[0026]根据用户输入的目标层级和/或关键词,通过所述全文检索引擎检索出所述目标层级和/或所述关键词对应的检索结果;
[0027]响应用户点击任意一项检索结果,展示所述层级结构、所述任意一项检索结果对应的文字内容以及所述任意一项检索结果对应的文字内容在所述PDF文件中的位置区域。
[0028]另外,根据本专利技术实施例的另一个方面,提供了一种PDF文件的转换装置,包括:
[0029]识别模块,用于对PDF文件进行文字识别,从而输出各个文字块的像素坐标以及文字内容;
[0030]聚合模块,用于根据所述各个文字块的像素坐标以及文字内容,对所述各个文字块进行聚合,形成各个段落;
[0031]抽取模块,用于从所述各个段落中抽取出编号和所述编号对应的标题;
[0032]转换模块,用于根据所述各个段落及其对应的编号和所述编号对应的标题,形成具有层级结构的文字内容。
[0033]可选地,所述识别模块还用于:
[0034]以页为单位,将PDF文件转换为多个连续的图片文件;
[0035]对所述图片文件进行文字识别,从而输出所述图片文件中各个文字块的像素坐标以及文字内容。
[0036]可选地,所述聚合模块还用于:
[0037]对所述各个文字块的文字内容进行向量化,得到所述各个文字块的向量;
[0038]对于任意一个文字块,将所述文字块的向量和像素坐标输入到文本分类模型中,输出所述文字块是否归于上一段落或者下一段落,从而形成各个段落。
[0039]可选地,所述抽取模块还用于:
[0040]通过经过训练的Bi

LSTM

CRF模型从所述各个段落中抽取出编号以及所述编号对应的标题。
[0041]可选地,所述转换模块还用于:
[0042]对所述各个段落的文字内容进行向量化,得到所述各个段落的向量;
[0043]对于任意一个段落,将所述段落的向量、所述段落内最边缘的文字块的像素坐标以及从所述段落中抽取出的编号和所述编号对应的标题输入到文本分类模型中,输出所述段落是否归于上一层级或者下一层级,从而形成具有层级结构的文字内容。
[0044]可选地,还包括检索模块,用于:
[0045]根据所述各个段落及其对应的编号和所述编号对应的标题,形成具有层级结构的文字内容之后,将所述编号和所述编号对应的标题以及文字内容导入全文检索引擎。
[0046]可选地,所述检索模块还用于:
[0047]将所述编号和所述编号对应的标题以及文字内容导入全文检索引擎之后,根据用户输入的目标层级和/或关键词,通过所述全文检索引擎检索出所述目标层级和/或所述关键词对应的检索结果;
[0048]响应用户点击任意一项检索结果,展示所述层级结构、所述任意一项检索结果对应的文字内容以及所述任意一项检索结果对应的文字内容在所述PDF文件中的位置区域。
[0049]根据本专利技术实施例的另一个方面,还提供了一种电子设备,包括:
[0050]一个或多个处理器;
[0051]存储装置,用于存储一个或多个程序,
[0052]当所述一个或多个程序被所述一个或多个处理器执行时,所述一个或多个处理器实现上述任一实施例所述的方法。
[0053]根据本专利技术实施例的另一个方面,还提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一实施例所述的方法。
[0054]上述专利技术中的一个实施例具有如下优点或有益效本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种PDF文件的转换方法,其特征在于,包括:对PDF文件进行文字识别,从而输出各个文字块的像素坐标以及文字内容;根据所述各个文字块的像素坐标以及文字内容,对所述各个文字块进行聚合,形成各个段落;从所述各个段落中抽取出编号和所述编号对应的标题;根据所述各个段落及其对应的编号和所述编号对应的标题,形成具有层级结构的文字内容。2.根据权利要求1所述的方法,其特征在于,对PDF文件进行文字识别,从而输出各个文字块的像素坐标以及文字内容,包括:以页为单位,将PDF文件转换为多个连续的图片文件;对所述图片文件进行文字识别,从而输出所述图片文件中各个文字块的像素坐标以及文字内容。3.根据权利要求1所述的方法,其特征在于,根据所述各个文字块的像素坐标以及文字内容,对所述各个文字块进行聚合,形成各个段落,包括:对所述各个文字块的文字内容进行向量化,得到所述各个文字块的向量;对于任意一个文字块,将所述文字块的向量和像素坐标输入到文本分类模型中,输出所述文字块是否归于上一段落或者下一段落,从而形成各个段落。4.根据权利要求1所述的方法,其特征在于,从所述各个段落中抽取出编号以及所述编号对应的标题,包括:通过经过训练的Bi

LSTM

CRF模型从所述各个段落中抽取出编号以及所述编号对应的标题。5.根据权利要求1所述的方法,其特征在于,根据所述各个段落及其对应的编号和所述编号对应的标题,形成具有层级结构的文字内容,包括:对所述各个段落的文字内容进行向量化,得到所述各个段落的向量;对于任意一个段落,将所述段落的向量、所述段落内最边缘的文字块的像素坐标以及从所述段落中抽取出的编号和所述编号对应...

【专利技术属性】
技术研发人员:万聪丁诗璟沈文俊高明胡德清余刚赵琴刘维安袁园欧阳明李亮李金灵沈冰华姚琛谢传聪苏蜜陈思广
申请(专利权)人:中国建设银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1