PDF文件的转换方法、装置、电子设备以及计算机可读介质制造方法及图纸

技术编号：30319270 阅读：35 留言：0更新日期：2021-10-09 23:24

本发明专利技术公开了PDF文件的转换方法、装置、电子设备以及计算机可读介质，涉及自然语言处理技术领域。该方法的一具体实施方式包括：对PDF文件进行文字识别，从而输出各个文字块的像素坐标以及文字内容；根据所述各个文字块的像素坐标以及文字内容，对所述各个文字块进行聚合，形成各个段落；从所述各个段落中抽取出编号和所述编号对应的标题；根据所述各个段落及其对应的编号和所述编号对应的标题，形成具有层级结构的文字内容。该实施方式能够解决无法获知文件的层级结构和检索结果缺少上下文语境的技术问题。境的技术问题。境的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
PDF文件的转换方法、装置、电子设备以及计算机可读介质

[0001]本专利技术涉及自然语言处理
，尤其涉及PDF文件的转换方法、装置、电子设备以及计算机可读介质。

技术介绍

[0002]目前，通常采用OCR将PDF文件的页面内容从图片识别为文字，然后通过关键词检索到包含关键词的文字内容。
[0003]在实现本专利技术过程中，专利技术人发现现有技术中至少存在如下问题：
[0004]1)PDF文件内容是复印件形式，不能直接进行文件内的文字检索；
[0005]2)无法获知文件的层级结构，检索的结果是文字片段，片段内容不是完整的文字信息，无法快速地获知完整内容以及上下文语境，极大地削弱了信息检索利用的效率。

技术实现思路

[0006]有鉴于此，本专利技术实施例提供一种PDF文件的转换方法、装置、电子设备以及计算机可读介质，以解决无法获知文件的层级结构和检索结果缺少上下文语境的技术问题。
[0007]为实现上述目的，根据本专利技术实施例的一个方面，提供了一种PDF文件的转换方法，包括：
[0008]对PDF文件进行文字识别，从而输出各个文字块的像素坐标以及文字内容；
[0009]根据所述各个文字块的像素坐标以及文字内容，对所述各个文字块进行聚合，形成各个段落；
[0010]从所述各个段落中抽取出编号和所述编号对应的标题；
[0011]根据所述各个段落及其对应的编号和所述编号对应的标题，形成具有层级结构的文字内容。
[0012]可选地，...

【技术保护点】

【技术特征摘要】
1.一种PDF文件的转换方法，其特征在于，包括：对PDF文件进行文字识别，从而输出各个文字块的像素坐标以及文字内容；根据所述各个文字块的像素坐标以及文字内容，对所述各个文字块进行聚合，形成各个段落；从所述各个段落中抽取出编号和所述编号对应的标题；根据所述各个段落及其对应的编号和所述编号对应的标题，形成具有层级结构的文字内容。2.根据权利要求1所述的方法，其特征在于，对PDF文件进行文字识别，从而输出各个文字块的像素坐标以及文字内容，包括：以页为单位，将PDF文件转换为多个连续的图片文件；对所述图片文件进行文字识别，从而输出所述图片文件中各个文字块的像素坐标以及文字内容。3.根据权利要求1所述的方法，其特征在于，根据所述各个文字块的像素坐标以及文字内容，对所述各个文字块进行聚合，形成各个段落，包括：对所述各个文字块的文字内容进行向量化，得到所述各个文字块的向量；对于任意一个文字块，将所述文字块的向量和像素坐标输入到文本分类模型中，输出所述文字块是否归于上一段落或者下一段落，从而形成各个段落。4.根据权利要求1所述的方法，其特征在于，从所述各个段落中抽取出编号以及所述编号对应的标题，包括：通过经过训练的Bi
‑
LSTM
‑
CRF模型从所述各个段落中抽取出编号以及所述编号对应的标题。5.根据权利要求1所述的方法，其特征在于，根据所述各个段落及其对应的编号和所述编号对应的标题，形成具有层级结构的文字内容，包括：对所述各个段落的文字内容进行向量化，得到所述各个段落的向量；对于任意一个段落，将所述段落的向量、所述段落内最边缘的文字块的像素坐标以及从所述段落中抽取出的编号和所述编号对应...

【专利技术属性】
技术研发人员：万聪，丁诗璟，沈文俊，高明，胡德清，余刚，赵琴，刘维安，袁园，欧阳明，李亮，李金灵，沈冰华，姚琛，谢传聪，苏蜜，陈思广，
申请(专利权)人：中国建设银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人