文档处理方法、装置、电子设备和存储介质制造方法及图纸

技术编号：38229148 阅读：10 留言：0更新日期：2023-07-25 17:58

本公开提供了一种文档处理方法，可以应用于大数据技术领域、人工智能技术领域或金融科技领域。该文档处理方法包括：对初始文档图像进行矫正，得到目标文档图像；通过分离目标文档图像中前景目标的像素和背景目标的像素，得到基于前景目标的多个目标轮廓；基于目标轮廓进行像素重构，生成目标文档图像的布局信息；提取目标文档图像中的实体内容和实体关系，得到目标文档图像的实体信息；利用目标文档图像的布局信息对目标文档图像的实体信息进行布局，得到具有预设格式的目标文件。本公开还提供了一种文档处理装置、设备、存储介质和程序产品。产品。产品。

全部详细技术资料下载

【技术实现步骤摘要】
文档处理方法、装置、电子设备和存储介质

[0001]本公开涉及大数据
、人工智能
或金融科技领域，更具体地涉及一种文档处理方法、装置、电子设备和存储介质。

技术介绍

[0002]随着产业信息化的发展，数据已成为人们工作、生活不可或缺的要素之一。面对海量的数据，越来越多的企业用户需要将大量结构化和非结构化的数据存储到文档中，以供后续提取和分析。在实现本公开专利技术构思的过程中，专利技术人发现相关技术中一般存在如下问题：文档中一般会包含表格、图片、文本等多种类型的数据，现有的文档处理方法处理这些数据时，一般不能准确识别，导致对文档内容的抽取和分析不到位，降低了文档处理的准确率。

技术实现思路

[0003]鉴于上述问题，本公开提供了提高文档处理准确率的文档处理方法、装置、电子设备、存储介质和程序产品。
[0004]本公开的一个方面提供了一种文档处理方法，包括：对初始文档图像进行矫正，得到目标文档图像；通过分离上述目标文档图像中前景目标的像素和背景目标的像素，得到基于上述前景目标的多个目标轮廓；基于上述目标轮廓进行像素重构，生成上述目标文档图像的布局信息；提取上述目标文档图像中的实体内容和实体关系，得到上述目标文档图像的实体信息；利用上述目标文档图像的布局信息对上述目标文档图像的实体信息进行布局，得到具有预设格式的目标文件。
[0005]根据本公开的实施例，上述通过分离上述目标文档图像中前景目标的像素和背景目标的像素，得到基于上述前景目标的多个目标轮廓包括：通过分离上述前景目标的像...

【技术保护点】

【技术特征摘要】
1.一种文档处理方法，包括：对初始文档图像进行矫正，得到目标文档图像；通过分离所述目标文档图像中前景目标的像素和背景目标的像素，得到基于所述前景目标的多个目标轮廓；基于所述目标轮廓进行像素重构，生成所述目标文档图像的布局信息；提取所述目标文档图像中的实体内容和实体关系，得到所述目标文档图像的实体信息；利用所述目标文档图像的布局信息对所述目标文档图像的实体信息进行布局，得到具有预设格式的目标文件。2.根据权利要求1所述的方法，其中，所述通过分离所述目标文档图像中前景目标的像素和背景目标的像素，得到基于所述前景目标的多个目标轮廓包括：通过分离所述前景目标的像素和所述背景目标的像素，得到多个边界像素；基于所述多个边界像素，生成基于所述前景目标的多个目标轮廓。3.根据权利要求2所述的方法，其中，所述基于所述目标轮廓进行像素重构，生成所述目标文档图像的布局信息包括：重新构建所述目标文档图像中所述前景目标的像素、所述背景目标的像素以及所述边界像素之间的像素关系，得到构建结果，其中，所述边界像素与所述目标轮廓相关联；利用所述构建结果补偿所述边界像素，得到所述目标文档图像的布局信息。4.根据权利要求1所述的方法，其中，所述目标文档图像的实体内容包括表格文件；所述方法还包括：将所述表格文件输入到特征解码模型中，输出一一对应的单元格令牌和单元格的位置坐标。5.根据权利要求4所述的方法，其中，所述特征解码模型包括隐藏层、结构解码子模型和单元格位置解码子模型；所述将所述表格文件输入到特征解码模型中，输出一一对应的单元格令牌和单元格的位置坐标包括：将所述表格文件输入特征解码模型中，在经过所述隐藏层后，得到隐藏层输出结果；将所述隐藏层输出结果分别输入到结构解码子模型和单元格位置解码子模型中，输出所述单元格令牌和所述单元格的位置坐标；对所述单元格令牌和所述单元格的位置坐标执行连接操作，得到所述一一对应的单元格令牌和单元格的位置坐标。6.根据权利要求1所述的方法，其中，所述提取所述目标文档图像中的实体内容和实体关系，得到所述目标文档图像的实体信息包括：将所述目标文档图像输入到多模态预训练模型中，输出所述目标文档图像的实体信息，其中，所述多模态预训练模型包括语义实体识别子模型和实体关系提取子模型，所述语义实体识别子模型用于输出所述...

【专利技术属性】
技术研发人员：张佳颖，
申请(专利权)人：中国工商银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人