文档处理方法、装置、电子设备和存储介质制造方法及图纸

技术编号:38229148 阅读:10 留言:0更新日期:2023-07-25 17:58
本公开提供了一种文档处理方法,可以应用于大数据技术领域、人工智能技术领域或金融科技领域。该文档处理方法包括:对初始文档图像进行矫正,得到目标文档图像;通过分离目标文档图像中前景目标的像素和背景目标的像素,得到基于前景目标的多个目标轮廓;基于目标轮廓进行像素重构,生成目标文档图像的布局信息;提取目标文档图像中的实体内容和实体关系,得到目标文档图像的实体信息;利用目标文档图像的布局信息对目标文档图像的实体信息进行布局,得到具有预设格式的目标文件。本公开还提供了一种文档处理装置、设备、存储介质和程序产品。产品。产品。

【技术实现步骤摘要】
文档处理方法、装置、电子设备和存储介质


[0001]本公开涉及大数据
、人工智能
或金融科技领域,更具体地涉及一种文档处理方法、装置、电子设备和存储介质。

技术介绍

[0002]随着产业信息化的发展,数据已成为人们工作、生活不可或缺的要素之一。面对海量的数据,越来越多的企业用户需要将大量结构化和非结构化的数据存储到文档中,以供后续提取和分析。在实现本公开专利技术构思的过程中,专利技术人发现相关技术中一般存在如下问题:文档中一般会包含表格、图片、文本等多种类型的数据,现有的文档处理方法处理这些数据时,一般不能准确识别,导致对文档内容的抽取和分析不到位,降低了文档处理的准确率。

技术实现思路

[0003]鉴于上述问题,本公开提供了提高文档处理准确率的文档处理方法、装置、电子设备、存储介质和程序产品。
[0004]本公开的一个方面提供了一种文档处理方法,包括:对初始文档图像进行矫正,得到目标文档图像;通过分离上述目标文档图像中前景目标的像素和背景目标的像素,得到基于上述前景目标的多个目标轮廓;基于上述目标轮廓进行像素重构,生成上述目标文档图像的布局信息;提取上述目标文档图像中的实体内容和实体关系,得到上述目标文档图像的实体信息;利用上述目标文档图像的布局信息对上述目标文档图像的实体信息进行布局,得到具有预设格式的目标文件。
[0005]根据本公开的实施例,上述通过分离上述目标文档图像中前景目标的像素和背景目标的像素,得到基于上述前景目标的多个目标轮廓包括:通过分离上述前景目标的像素和上述背景目标的像素,得到多个边界像素;基于上述多个边界像素,生成基于上述前景目标的多个目标轮廓。
[0006]根据本公开的实施例,上述基于上述目标轮廓进行像素重构,生成上述目标文档图像的布局信息包括:重新构建上述目标文档图像中上述前景目标的像素、上述背景目标的像素以及上述边界像素之间的像素关系,得到构建结果,其中,上述边界像素与上述目标轮廓相关联;利用上述构建结果补偿上述边界像素,得到上述目标文档图像的布局信息。
[0007]根据本公开的实施例,上述目标文档图像的实体内容包括表格文件;上述方法还包括:将上述表格文件输入到特征解码模型中,输出一一对应的单元格令牌和单元格的位置坐标。
[0008]根据本公开的实施例,上述特征解码模型包括隐藏层、结构解码子模型和单元格位置解码子模型;上述将上述表格文件输入到特征解码模型中,输出一一对应的单元格令牌和单元格的位置坐标包括:将上述表格文件输入特征解码模型中,在经过上述隐藏层后,得到隐藏层输出结果;将上述隐藏层输出结果分别输入到结构解码子模型和单元格位置解
码子模型中,输出上述单元格令牌和上述单元格的位置坐标;对上述单元格令牌和上述单元格的位置坐标执行连接操作,得到上述一一对应的单元格令牌和单元格的位置坐标。
[0009]根据本公开的实施例,上述提取上述目标文档图像中的实体内容和实体关系,得到上述目标文档图像的实体信息包括:将上述目标文档图像输入到多模态预训练模型中,输出上述目标文档图像的实体信息,其中,上述多模态预训练模型包括语义实体识别子模型和实体关系提取子模型,上述语义实体识别子模型用于输出上述目标文档图像的实体内容,上述实体关系提取子模型用于输出上述目标文档图像的实体关系。
[0010]根据本公开的实施例,上述多模态预训练模型是通过如下方式得到的:基于统一互学习知识蒸馏算法,使得上述语义实体识别子模型和上述实体关系提取子模型进行互学习;在上述互学习的过程中,计算上述语义实体识别子模型和上述实体关系提取子模型之间的互蒸馏损失函数与距离损失函数;根据上述互蒸馏损失函数与上述距离损失函数,调整上述语义实体识别子模型的模型参数和上述实体关系提取子模型的模型参数;以及在上述互蒸馏损失函数与上述距离损失函数均收敛的情况下,根据收敛条件下得到的语义实体识别子模型和实体关系提取子模型构建上述多模态预训练模型。
[0011]根据本公开的实施例,上述语义实体识别子模型是基于包含位置偏移阈值的排序算法构建的;上述语义实体识别子模型用于输出上述目标文档图像的实体内容包括:利用上述包含位置偏移阈值的排序算法对上述目标文档图像进行实体内容读取,其中,在第一读取方向上的距离小于上述位置偏移阈值的情况下,按照第二方向上的读取顺序读取上述目标文档图像的实体内容,上述第一读取方向与上述第二读取方向相互垂直。
[0012]本公开的另一方面还提供了一种文档处理装置,包括:矫正模块,用于对初始文档图像进行矫正,得到目标文档图像;分离模块,用于通过分离上述目标文档图像中前景目标的像素和背景目标的像素,得到基于上述前景目标的多个目标轮廓;生成模块,用于基于上述目标轮廓进行像素重构,生成上述目标文档图像的布局信息;提取模块,用于提取上述目标文档图像中的实体内容和实体关系,得到上述目标文档图像的实体信息;布局模块,用于利用上述目标文档图像的布局信息对上述目标文档图像的实体信息进行布局,得到具有预设格式的目标文件。
[0013]本公开的另一方面还提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,其中,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器执行上述的文档处理方法。
[0014]本公开的另一方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述的文档处理方法。
[0015]本公开的另一方面还提供了一种计算机程序产品,包括计算机程序,上述计算机程序被处理器执行时实现上述的文档处理方法。
[0016]根据本公开实施例提供的文档处理方法、装置、电子设备、存储介质和程序产品,通过对初始文档图像进行矫正,得到目标文档图像;分离目标文档图像中的前景目标像素和背景目标像素,得到多个目标轮廓;基于目标轮廓进行像素重构,生成目标文档图像的布局信息;利用布局信息对从目标文档图像中提取到的实体内容和实体关系进行布局,生成具有预设格式的目标文件。因为在文档处理的过程中,分离了前景目标像素和背景目标像素,考虑到了文档图像中的局部信息;还基于目标轮廓进行像素重构,补全了在分离前景像
素和背景像素的过程丢失的信息,考虑到了文档图像的全局信息;在得到布局信息的过程中充分结合了局部信息和全局信息,提高得到文档图像的布局信息的准确率;再根据布局信息对识别到的实体信息进行布局,可以至少部分得克服了相关技术中由于不能对文档图像中的内容进行准确识别,而导致对文档内容的抽取和分析不到位的问题,进而达到提高文档处理准确率的技术效果。
附图说明
[0017]通过以下参照附图对本公开实施例的描述,本公开的上述内容以及其他目的、特征和优点将更为清楚,在附图中:
[0018]图1A示意性示出了根据本公开实施例的文档处理方法和装置的应用场景图;
[0019]图1B示意性示出了根据本公开另一实施例的文档处理方法和装置的应用场景图;
[0020]图2示意性示出了根据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档处理方法,包括:对初始文档图像进行矫正,得到目标文档图像;通过分离所述目标文档图像中前景目标的像素和背景目标的像素,得到基于所述前景目标的多个目标轮廓;基于所述目标轮廓进行像素重构,生成所述目标文档图像的布局信息;提取所述目标文档图像中的实体内容和实体关系,得到所述目标文档图像的实体信息;利用所述目标文档图像的布局信息对所述目标文档图像的实体信息进行布局,得到具有预设格式的目标文件。2.根据权利要求1所述的方法,其中,所述通过分离所述目标文档图像中前景目标的像素和背景目标的像素,得到基于所述前景目标的多个目标轮廓包括:通过分离所述前景目标的像素和所述背景目标的像素,得到多个边界像素;基于所述多个边界像素,生成基于所述前景目标的多个目标轮廓。3.根据权利要求2所述的方法,其中,所述基于所述目标轮廓进行像素重构,生成所述目标文档图像的布局信息包括:重新构建所述目标文档图像中所述前景目标的像素、所述背景目标的像素以及所述边界像素之间的像素关系,得到构建结果,其中,所述边界像素与所述目标轮廓相关联;利用所述构建结果补偿所述边界像素,得到所述目标文档图像的布局信息。4.根据权利要求1所述的方法,其中,所述目标文档图像的实体内容包括表格文件;所述方法还包括:将所述表格文件输入到特征解码模型中,输出一一对应的单元格令牌和单元格的位置坐标。5.根据权利要求4所述的方法,其中,所述特征解码模型包括隐藏层、结构解码子模型和单元格位置解码子模型;所述将所述表格文件输入到特征解码模型中,输出一一对应的单元格令牌和单元格的位置坐标包括:将所述表格文件输入特征解码模型中,在经过所述隐藏层后,得到隐藏层输出结果;将所述隐藏层输出结果分别输入到结构解码子模型和单元格位置解码子模型中,输出所述单元格令牌和所述单元格的位置坐标;对所述单元格令牌和所述单元格的位置坐标执行连接操作,得到所述一一对应的单元格令牌和单元格的位置坐标。6.根据权利要求1所述的方法,其中,所述提取所述目标文档图像中的实体内容和实体关系,得到所述目标文档图像的实体信息包括:将所述目标文档图像输入到多模态预训练模型中,输出所述目标文档图像的实体信息,其中,所述多模态预训练模型包括语义实体识别子模型和实体关系提取子模型,所述语义实体识别子模型用于输出所述...

【专利技术属性】
技术研发人员:张佳颖
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1