一种面向多语种自然场景文本图像的结构化信息抽取方法技术

技术编号：44443352 阅读：7 留言：0更新日期：2025-02-28 18:50

本发明专利技术公开了一种面向多语种自然场景文本图像的结构化信息抽取方法，其步骤包括：1构建面向多语种自然场景文本图像信息抽取的数据集；2构建面向自然场景文本图像的多语种多模态信息抽取网络；3在多语种文本信息抽取数据集上，对多模态信息抽取网络的文本分支进行预训练；4训练面向自然场景文本图像的多语种多模态信息抽取网络；5利用训练好的多模态信息抽取网络对任意输入的多语种文本图像进行信息抽取，得到文本图像内视觉与语言信息的结构化知识表示。本发明专利技术可以在多语种的场景下，对输入的多语种自然场景文本图像进行信息抽取，深度理解文本图像内不同语种不同模态的信息，输出文本图像的结构化知识表示。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及多语种自然场景文本图像的信息处理相关问题，具体涉及一种面向多语种自然场景文本图像的结构化信息抽取方法。

技术介绍

1、现有关于文本图像信息抽取的研究主要面向文档图像，以文档图像中的布局信息和文本语义信息为依据实现文档图像的信息抽取。与文档图像相比，自然场景文本图像的背景更为复杂，包含具体的视觉目标，存在有意义的视觉场景信息。同时，自然场景文本图像中的文字内容以及文本呈现的形式更加灵活多样，给结构化知识抽取的研究带来了挑战。对于自然场景文本图像来说，其中包含的文本区域中的文字个数通常较少。自然场景文本图像中文本类型的上下文语境对于信息抽取的支撑相对更弱。

技术实现思路

1、本专利技术为了解决上述现有技术存在的不足之处，提出一种面向多语种自然场景文本图像的结构化信息抽取方法，以期能同时理解多语种环境下文本图像中的视觉目标、文本图像中的文本内容、文本图像的描述语句对应的三种不同模态的信息，从而能实现结构化知识的高效抽取。

2、本专利技术为达到上述专利技术目的，采用如下技术方案：

3、本专利技术一种面向多语种自然场景文本图像的结构化信息抽取方法的特点在于，包括以下步骤：

4、步骤1：获取多语种文本信息抽取数据集，其中，表示第i个多语种文本，表示结构化知识的语种，表示对应的结构化知识，表示中多语种文本的个数；

5、获取带标注的多语种自然场景文本图像集，其中，表示第j个多语种自然场景文本图像，表示结构化知识标注的语种，表示的结构化知

6、步骤2：构建面向多语种自然场景文本图像的结构化信息抽取网络，包括：一个文本分支，一个视觉分支，一个图像描述器，一个多模态信息抽取器；

7、所述文本分支，包括：1个多语种文本信息编码模块、1个transformer模块，1个文本信息抽取模块；

8、所述视觉分支，包括：1个多语种图文检测与识别模块、1个多语种视觉信息编码模块、1个多语种文本信息编码模块、1个预训练的多模态transformer模块；

9、所述多模态信息抽取器，包含：1个多模态信息融合模块、1个解码模块；

10、步骤3：将输入对结构化信息抽取网络中的文本分支进行预训练，得到预训练后的文本分支；

11、步骤4：将输入结构化信息抽取网络中进行训练，得到训练后的结构化信息抽取模型；

12、步骤5：使用训练后的结构化信息抽取模型对任意输入的多语种文本图像进行信息抽取，得到预测的结构化的知识表示，并作为信息抽取结果输出。

13、本专利技术所述的一种面向多语种自然场景文本图像的结构化信息抽取方法的特点也在于，所述步骤3包括以下步骤：

14、步骤3.1：将输入多语种文本信息编码模块中，并利用mt5的编码器对进行处理，得到中每个位置的嵌入表示矩阵，其中，表示中第个位置的嵌入表示向量，表示中的字符数，表示嵌入维度；

15、步骤3.2：将输入transformer层中，并经过多个堆叠的多头注意力机制、前馈操作和残差连接处理，得到的语义特征矩阵，其中，表示中第个位置的语义特征；

16、步骤3.3：将输入所述文本信息抽取器中进行预测，得到线性化知识表示，其中，表示对应的线性化知识表示中的第个字符，表示线性化知识表示中的字符个数；

17、步骤3.4：将通过基于树结构的规则转化为线性化知识表示，再与预测的线性化知识表示进行比对，以构建损失函数，用于而对文本分支进行反向传播，以更新文本分支中的网络参数，从而得到预训练后的文本分支。

18、进一步的，所述步骤4包括以下步骤：

19、步骤4.1：将步骤3中训练好的文本分支网络各节点的权重迁移到多语种多模态信息抽取网络对应位置的节点上；

20、步骤4.2：将输入所述视觉分支中的多语种图文检测与识别模块进行文本检测与识别，分别得到文本区域位置坐标、文本区域裁剪图像和识别结果；

21、步骤4.3：将和输入所述多语种视觉信息编码模块中进行处理，得到文本图像整体的视觉嵌入表示和文本区域裁剪图像的视觉嵌入表示，其中，表示中的第个表征向量，表示中的第个表征向量，表示中的向量个数，表示中的向量个数；

22、步骤4.4：基于和中的各部分分别在中的位置，计算和中的各部分分别在中对应的位置表示和；

23、将与在对应位置上拼接后，得到文本图像整体的视觉特征编码；

24、将与在对应位置上拼接后，得到文本区域裁剪图像的视觉特征编码；

25、步骤4.5：将输入所述多语种文本信息编码模块中进行处理，得到文本嵌入表示，其中，表示中的第个表示向量，表示嵌入向量的个数；

26、基于中的各部分在中的相对位置，计算得到中的各部分对应的位置编码；

27、将与拼接后，得到文本特征编码；

28、步骤4.6：将、、输入所述预训练的多模态transformer层中进行处理，输出多语种文本图像对应的语义增强视觉特征编码，文本区域裁剪图像对应的语义增强视觉特征编码、识别结果对应的语义增强文本特征编码；

29、步骤4.7：将输入所述图像描述模块中进行处理，得到的图像描述语句；

30、步骤4.8：将输入所述预训练后的文本分支中，依次经过多语种文本信息编码模块和transformer层的处理后，输出对应的语义增强文本特征编码，其中，表示中第个编码向量，表示向量的个数；

31、步骤4.9：将、、和输入所述多模态信息抽取器中进行多语种文本图像的信息抽取，得到文本图像线性化知识表示的预测结果；

32、步骤4.10：将通过基于树的规则转化为第i个线性化知识表示，并与第i个预测的线性化知识表示进行比对，以构建损失函数，用于对结构化信息抽取网络进行反向传播，以更新网络参数，从而得到训练后的结构化信息抽取模型。

33、进一步的，所述步骤4.9包括以下步骤：

34、步骤4.9.1：所述多模态信息融合模块对、、和进行融合，得到第i个融合后的特征编码，其中，表示的第个融合特征向量，表示融合特征向量的个数；

35、步骤4.9.2：将输入所述解码模块中进行预测，得到第i个预测的线性化知识表示，其中，表示对应的线性化知识表示中的第个字符；表示字符总数；

36、本专利技术一种电子设备，包括存储器以及处理器的特点在于，所述存储器用于存储支持处理器执行所述结构化信息抽取方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

37、本专利技术一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序的特点在于，所述计算机程序被处理器运行时执行所述结构化信息抽取方法的步骤。

38、与现有技术相比，本专利技术的有益效果在于：

39、1、本专利技术可以实现多语种自然场景文本图像的信息抽取，可以在图像内包含复杂视觉场景的情况下，使用多语种本文档来自技高网...

【技术保护点】

1.一种面向多语种自然场景文本图像的结构化信息抽取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种面向多语种自然场景文本图像的结构化信息抽取方法，其特征在于，所述步骤3包括以下步骤：

3.根据权利要求2所述的一种面向多语种自然场景文本图像的结构化信息抽取方法，其特征在于，所述步骤4包括以下步骤：

4.根据权利要求3所述的一种面向多语种自然场景文本图像的结构化信息抽取方法，其特征在于，所述步骤4.9包括以下步骤：

5.一种电子设备，包括存储器以及处理器，其特征在于，所述存储器用于存储支持处理器执行权利要求1-4中任一所述结构化信息抽取方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

6.一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行权利要求1-4中任一所述结构化信息抽取方法的步骤。

【技术特征摘要】

1.一种面向多语种自然场景文本图像的结构化信息抽取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种面向多语种自然场景文本图像的结构化信息抽取方法，其特征在于，所述步骤3包括以下步骤：

3.根据权利要求2所述的一种面向多语种自然场景文本图像的结构化信息抽取方法，其特征在于，所述步骤4包括以下步骤：

4.根据权利要求3所述的一种面向多语种自然场景文本图像的结构化信息抽取...

【专利技术属性】
技术研发人员：李永瑞，高骏杰，吴慕遥，洪日昌，
申请(专利权)人：合肥工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人