表格识别方法、识别模型的训练方法及相关产品技术

技术编号：44252367 阅读：3 留言：0更新日期：2025-02-11 13:49

本申请公开了一种表格识别方法、识别模型的训练方法及相关产品，用于快速、准确地从表格图片中识别出表格。所述表格识别方法包括：对包含表格的表格图片进行特征提取得到第一视觉特征，以及对用于描述所述表格图片的第一提示词进行特征提取得到第一文本特征；基于所述第一文本特征对所述第一视觉特征进行增强处理，得到第二视觉特征；通过识别模型，基于所述第二视觉特征，从所述表格图片中识别所述表格的表格信息，所述表格信息包括：所述表格中单元格的位置信息和所述单元格内的文本；基于所述表格信息，生成所述表格。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，尤其涉及一种表格识别方法、识别模型的训练方法及相关产品。

技术介绍

1、文档是保存信息的重要途径，其中表格是文档中最常见也是最直观的一种信息组织形式。表格包含了很多结构化的信息，获取这些结构化信息有助于构建庞大的数据库来进行数据的存储和管理。实际场景中，可以获取的通常是图像形式的文档，这就需要借助表格识别技术，从图像形式的文档中识别出表格。

2、在诸如海算平台等运算量较大的运算平台中，有大量的表格图片需要处理，这些表格图片具有文字密集、单元格密集等显著特点，且对运行时间要就较高。因此，如何快速、准确从表格图片中识别出表格，成为亟待解决的问题。

技术实现思路

1、本申请实施例的目的提供一种表格识别方法、识别模型的训练方法及相关产品，用于快速、准确地从表格图片中识别出表格。

2、为了实现上述目的，本申请实施例采用下述技术方案：

3、第一方面，本申请实施例提供一种表格识别方法，包括：

4、对包含表格的表格图片进行特征提取得到第一视觉特征，以及对用于描述所述表格图片的第一提示词进行特征提取得到第一文本特征；

5、基于所述第一文本特征对所述第一视觉特征进行增强处理，得到第二视觉特征；

6、通过识别模型，基于所述第二视觉特征，从所述表格图片中识别所述表格的表格信息，所述表格信息包括：所述表格中单元格的位置信息和所述单元格内的文本；

7、基于所述表格信息，生成所述表格。

8、第二方

9、对包含样本表格的样本表格图片进行特征提取得到第一样本视觉特征，以及对用于描述所述样本表格图片的第二提示词进行特征提取得到第一样本文本特征；

10、基于所述第一样本文本特征对所述第一样本视觉特征进行增强处理，得到第二样本视觉特征；

11、通过识别模型，基于所述第二样本视觉特征，从所述表格图片中识别所述样本表格的表格信息，所述表格信息包括：所述样本表格中单元格的位置信息和所述单元格内的文本；

12、基于所述样本表格的表格信息和参考表格信息，调整所述识别模型的参数。

13、第三方面，本申请实施例提供一种表格识别装置，包括：

14、第一提取模块，用于对包含表格的表格图片进行特征提取得到第一视觉特征，以及对用于描述所述表格图片的第一提示词进行特征提取得到第一文本特征；

15、第一增强模块，用于基于所述第一文本特征对所述第一视觉特征进行增强处理，得到第二视觉特征；

16、第一识别模块，用于通过识别模型，基于所述第二视觉特征，从所述表格图片中识别所述表格的表格信息，所述表格信息包括：所述表格中单元格的位置信息和所述单元格内的文本；

17、第一生成模块，用于基于所述表格信息，生成所述表格。

18、第四方面，本申请实施例提供一种识别模型的训练装置，包括：

19、第二提取模块，用于对包含样本表格的样本表格图片进行特征提取得到第一样本视觉特征，以及对用于描述所述样本表格图片的第二提示词进行特征提取得到第一样本文本特征；

20、第二增强模块，用于基于所述第一样本文本特征对所述第一样本视觉特征进行增强处理，得到第二样本视觉特征；

21、第二识别模块，用于通过识别模型，基于所述第二样本视觉特征，从所述表格图片中识别所述样本表格的表格信息，所述表格信息包括：所述样本表格中单元格的位置信息和所述单元格内的文本；

22、第一调整模块，用于基于所述样本表格的表格信息和参考表格信息，调整所述识别模型的参数。

23、第五方面，本申请实施例提供一种电子设备，包括：

24、处理器；

25、用于存储所述处理器可执行指令的存储器；

26、其中，所述处理器被配置为执行所述指令，以实现如第一方面提供的表格识别方法；或者，所述处理器被配置为执行所述指令，以实现如第二方面提供的识别模型的训练方法。

27、第六方面，本申请实施例提供一种计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如第一方面提供的表格识别方法；或者，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如第二方面提供的识别模型的训练方法。

28、第七方面，本申请实施例提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序可操作来使计算机执行如第一方面提供的表格识别方法或第二方面提供的识别模型的训练方法中的部分或全部步骤。

29、本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：

30、首先，对包含表格的表格图片进行特征提取得到第一视觉特征，并采用第一提示词来描述表格图片，通过对第一提示词进行特征提取，得到第一文本特征；然后，基于第一文本特征对第一视觉特征进行增强处理，使得第一文本特征中隐含了对于文本和单元格的显示关注，这类显示关注可以起到对第一视觉特征的指导作用，使第一视觉特征更为专注于表格图片中的文本区域和单元格区域，得到第二视觉特征，以更有针对性进行特征表达；第二；进一步，通过识别模型，基于第二视觉特征，能够更准确地从表格图片中识别出表格中单元格的位置信息及单元格内的文本等表格信息，基于这些表格信息，即可准确生成相应表格。

31、可见，本申请实施例提出的表格识别方法无需依赖于额外的ocr技术，不仅避免了ocr会引入误差，且综合利用了图片和文本信息，使得识别模型更为鲁棒。此外，摒弃了串行序列预测方案，不但降低了标注难度，且使得实际应用中，耗时并不会因为单元格数量增强而变得不可控，提高了表格识别效率。

本文档来自技高网...

【技术保护点】

1.一种表格识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一文本特征对所述第一视觉特征进行增强处理，得到第二视觉特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述相关系数和所述第一视觉特征，对所述第一文本特征进行增强处理，得到第二文本特征，包括：

4.根据权利要求2所述的方法，其特征在于，所述采用交叉注意力机制，对所述第二文本特征和所述第一视觉特征进行融合，得到第二视觉特征，包括：

5.一种识别模型的训练方法，其特征在于，包括：

6.根据权利要求5所述的方法，其特征在于，所述表格信息还包括：所述单元格内的文本区域的位置信息；

7.根据权利要求5所述的方法，其特征在于，所述参数包括第一可学习参数和第二可学习参数；

8.一种电子设备，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至4中任一项所述的表格识别方法；或者，当所述存储介质中的指令由

10.一种计算机程序产品，其特征在于，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序可操作来使计算机执行如权利要求1至4中任一项所述的表格识别方法或权利要求5至7中任一项所述的识别模型的训练方法中的部分或全部步骤。

...

【技术特征摘要】

1.一种表格识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一文本特征对所述第一视觉特征进行增强处理，得到第二视觉特征，包括：

4.根据权利要求2所述的方法，其特征在于，所述采用交叉注意力机制，对所述第二文本特征和所述第一视觉特征进行融合，得到第二视觉特征，包括：

5.一种识别模型的训练方法，其特征在于，包括：

6.根据权利要求5所述的方法，其特征在于，所述表格信息还包括：所述单元格内的文本区域的位置信息；

7.根据权利要...

【专利技术属性】
技术研发人员：王雷，杨彭年，李小文，李彬，张亮，于冬梅，宋法志，康路，
申请(专利权)人：中移信息系统集成有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人