一种基于深度学习的表格识别方法技术

技术编号：40558542 阅读：25 留言：0更新日期：2024-03-05 19:20

一种基于深度学习的表格识别方法，包括：获取包含表格的图像数据集；提取数据集中图像的表格区域，并利用投影变换矫正表格区域；再得到表格图像；提取出表格图像中的单元格图像作为文本框识别网络训练集；对yolov8检测网络进行训练；将待识别单元格图像输入训练好的文本块检测网络，输出重新排序后的文本块图像；输出文本块图像中的文本；将文本块图像中的文本输出到excel；本发明专利技术解决了现有技术中存在的识别稳定性受表格图像规范度影响较大以及现有技术中识别速度和准确率之间的平衡问题，能够准确地从包含表格的图像中识别所包含的全部表格，包括表格结构与内容信息，有助于提高结构化数据处理的效率与准确性，具有更强的实用性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于光学字符识别，具体涉及一种基于深度学习的表格识别方法。

技术介绍

1、在当前数字化时代，表格数据的处理和识别已经成为了各行各业的重要任务。然而，传统的手动输入和处理表格数据的方法耗时且容易出错，因此表格识别技术逐渐受到了广泛关注。表格识别技术旨在自动从图像或扫描文档中提取表格结构和内容，并将其转换为可编辑或可用于数据分析的格式。常用的表格识别方法可以分为两种类，第一类是基于传统图像处理技术的识别方法，第二类是基于深度学习的识别方法。

2、公开号为cn116645685a的专利申请，公开了一种表格识别方法、表格识别模型的训练方法、装置及设备；该方法的实现步骤为：首先根据预设的总行数何总列数对待识别表格图像的表格尺寸进行扩充，得到扩充后的目标表格图像；其次对所述目标表格图像进行表格识别，得到目标表格的表格属性信息；最后根据所述目标表格图像的表格属性信息进行表格重构，得到所述待识别表格图像中的单元格信息。该方法能够通过ocr+注意力机制技术对实现表格结构及内容的自动识别，但是，该方法仍然存在的不足之处是，该方法在处理不标准、不规则及复杂的表格布局与格式时其提取能力受限，且受到原始影像数据影响较大，在输入表格图像较复杂的情况下，该方法对于表格识别的抗干扰能力较差。

3、公开号为cn116246284a的专利申请，公开了一种表格识别的方法；该方法的实现步骤为：首先，对输入图像预处理，输入神经网络提取表格图像的特征图，再进行处理得到目标特征图；最后，基于目标特征图得到表格的序列特征，进而得到表格类别和单

技术实现思路

1、为了克服上述现有技术的不足，本专利技术的目的在于提供一种基于深度学习的表格识别方法，通过投影变换矫正表格区域、利用yolov8目标检测模型检测单元格、利用svtr文本识别模型识别文本以及以excel文件输出的方式，能够稳定、高效且准确地识别表格，且不受到表格规范度的影响，有效提升了抗干扰能力、大规模数据处理能力、文本识别精度，并加强了可扩展性和便捷性。

2、为了实现上述目的，本专利技术采取的技术方案是：

3、一种基于深度学习的表格识别方法，利用投影变换对表格图像进行前景提取，并采用yolov8检测网络检测文本块，最后得到填入表格信息的excel文件；

4、该识别方法包括以下步骤：

5、步骤1，获取包含表格的图像数据集；

6、步骤2，通过图像处理技术提取出步骤1数据集中图像的表格区域，并利用投影变换矫正表格区域；

7、步骤3，通过投影变换从步骤2表格区域中提取出表格图像；

8、步骤4，通过图像处理技术提取出步骤3表格图像中的单元格图像；

9、步骤5，通过步骤4输出的一部分单元格图像制作文本框识别网络训练集；

10、步骤6，选择yolov8作为检测网络；

11、步骤7，将步骤5得到的文本框识别网络训练集输入到步骤6的yolov8检测网络中进行训练，得到训练好的文本块检测网络；

12、步骤8，将步骤4输出的另一部分待识别单元格图像输入到步骤7训练好的文本块检测网络，输出重新排序后的文本块图像；

13、步骤9，将卷积循环神经网络crnn或高精度中文场景文本识别模型svtr作为文本识别网络：

14、步骤10，将步骤8输出的重新排序后的文本块图像输入到步骤9的文本识别网络，输出文本块图像中的文本；

15、步骤11，将步骤10输出的文本块图像中的文本输出到excel。

16、所述步骤2的具体方法为：

17、步骤2.1，将步骤1数据集中的图像转换为灰度图，再使用大津算法将灰度图转换为黑白图像；

18、步骤2.2，对步骤2.1中的黑白图像进行膨胀和腐蚀操作，去除噪点并填充表格区域，得到经过腐蚀膨胀后的黑白图像；

19、步骤2.3，计算步骤2.2经过腐蚀膨胀后黑白图像中的所有轮廓面积，并输出符合条件的四边形轮廓与其四个角点坐标，得到步骤1数据集中的表格区域的四个角点坐标；

20、步骤2.4，根据步骤2.3输出的四边形轮廓的四个角点坐标，进行投影变换，输出矫正后的表格区域。

21、所述步骤3的具体方法为：

22、步骤3.1，在步骤2.4输出校正后的表格区域中寻找符合条件的四边形轮廓；

23、步骤3.2，对每个表格进行投影变化矫正，输出矫正后的表格图像。

24、所述步骤4的具体方法为：

25、步骤4.1，对步骤3.2矫正后的表格图像进行腐蚀与膨胀处理，分别得到水平线的纵坐标与起始点信息和垂直线的横坐标与起始点信息，再根据水平线的纵坐标与起始点信息和垂直线的横坐标与起始点信息得到表格结构；

26、步骤4.2，根据步骤4.1得到的表格结构将表格图像分割成单元格，输出单元格图像。

27、所述步骤5为：对步骤4输出的60％-80％的单元格图像用矩形框标注出其中的文本框区域，作为感兴趣区域，将所有感兴趣区域组成文本框识别网络训练集。

28、所述步骤7为：将步骤5得到的文本框识别网络训练集输入到步骤6的yolov8检测网络中，计算网络的损失函数值，利用梯度下降法对网络进行迭代训练，迭代更新网络的各参数，直至损失函数收敛为止，得到训练好的文本块检测网络。

29、所述步骤8的具体方法为：

30、将步骤4输出的剩余20％-40％待识别单元格图像输入到步骤7训练好的文本块检测网络，输出单元格图像中文本块区域所在矩形框的左上角点的坐标；根据坐标对单元格中检测到的文本块进行重新排序，输出重新排序后的文本块图像。

31、所述步骤2.3中计算步骤2.2经过腐蚀膨胀后黑白图像中的所有轮廓面积，并输出符合条件的四边形轮廓与其四个角点坐标，具体步骤如下：

32、步骤2.3.1，遍历计算图像中的每一个轮廓面积，如果面积大于10000，则保留进行下一步计算；

33、步骤2.3.2，计算每个保留下的轮廓周长，并对轮廓进行近似得到近似的多边形，如果近似多边形的顶点数为4，则这个轮廓属于符合条件的表格区域。

34、所述步骤4.1中利用水平线的纵坐标与起始点信息和垂直线的横坐标与起始点信息得到表格结构的具体步骤如下：

35、步骤4.1.1，通过腐蚀操作得到腐蚀后的图像，再对腐蚀后的图像进行膨胀操作，得到膨胀后的水平线图像，使用连通域分析得到竖直线，计算每条竖直线的高度，并与阈值50进行比较，如果竖直线的高度小于阈值，就将该竖直线对应的像素值置为0，从而删除这条过短的竖直线；

本文档来自技高网...

【技术保护点】

1.一种基于深度学习的表格识别方法，其特征在于，利用投影变换对表格图像进行前景提取，并采用yolov8检测网络检测文本块，最后得到填入表格信息的excel文件；该识别方法包括以下步骤：

2.根据权利要求1所述的一种基于深度学习的表格识别方法，其特征在于，所述步骤2的具体方法为：

3.根据权利要求1或2所述的一种基于深度学习的表格识别方法，其特征在于，所述步骤3的具体方法为：

4.根据权利要求1所述的一种基于深度学习的表格识别方法，其特征在于，所述步骤4的具体方法为：

5.根据权利要求1所述的一种基于深度学习的表格识别方法，其特征在于，所述步骤5为：对步骤4输出的60％-80％的单元格图像用矩形框标注出其中的文本框区域，作为感兴趣区域，将所有感兴趣区域组成文本框识别网络训练集。

6.根据权利要求1所述的一种基于深度学习的表格识别方法，其特征在于，所述步骤7为：将步骤5得到的文本框识别网络训练集输入到步骤6的yolov8检测网络中，计算网络的损失函数值，利用梯度下降法对网络进行迭代训练，迭代更新网络的各参数，直至损失函数收敛

7.根据权利要求1所述的一种基于深度学习的表格识别方法，其特征在于，所述步骤8的具体方法为：将步骤4输出的剩余20％-40％待识别单元格图像输入到步骤7训练好的文本块检测网络，输出单元格图像中文本块区域所在矩形框的左上角点的坐标；根据坐标对单元格中检测到的文本块进行重新排序，输出重新排序后的文本块图像。

8.根据权利要求2所述的一种基于深度学习的表格识别方法，其特征在于，所述步骤2.3中计算步骤2.2经过腐蚀膨胀后黑白图像中的所有轮廓面积，并输出符合条件的四边形轮廓与其四个角点坐标，具体步骤如下：

9.根据权利要求4所述的一种基于深度学习的表格识别方法，其特征在于，所述步骤4.1中利用水平线的纵坐标与起始点信息和垂直线的横坐标与起始点信息得到表格结构的具体步骤如下：

10.根据权利要求6所述的一种基于深度学习的表格识别方法，其特征在于，所述步骤7中的文本块检测网络的训练方法具体步骤包括：

...

【技术特征摘要】

2.根据权利要求1所述的一种基于深度学习的表格识别方法，其特征在于，所述步骤2的具体方法为：

3.根据权利要求1或2所述的一种基于深度学习的表格识别方法，其特征在于，所述步骤3的具体方法为：

4.根据权利要求1所述的一种基于深度学习的表格识别方法，其特征在于，所述步骤4的具体方法为：

6.根据权利要求1所述的一种基于深度学习的表格识别方法，其特征在于，所述步骤7为：将步骤5得到的文本框识别网络训练集输入到步骤6的yolov8检测网络中，计算网络的损失函数值，利用梯度下降法对...

【专利技术属性】
技术研发人员：李卫斌，朱子璇，于成龙，李微，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人