System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于电网信息的表格提取系统和方法技术方案_技高网

一种基于电网信息的表格提取系统和方法技术方案

技术编号:42512623 阅读:8 留言:0更新日期:2024-08-27 19:27
本发明专利技术公开了一种基于电网信息的表格提取系统和方法。包括:从预处理后的含表格的图片中划分出训练集;将训练集对表格信息提取模型进行训练,得到训练后的表格信息提取模型,其中,表格信息提取模型包括编码器、解码器、掩膜修复模块、单元格获取模块和单元格文字识别模块;解码器包含行提取解码器和列提取解码器,掩膜修复模块采用形态学操作和边缘检测相结合的修复方法对解码器的特征输出进行修复;单元格获取模块将经过掩膜修复模块后的修复特征进行交集处理,得到单元格;将待提取信息的表格图片输入训练后的表格信息提取模型中,得到表格信息的提取结果。本发明专利技术可以有效解决表格不一致的问题,同时提高表格处理准确度和效率。

【技术实现步骤摘要】

本专利技术涉及图像处理,具体涉及一种基于电网信息的表格提取系统和方法


技术介绍

1、随着新型电力系统的建设和发展,我国成功优化了电力能源配置。然而,新系统的复杂性和灵活性增加,给自动化运维带来前所未有的艰巨任务,例如电力系统变得越发复杂,存有大量的纸质文档、台账等资料,传统的文档管理方式无法有效处理这一庞大而复杂的信息体系,导致信息检索的低效性。为了应对这一问题,对系统内的纸质文档进行数字化处理变得非常有必要。数字化解决方案能够有效解决检索问题,实现更高效、更便捷的信息管理和利用,为电力系统的智能运维提供有力支持。通过数字化,可以更好地挖掘系统内有价值的信息,提高运维效率,降低潜在风险,从而促进电力系统的安全稳定运行。电力系统的文档中,相当一部分采用表格的形式以准确高效传达信息。然而,相对于普通的文档,表格部分具有特殊而且不唯一的内部结构和内容,这给其检测和识别带来了较大的挑战。

2、表格处理经历了启发式方法、机器学习方法、深度学习方法三个阶段。启发式方法采用图表布局结构以及空间特征等线索等来检测表格,然而,启发式方案仅仅适用于特定布局的表格文档中,针对不同的表格,需要进行规则调整,难以成为广泛通用的解决方案。机器学习的方法比启发式方法具有更好的通用性,如无监督的聚类分词学习方法,基于决策树和svm分类器的方法,基于隐马尔可夫模型的联合分布方法,基于knn结构聚合的方法等。深度学习在捕获表格的复杂结构信息方面表现出色,并从图像中提取更多、更有用的位置特征,深度学习的表格检测又可以分为“目标检测方法”和“语义分割法”,目标检测法将表格视为自然对象,是将表格与其他文本或图形元素区分开来,并准确地确定它们的边界,部分研究直接以通用的目标检测框架为基础,而语义分割法是将文档视为自然图像,为每个像素分配一个类别,如图片、表格、普通文本,在复杂文档中检测和提取表格具有良好的性能;然而上述三个阶段的表格处理方法多针对整个表格,而不针对具体的表格单元,通常表格整体信息还不够精细,内部存在空白、换行等问题,使得行、列的分布和整体表格不一致。


技术实现思路

1、本专利技术的目的是针对现有技术中的针对整体表格的处理方法信息不够精细,内部存在空白、换行,使得行、列的分布和整体表格分别不一致的问题,从而提出了一种基于电网信息的表格提取系统和方法。该系统在构建表格信息提取网络时,利用编码器提取表格特征,通过行提取解码器和列提取解码器得到表格的行和列的初步掩膜,由于行和列的初步掩膜的边界不够准确,因此,采用形态学操作和边缘检测相结合的修复方法对行和列的初步掩膜进行修复,得到完全有效覆盖表格文字的行和列的掩膜,接着进行交集处理,得到各个独立掩膜的单元格,然后对单元格中的文字进行识别。本专利技术在处理特征时兼顾效率和速度,同时有效解决了表格处理时内部存在空白、换行,使得行、列的分布和整体表格不一致的问题,提高表格处理准确度和效率。

2、为实现此目的,本专利技术所设计的一种基于电网信息的表格提取系统,它包括数据处理模块、模型构建模块和信息提取模块;

3、所述数据处理模块用于对历史电网信息中含表格的图片进行预处理,并从预处理后的含表格的图片中划分出训练集;

4、所述模型构建模块用于将所述训练集对表格信息提取模型进行训练,得到训练后的表格信息提取模型;

5、所述信息提取模块用于将待提取信息的表格图片输入训练后的表格信息提取模型中,得到表格信息的提取结果。

6、本专利技术的有益效果:

7、本专利技术通过构建包括编码器、行提取解码器、列提取解码器、掩膜修复模块、单元格获取模块和单元格文字识别模块的表格信息提取网络,在处理特征时兼顾效率和速度,同时,在进行行特征提取和列特征提取得到不规则形状的行和列的初步掩膜后,采用掩膜修复模块对行和列的初步掩膜进行修复,得到完全有效覆盖要识别文字的行和列的掩膜,对行和列的掩膜进行交集处理,得到单元格用于对其中文字进行识别,可以有效解决表格处理时内部存在空白、换行以及使得行、列的分布和整体表格不一致的问题,提高表格处理准确度和效率。

本文档来自技高网...

【技术保护点】

1.一种基于电网信息的表格提取系统,其特征在于,它包括数据处理模块、模型构建模块和信息提取模块;

2.根据权利要求1所述的表格提取系统,其特征在于,所述表格信息提取模型包括编码器、解码器、掩膜修复模块、单元格获取模块和单元格文字识别模块;

3.根据权利要求1所述的表格提取系统,其特征在于,所述训练后的表格信息提取模型包括训练后的编码器、训练后的解码器、训练后的掩膜修复模块、训练后的单元格获取模块和训练后的单元格文字识别模;

4.根据权利要求2所述的表格提取系统,其特征在于,所述编码器由若干个编码器基本单元级联组成,所述编码器基本单元由残差单元和反向残差单元串联组成;

5.根据权利要求4所述的表格提取系统,其特征在于,所述编码器基本单元的残差单元和反向残差单元的中间含有池化层,所述编码器基本单元的反向残差单元的后面还含有池化层;

6.根据权利要求5所述的表格提取系统,其特征在于,残差单元的残差块中的三个卷积层的卷积核分别为1×1、3×3、1×1,ReLU激活函数位于卷积核为3×3的卷积层的后面;

7.根据权利要求1所述的表格提取系统,其特征在于,所述数据处理模块还包括从预处理后的含表格的图片中划分出测试集,所述训练集和测试集的划分比例为4:1。

8.根据权利要求1所述的表格提取系统,其特征在于,所述掩膜修复模块采用形态学操作和边缘检测相结合的修复方法对解码器的表格特征输出进行修复的具体方法为:

9.一种基于权利要求1所述系统的电网信息的表格提取方法,其特征在于,它包括如下步骤:

10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求9所述方法的步骤。

...

【技术特征摘要】

1.一种基于电网信息的表格提取系统,其特征在于,它包括数据处理模块、模型构建模块和信息提取模块;

2.根据权利要求1所述的表格提取系统,其特征在于,所述表格信息提取模型包括编码器、解码器、掩膜修复模块、单元格获取模块和单元格文字识别模块;

3.根据权利要求1所述的表格提取系统,其特征在于,所述训练后的表格信息提取模型包括训练后的编码器、训练后的解码器、训练后的掩膜修复模块、训练后的单元格获取模块和训练后的单元格文字识别模;

4.根据权利要求2所述的表格提取系统,其特征在于,所述编码器由若干个编码器基本单元级联组成,所述编码器基本单元由残差单元和反向残差单元串联组成;

5.根据权利要求4所述的表格提取系统,其特征在于,所述编码器基本单元的残差单元和反向残差单元的中间含有池化层,所述编码器基本单元的反向残差...

【专利技术属性】
技术研发人员:肖大军徐遐龄张越李鑫刘涛单连飞于文娟肖小刚汤卫东康福权乔咏田姜涛王宇安卓阳赵胜奥阮振宇
申请(专利权)人:国家电网有限公司华中分部
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1