一种非结构化文本表格识别方法和系统技术方案

技术编号:35835464 阅读:29 留言:0更新日期:2022-12-03 14:05
本发明专利技术提供了一种非结构化文本(包括所有格式的办公文档、文本、图片、各种报表和图像等)表格识别方法,涉及文本识别领域,该方法包括:采集数据集,首先把非结构化文本转化为图像类集合,然后对集合进行图像预处理,把图像集合作为数据集导入模型,对图像数据集的信息进行分析,检测出表格区域,把图像转换成序列,进行表格结构序列预测,检测出表格行结构,进行表格行识别,表格行单元格识别后,识别结果经过后处理,融合表格行结构和单元格文本内容,最终通过文本框和单元格内容进行匹配得到Excel形式的表格识别数据。该方法通过特征学习训练了模型,实现了非结构化文本数据信息的智能提取,有利于非结构化文本数据的进一步分析和实际应用,极大地节省了人力成本提高了工作效率,在一定程度上提高了表格检测速度和准确率,使用本发明专利技术所述的方法和系统,可以通过转化进行非结构化文本内容的分析和信息的识别提取,使得非结构化文本在各行各业中具有更好的实用价值和应用。好的实用价值和应用。

【技术实现步骤摘要】
一种非结构化文本表格识别方法和系统


[0001]本专利技术涉及OCR识别领域,具体涉及一种将不可编辑的非结构化文本数字化,属于计算机视觉的扩展应用。

技术介绍

[0002]非结构化文本数字化是推动现代工作向数字化、网络化、智能化转型的基础,非结构化文本数字化对数字经济、人工智能发展具有重大意义,表格识别是数据处理的基础,在各行各业中都具有重要的应用价值,近年来一直是计算机视觉领域的研究热点之一。
[0003]表格识别旨在从图像或者非结构化文本中检测出表格的位置,获取表格的结构和内容,并抽取特定信息,主要包括表格区域检测、表格结构识别和表格内容的识别等研究问题;随着深度学习的发展,针对这些问题的新研究和新方法纷纷涌现;然而,由于表格应用场景广泛,表格的样式众多,在表格识别领域仍存在不少问题亟需解决;例如:现有表格结构识别模型在处理无线表和少线表时,其效果距离实际应用仍有所差距;表格内容识别中的模型大多受限于指定数据集,泛化能力较差;同时,随着移动设备拍照技术的发展,对于现实场景表格的识别需求越来越大,现实场景表格图像由于亮度、对比度、倾斜度等的不同,对表格识别算法提出了更高的挑战。
[0004]通过OCR识别技术对非结构化文本进行文字识别是可行的,但当文本中存在大量表格时,OCR文字识别提取就存在一定的困难,由于非结构化文本表格信息体量太大,通过人工进行提取耗时且容易出现错误;那么,对非结构化文本进行表格识别是一个亟待解决的问题;进行表格检测识别,一方面可以提高效率,比如:银行的票据,文档分析等业务需求;另一方面这些数据也可以作为数据分析信息,辅助各类计算机方面的实际应用。
[0005]本专利技术提供一种将非结构化文本格式的表格内容识别成Excel表格格式并进一步处理成结构化数据的方法,极大节省了人力成本提高了工作效率。

技术实现思路

[0006]针对上述问题,本专利技术提供了一种非结构化文本表格识别方法和系统,用于非结构文本的表格识别。
[0007]本专利技术提供如下技术方案:一种非结构化文本表格识别方法,包括如下步骤:步骤1获取非结构化文本中的图像数据集,使用投影直方图进行预处理操作;步骤2对图像数据集版面信息进行分析,检测出表格区域;步骤3对表格结构序列进行预测,检测出表格行结构;步骤4对表格行结构进行行识别,得到单元格框和文本内容;步骤5根据表格行检测和识别,对文本框和单元格内容进行匹配,最终得到Excel形式的表格信息数据;根据图像预处理、表检测、表格行检测和表格行识别训练表格识别模型,保存模型参数;调用上述表格识别模型对非结构化文本进行表格识别,得到识别结果。
[0008]步骤1中图像预处理使用中值滤波器去除图像的噪声伪影,绘制投影直方图,采用文本倾斜校正算法进行表对齐,并引入了水平膨胀和水平投影。
[0009]步骤2中对图像数据集版面信息进行字符索引记录,根据获取的字符区索引数组,进行区域切割,检测出表格区域,然后修改文件代码,使得表格边界的颜色比文档其它部分更具区分性,这样表格能够完全识别。
[0010]步骤3中表格行检测采用了可变形卷积的残差网络模型作为特征提取层,特征金字塔网络(FPN)作为neck层,head层由两个独立的分支组成:分类分支和回归分支;分类分支用来预测文本区域掩膜和文本中心区域掩膜,回归分支用来预测傅里叶域中文本的傅里叶特征向量,然后将该特征向量输入到反向傅里叶变换进行文本轮廓点序列的重建。
[0011]步骤4中表格行识别采用基于Multi

Aspect的全局上下文注意力机制的编码器和基于Transformer的解码器,由三个常规的Transformer解码层组成;对于获取的非结构化文本图像数据集需要进行对应的HTML格式注释,并提供数据集表格结构和字符;表格结构是由table标签来定义,每个表格均有若干行(由tr标签定义),每行被分割为若干单元格(由td标签定义),这种形式在网页中经常被用到,即用超文本标记语言来定义表格。
[0012]步骤5通过表格行检测和表格行识别得到表格结构序列,单元格框,文本框和文字识别内容,经过后处理匹配算法,融合表格结构序列和单元格文本内容,得到表格的HTML文本,最终可视化为Excel形式的表格数据。
[0013]一种非结构化文本表格识别系统,包括:文件读取模块,对非结构化文本进行系统扫描。
[0014]文档转化模块,将选中的非结构化文本拆分成图像,形成图像数据集。
[0015]检测识别模块,将包含表格的图像文件输入到表格识别模型中得到可编辑的文本格式。
[0016]内容匹配模块,将识别出的文本按照位置信息进行匹配。
[0017]文件导出模块,结果通过本模块导出为Excel文件,导出的文件可以二次编辑和复制。
[0018]所述表格识别系统,系统架构分为模型、模板和视图三大部分,模型负责业务对象和数据库的关系映射,模板负责将页面展示给用户,视图负责业务逻辑。
[0019]所述表格识别系统,每个文本行对应一个模型实例,包括文本行位置信息、文本内容、单元格跨行跨列情况等。
[0020]本专利技术的上述技术方案相比现有技术具有以下优点:本专利技术根据表格中文本行的特点选择当下高效的算法,针对实际问题进行改进,获得了较为准确的检测结果和识别结果,建立以文本行为最小单位,以单元格为基本单元的表格结构序列。
[0021]针对表格数据特点,将表格识别问题分解为表检测、文本行检测和文本行识别三个子问题,由不同的最新算法解决表格识别问题,便于调试和解决问题。
[0022]该表格识别算法引入了系统化应用,提出了一种表格识别系统,系统基于Flask框架包含模型、模板和视图三大部分面向用户,使得用户和系统交互更加方便快捷,具有一定的应用价值。
附图说明
[0023]图1为一种非结构化文本表格识别方法的一个实施例逻辑图。
[0024]图2为一种非结构化文本表格识别方法的另一个实施例逻辑图。
[0025]图3为模型结构图。
[0026]图4为表格行检测网络框架。
[0027]图5为表格行识别网络框架。
[0028]图6为表格识别流程图。
具体实施方式
[0029]下面将结合本专利技术具体实施方式中的附图,对本专利技术具体实施方式中的技术方案进行清楚、完整地描述,显然,所描述的具体实施方式仅仅是本专利技术一种具体实施方式,而不是全部的具体实施方式;基于本专利技术中的具体实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他具体实施方式,都属于本专利技术保护的范围。
[0030]实施例1通过附图1可以看出,本专利技术一种非结构化文本表格识别方法和系统,检测的是非结构化文本中的表格并进行识别;本专利技术中的网络结构主要包括图像预处理、表检测、文本行检测、文本行识别和框匹配等,所属方法包括。
[0031]步骤1获取非结构化文本中的图像数据集,使用投影直方图进行预处理操作,使用中值滤波本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种非结构化文本表格识别方法,包括如下步骤:步骤1获取非结构化文本中的图像数据集,使用投影直方图进行预处理操作;步骤2对图像数据集版面信息进行分析,检测出表格区域;步骤3对表格结构序列进行预测,检测出表格行结构;步骤4对表格行结构进行行识别,得到单元格框和文本内容;步骤5根据表格行检测和识别,对文本框和单元格内容进行匹配,最终得到Excel形式的表格信息数据;根据图像预处理、表检测、表格行检测和表格行识别训练表格识别模型,保存模型参数;调用上述表格识别模型对非结构化文本进行表格识别,得到识别结果。2.根据权利要求1所述一种非结构化文本表格识别方法,其特征在于,步骤1中对于获取的非结构化文本图像数据集需要进行对应的HTML格式注释,并提供数据集表格结构和字符;对于图像预处理使用中值滤波器去除图像的噪声伪影,绘制投影直方图,采用文本倾斜校正算法进行表对齐,并引入了水平膨胀和水平投影。3.根据权利要求1所述一种非结构化文本表格识别方法,其特征在于,步骤2中对图像数据集版面信息进行字符索引记录,根据获取的字符区索引数组,进行区域切割,检测出表格区域,然后修改文件代码,使得表格边界的颜色比文档其它部分更具区分性。4.根据权利要求1所述一种非结构化文本表格识别方法,其特征在于,步骤3中对于表格行检测采用了可变形卷积的残差网络模型作为特征...

【专利技术属性】
技术研发人员:李敏张丽平周鸣乐韩德隆刘一鸣
申请(专利权)人:齐鲁工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1