一种非结构化文本表格识别方法和系统技术方案

技术编号：35835464 阅读：34 留言：0更新日期：2022-12-03 14:05

本发明专利技术提供了一种非结构化文本（包括所有格式的办公文档、文本、图片、各种报表和图像等）表格识别方法，涉及文本识别领域，该方法包括：采集数据集，首先把非结构化文本转化为图像类集合，然后对集合进行图像预处理，把图像集合作为数据集导入模型，对图像数据集的信息进行分析，检测出表格区域，把图像转换成序列，进行表格结构序列预测，检测出表格行结构，进行表格行识别，表格行单元格识别后，识别结果经过后处理，融合表格行结构和单元格文本内容，最终通过文本框和单元格内容进行匹配得到Excel形式的表格识别数据。该方法通过特征学习训练了模型，实现了非结构化文本数据信息的智能提取，有利于非结构化文本数据的进一步分析和实际应用，极大地节省了人力成本提高了工作效率，在一定程度上提高了表格检测速度和准确率，使用本发明专利技术所述的方法和系统，可以通过转化进行非结构化文本内容的分析和信息的识别提取，使得非结构化文本在各行各业中具有更好的实用价值和应用。好的实用价值和应用。

全部详细技术资料下载

【技术实现步骤摘要】
一种非结构化文本表格识别方法和系统

[0001]本专利技术涉及OCR识别领域，具体涉及一种将不可编辑的非结构化文本数字化，属于计算机视觉的扩展应用。

技术介绍

[0002]非结构化文本数字化是推动现代工作向数字化、网络化、智能化转型的基础，非结构化文本数字化对数字经济、人工智能发展具有重大意义，表格识别是数据处理的基础，在各行各业中都具有重要的应用价值，近年来一直是计算机视觉领域的研究热点之一。
[0003]表格识别旨在从图像或者非结构化文本中检测出表格的位置，获取表格的结构和内容，并抽取特定信息，主要包括表格区域检测、表格结构识别和表格内容的识别等研究问题；随着深度学习的发展，针对这些问题的新研究和新方法纷纷涌现；然而，由于表格应用场景广泛，表格的样式众多，在表格识别领域仍存在不少问题亟需解决；例如：现有表格结构识别模型在处理无线表和少线表时，其效果距离实际应用仍有所差距；表格内容识别中的模型大多受限于指定数据集，泛化能力较差；同时，随着移动设备拍照技术的发展，对于现实场景表格的识别需求越来越大，现实场景表格图像由于亮度、对比度、倾斜度等的不同，对表格识别算法提出了更高的挑战。
[0004]通过OCR识别技术对非结构化文本进行文字识别是可行的，但当文本中存在大量表格时，OCR文字识别提取就存在一定的困难，由于非结构化文本表格信息体量太大，通过人工进行提取耗时且容易出现错误；那么，对非结构化文本进行表格识别是一个亟待解决的问题；进行表格检测识别，一方面可以提高效率，比如：银行的票据，文档分析等业务需求...

【技术保护点】

【技术特征摘要】
1.一种非结构化文本表格识别方法，包括如下步骤:步骤1获取非结构化文本中的图像数据集，使用投影直方图进行预处理操作；步骤2对图像数据集版面信息进行分析，检测出表格区域；步骤3对表格结构序列进行预测，检测出表格行结构；步骤4对表格行结构进行行识别，得到单元格框和文本内容；步骤5根据表格行检测和识别，对文本框和单元格内容进行匹配，最终得到Excel形式的表格信息数据；根据图像预处理、表检测、表格行检测和表格行识别训练表格识别模型，保存模型参数；调用上述表格识别模型对非结构化文本进行表格识别，得到识别结果。2.根据权利要求1所述一种非结构化文本表格识别方法，其特征在于，步骤1中对于获取的非结构化文本图像数据集需要进行对应的HTML格式注释，并提供数据集表格结构和字符；对于图像预处理使用中值滤波器去除图像的噪声伪影，绘制投影直方图，采用文本倾斜校正算法进行表对齐，并引入了水平膨胀和水平投影。3.根据权利要求1所述一种非结构化文本表格识别方法，其特征在于，步骤2中对图像数据集版面信息进行字符索引记录，根据获取的字符区索引数组，进行区域切割，检测出表格区域，然后修改文件代码，使得表格边界的颜色比文档其它部分更具区分性。4.根据权利要求1所述一种非结构化文本表格识别方法，其特征在于，步骤3中对于表格行检测采用了可变形卷积的残差网络模型作为特征...

【专利技术属性】
技术研发人员：李敏，张丽平，周鸣乐，韩德隆，刘一鸣，
申请(专利权)人：齐鲁工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人