非结构化文档的识别转换方法、系统及电子设备技术方案

技术编号:34047233 阅读:18 留言:0更新日期:2022-07-06 14:55
本发明专利技术提供了一种非结构化文档的识别转换方法、系统及电子设备,用于对办公场景下的文件、合同或报表中的表格图片识别转换为可编辑的表格,包括:提供一表格图片,提取所述表格图片中的表格线及交点,且获得每一单元格的表格信息;根据每一所述单元格的表格信息,将所述表格图片进行切割为若干子图片,每一所述子图片对应一个所述单元格,并提取每个所述子图片中的字符信息;以及,将每一所述单元格的表格信息和每个所述子图片中的字符信息组合后转换成Excel表格输出。本发明专利技术将表格图片转化为可编辑的Excel表格,提高了非结构化文档的实用性。实用性。实用性。

Recognition and conversion method, system and electronic equipment of unstructured documents

【技术实现步骤摘要】
非结构化文档的识别转换方法、系统及电子设备


[0001]本专利技术涉及办公场景下的图纸转换
,尤其涉及一种非结构化文档的识别转换方法、系统及电子设备。

技术介绍

[0002]现阶段,无论是在日常工作还是在出版、纸质文件留存方面,人们对非结构化文档的使用需求不断增加。比如办公场景下的文件、合同、报表的自动识别与归档之类的办公自动化操作步骤、数字图书馆中对于文档的自动检索和自动分类功能以及对老旧文档或者重要信息的电子化保存等等。这对相应的非结构化文档的处理及识别等技术提出了更高的要求,其中图片表格的识别与提取更是一个备受关注的问题。
[0003]对非结构化文档进行分析的重要步骤就是对文档图片的版面结构进行分析,这种对文档图片进行版面分析的方式很大程度上提高了对非结构化文档的自动化识别效率,同时也避免了人们为了方便文档图片中的内容的保存,再次输入到计算机中的麻烦,提高了非结构化文档保存的输入效率。现阶段所产生的能对非结构化文档进行分析的识别系统,是不需要使用者对非结构化数字文档中的各个分类通过手动鼠标点击或者键盘输入的操作方式进行辅助定位的,而是由计算机自动来完成这项工作。
[0004]国内现阶段对于非结构化文档的研究虽然已经有了一定的效果,但是使用者对于非结构化文档的识别系统还有更高的需求。一份内容完整的非结构化文档所包含的版面内容,不应该仅仅局限于对文字的识别,还有很多文字之外的结构及内容需要识别、重构和复现,比如对于图片以及对表格的识别及转换等等,所以对于非结构化文档识别的实用化程度不是很高,对于使用者的需求也不能很好的满足。

技术实现思路

[0005]本专利技术的目的在于提供一种非结构化文档的识别转换方法、系统及电子设备,将表格图片转化为可编辑的Excel表格,提高了非结构化文档的实用性。
[0006]为了达到上述目的,本专利技术提供了一种非结构化文档的识别转换方法,用于将办公场景下的文件、合同或报表中的表格图片识别转换为可编辑的表格,包括:
[0007]提供一表格图片,提取所述表格图片中的表格线及交点,且获得每一单元格的表格信息;
[0008]根据每一所述单元格的表格信息,将所述表格图片进行切割为若干子图片,每一所述子图片对应一个所述单元格,并提取每个所述子图片中的字符信息;以及,
[0009]将每一所述单元格的表格信息和每个所述子图片中的字符信息组合后转换成Excel表格输出。
[0010]可选的,提取所述表格图片中的表格线及交点的步骤包括:
[0011]通过预设的滤波器对所述表格图片进行滤波;以及,
[0012]对滤波后的所述表格图片进行图像二值化,获得所述表格图片中的水平线、垂线
及所述水平线和所述垂线之间的交点。
[0013]可选的,获得所述表格图片中的交点的步骤包括:
[0014]延长长度小于所述表格图片中的第一条垂线的若干垂线,以使被延长的垂线的两端分别与所述表格图片中的第一条水平线和最后一条水平线对齐,和/或,延长长度小于所述表格图片中的第一条水平线的若干水平线,以使被延长的水平线的两端分别与所述表格图片中的第一条垂线和最后一条垂线对齐;
[0015]提取所有垂线与所有水平线的交点,逐个将提取的每个交点的位置信息与所述表格图片中的相应交点的位置信息进行对比,以判断提取的交点是否与所述表格图片中的相应交点重合,若不重合,则舍去该交点;若重合,则保留该交点,直至对比完提取的所有交点,保留的交点为获得的所述表格图片中的交点。
[0016]可选的,获得每一所述单元格的表格信息的步骤包括:
[0017]提取的交点的位置信息包括水平位置及垂向位置,遍历提取的每个所述交点,以每个所述交点为单元格的左上角交点,根据每个所述交点的水平位置及垂向位置获得与其处于同一水平位置且位于其右侧的所有水平交点,以及获得与其处于同一垂向位置且位于其下侧的所有垂向交点;根据所述水平交点和所述垂向交点得到右下角交点,判断所述右下角交点是否在所述表格图片中存在,判断所述左上角交点、所述水平交点、所述垂向交点和所述右下角交点之间的水平连线和垂向连线是否在所述表格图片中存在,以及判断所述左上角交点、所述水平交点、所述垂向交点和所述右下角交点之间的区域是否不存在其它连线,若均是,则所述左上角交点、所述水平交点、所述垂向交点和所述右下角交点构成一个所述单元格,以获得所述单元格的表格信息。
[0018]可选的,所述单元格的表格信息包括所述单元格的位置信息和排列信息。
[0019]可选的,在获得所述单元格的表格信息之后,对所述表格线进行切割以得到若干所述单元格,并存储每一所述单元格的表格信息。
[0020]可选的,利用神经网络模型提取每个所述子图片中的字符信息。
[0021]一种非结构化文档的识别转换系统,用于将办公场景下的文件、合同或报表中的表格图片识别转换为可编辑的表格,包括:
[0022]第一提取模块,用于提供一表格图片,提取所述表格图片中的表格线及交点,且获得每一单元格的表格信息;
[0023]第二提取模块,用于根据每一所述单元格的表格信息,将所述表格图片进行切割为若干子图片,每一所述子图片对应一个所述单元格,并提取每个所述子图片中的字符信息;
[0024]组合转换模块,用于将每一所述单元格的表格信息和每个所述子图片中的字符信息组合后转换成Excel表格输出。
[0025]一种电子设备,所述电子设备包括:
[0026]一个或多个执行器;以及,
[0027]存储器,用于存储一个或多个程序;以及,
[0028]当所述一个或多个程序被所述一个或多个执行器执行,使得所述一个或多个执行器实现如上所述的非结构化文档的识别转换方法。
[0029]一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被执行器
执行时实现如上所述的非结构化文档的识别转换方法。
[0030]在本专利技术提供的非结构化文档的识别转换方法、系统及电子设备中,提供一表格图片,提取表格图片中的表格线及交点,且获得每一单元格的表格信息;根据每一单元格的表格信息,将表格图片进行切割为若干子图片,每一子图片对应一个单元格,并提取每个子图片中的字符信息;以及,将每一单元格的表格信息和每个子图片中的字符信息组合后转换成Excel表格输出;在本专利技术中,表格图片属于非结构化文档,无法进行直接编辑,利用本专利技术提供的方法进行识别转换,能够将表格图片转化为可编辑的Excel表格,提高了非结构化文档的实用性。
附图说明
[0031]图1为本专利技术一实施例提供的非结构化文档的识别转换方法的流程图;
[0032]图2为本专利技术一实施例提供的非结构化文档的识别转换系统的框图。
[0033]其中,附图标记为:
[0034]10

第一提取模块;20

第二提取模块;30

组合转换模块。
具体实施方式...

【技术保护点】

【技术特征摘要】
1.一种非结构化文档的识别转换方法,用于将办公场景下的文件、合同或报表中的表格图片识别转换为可编辑的表格,其特征在于,包括:提供一表格图片,提取所述表格图片中的表格线及交点,且获得每一单元格的表格信息;根据每一所述单元格的表格信息,将所述表格图片进行切割为若干子图片,每一所述子图片对应一个所述单元格,并提取每个所述子图片中的字符信息;以及,将每一所述单元格的表格信息和每个所述子图片中的字符信息组合后转换成Excel表格输出。2.如权利要求1所述的非结构化文档的识别转换方法,其特征在于,提取所述表格图片中的表格线及交点的步骤包括:通过预设的滤波器对所述表格图片进行滤波;以及,对滤波后的所述表格图片进行图像二值化,获得所述表格图片中的水平线、垂线及所述水平线和所述垂线之间的交点。3.如权利要求2所述的非结构化文档的识别转换方法,其特征在于,获得所述表格图片中的交点的步骤包括:延长长度小于所述表格图片中的第一条垂线的若干垂线,以使被延长的垂线的两端分别与所述表格图片中的第一条水平线和最后一条水平线对齐,和/或,延长长度小于所述表格图片中的第一条水平线的若干水平线,以使被延长的水平线的两端分别与所述表格图片中的第一条垂线和最后一条垂线对齐;提取所有垂线与所有水平线的交点,逐个将提取的每个交点的位置信息与所述表格图片中的相应交点的位置信息进行对比,以判断提取的交点是否与所述表格图片中的相应交点重合,若不重合,则舍去该交点;若重合,则保留该交点,直至对比完提取的所有交点,保留的交点为获得的所述表格图片中的交点。4.如权利要求1所述的非结构化文档的识别转换方法,其特征在于,获得每一所述单元格的表格信息的步骤包括:提取的交点的位置信息包括水平位置及垂向位置,遍历提取的每个所述交点,以每个所述交点为单元格的左上角交点,根据每个所述交点的水平位置及垂向位置获得与其处于同一水平位置且位于其右侧的所有水平交点,以及获得与其处于同一垂向位置且位于其下侧的所有垂向交点;根据所述水平交点和所述垂向交点得到右下角交...

【专利技术属性】
技术研发人员:钱立贵周小雪陈鑫李剑楠王希曾伟
申请(专利权)人:上海爱可生信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1