一种基于OCR的财务报表信息快速提取方法及系统技术方案

技术编号:23605326 阅读:54 留言:0更新日期:2020-03-28 06:15
本发明专利技术公开了一种基于OCR的财务报表信息快速提取方法及系统,包括步骤:获得财务报表图像数据;对图像进行预处理;版式结构分析,判断是否有表格;单元格分析及识别类型判断;根据相应识别类型对每个单元格进行识别;对识别结果进行校验汇总;将识别结果结构化输出到Excel/xml文件中。本发明专利技术适应性强,常见的标准表格型、有横线无纵线型、有纵线无横线型、完全无表格线型、表格跨页型等多种样式的财务报表,常规的OCR识别方法并不能实现结构化输出,本发明专利技术的财务报表OCR识别方法可以适应各种报表的复杂场景,统一完成结构化输出,无需用户做方法配置和调整。

A method and system for quick extraction of financial statement information based on OCR

【技术实现步骤摘要】
一种基于OCR的财务报表信息快速提取方法及系统
本专利技术涉及光学字符识别领域,具体来说,涉及一种基于OCR的财务报表信息快速提取方法及系统。
技术介绍
财务报表又叫会计报表,包含:资产负债表、损益表、现金流量表三表。财务报表对企业经营状况有重要的参考意义。当前,财务报表的录入传统的OCR识别方法需要用户设定识别模板,操作繁琐。待识别的财务报表的表格格式多样,排版复杂,很多应用场景都无法适用。通过OCR识别得到的输出结果也是一行行输出,直观性不强。公司印章对传统OCR识别有一定干扰性,报表中的金额数字类型也不统一。针对相关技术中的问题,目前尚未提出有效的解决方案。
技术实现思路
针对相关技术中的上述技术问题,本专利技术提出一种基于OCR的财务报表信息快速提取方法及系统,能够解决上述问题。为实现上述技术目的,本专利技术的技术方案是这样实现的:一种基于OCR的财务报表信息快速提取方法,其特征在于,包括步骤:S1获得财务报表图像数据;S2对图像进行预处理;S3版式结构分析,判断是否有表格;S4单元格分析及识别类型判断;S5根据相应识别类型对每个单元格进行识别;S6对识别结果进行校验汇总;S7将识别结果结构化输出到Excel/xml文件中。进一步的,所述S1获得财务报表图像数据包括:S11:打开待识别文件,支持bmp、jpg、tif、pdf、doc、docx等文件格式;S12:图像数据读取,通过设置每页图像ID将pdf、doc、docx等多页文件拆分为单页、再将单页转成图像数据。进一步的,所述S2对图像进行预处理包括:S21:方向判断,通过版面分析判断图像是横向还是纵向,通过OCR判断图像是0度正向还是180度倒向,然后通过图像旋转使方向一致;S22:倾斜校正,利用框线信息或者文本信息通过LeadTools核心计算出倾斜角度,然后进行图像旋转,消除一定的倾斜角度;S23:印章检测与过滤,利用印章的形状信息和颜色信息,通过霍夫变换进行印章检测,然后得到图像的背景色,通过滤红将印章区域过滤掉;S24:去噪,通过中值或者均值方式进行去噪;S25:二值化,对图像进行二值化处理。进一步的,所述S3版式结构分析,判断是否有表格包括:S31:通过是否还有待识别的行列信息判断有无续页;S32:获取文本以及框线信息判断报表类型是文本还是表格。进一步的,所述S4单元格分析及识别类型判断包括:S41:如果报表类型是表格形式则直接通过框线信息分析并组织成各个单元格;S42:如果报表类型是文本形式则需要通过版面分析结果分析出行信息和列信息,然后再组织成各个单元格;S43:对各个单元格内容进行OCR识别,确定表头行,通过表头关键词确认每列的识别类型以使用不同类型的识别核心,其中包括纯数字,简体中文,英文,符号等,以提高识别精度。进一步的,所述S6对识别结果进行校验汇总包括:S61:识别结果校验,小数点校验,识别过程中,如果识别的数据倒数第三位是小数点,即有两位小数的金额个数为两个时,则认为整张财务报表金额是有两位小数的,以此来判断金额中是否带有小数点;S62:识别结果汇总,将识别结果信息按照表格逻辑存储起来,包括文本信息以及行列信息,并判断是否有续页。进一步的,所述S7将识别结果结构化输出到Excel/xml文件中包括:S71:将识别结果的所有信息根据特定格式存储为xml格式;S72:根据单元格的位置和识别信息,还原成原版式的excel表格。一种基于OCR的财务报表信息快速提取系统,包括依次连接的图像数据处理模块、图像预处理模块、版面分析模块、报表分析模块、OCR识别模块、校验汇总模块、结果结构化输出模块;所述图像数据处理模块用于处理财务报表图像数据;所述图像预处理模块用于对财务报表图像进行方向判断、倾斜校正、印章检测与过滤、去噪、二值化;所述版面分析模块对财务报表图像进行版面分析;所述报表分析模块单元格分析及识别类型判断;所述OCR识别模块根据识别类型对每个单元格进行识别;所述验证汇总模块对识别结果进行校验汇总;所述结构化输出模块将识别结果结构化输出到Excel/xml文件中。进一步的,本专利技术的有益效果:1)无需模板:不需要用户设定识别模板;2)适应性强:常见的标准表格型、有横线无纵线型、有纵线无横线型、完全无表格线型、表格跨页型等多种样式的财务报表,常规的OCR识别方法并不能实现结构化输出,本专利技术的识别方法可以适应各种报表的复杂场景,统一完成结构化输出,无需用户做方法配置和调整;3)财务报告中自动分拣财务报表:先从企业财务报告中自动分拣出财务报表,再对财务报表页进行OCR识别,对非财务报表页进行全版面的文档识别、表格识别,输出;4)格式原版式还原:传统的OCR文字识别方法只能处理全幅文字的识别,处理简单表格结构的识别。本专利技术的财务报表OCR识别方法可以还原出一个逻辑结构和财务报表一样的表格;5)报表图像方向自动判断并旋转识别:解决财报横版排版问题;6)印章的检测与过滤:减少印章对识别的干扰;7)自动判断金额类型:自动判断是否有小数点。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是基于OCR的财务报表信息快速提取方法的流程示意图;图2是基于OCR的财务报表信息快速提取系统的结构示意图。图中:1.图像数据处理模块,2.图像预处理模块,3.版面分析模块,4.报表分析模块,5.OCR识别模块,6.校验汇总模块,7.结果结构化输出模块。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,根据本专利技术实施例所述的一种基于OCR的财务报表信息快速提取方法,其特征在于,包括步骤:S1获得财务报表图像数据;S2对图像进行预处理;S3版式结构分析,判断是否有表格;S4单元格分析及识别类型判断;S5根据相应识别类型对每个单元格进行识别;S6对识别结果进行校验汇总;S7将识别结果结构化输出到Excel/xml文件中。在本专利技术的一个具体实施例中,所述S1获得财务报表图像数据包括:S11:打开待识别文件,支持bmp、jpg、tif、pdf、doc、do本文档来自技高网...

【技术保护点】
1.一种基于OCR的财务报表信息快速提取方法,其特征在于,包括步骤:/nS1获得财务报表图像数据;/nS2对图像进行预处理;/nS3版式结构分析,判断是否有表格;/nS4单元格分析及识别类型判断;/nS5根据相应识别类型对每个单元格进行识别;/nS6对识别结果进行校验汇总;/nS7将识别结果结构化输出到Excel/xml文件中。/n

【技术特征摘要】
1.一种基于OCR的财务报表信息快速提取方法,其特征在于,包括步骤:
S1获得财务报表图像数据;
S2对图像进行预处理;
S3版式结构分析,判断是否有表格;
S4单元格分析及识别类型判断;
S5根据相应识别类型对每个单元格进行识别;
S6对识别结果进行校验汇总;
S7将识别结果结构化输出到Excel/xml文件中。


2.根据权利要求1所述的基于OCR的财务报表信息快速提取方法,其特征在于,所述S1获得财务报表图像数据包括:
S11:打开待识别文件,支持bmp、jpg、tif、pdf、doc、docx等文件格式;
S12:图像数据读取,通过设置每页图像ID将pdf、doc、docx等多页文件拆分为单页、再将单页转成图像数据。


3.根据权利要求1所述的基于OCR的财务报表信息快速提取方法,其特征在于,所述S2对图像进行预处理包括:
S21:方向判断,通过版面分析判断图像是横向还是纵向,通过OCR判断图像是0度正向还是180度倒向,然后通过图像旋转使方向一致;
S22:倾斜校正,利用框线信息或者文本信息通过LeadTools核心计算出倾斜角度,然后进行图像旋转,消除一定的倾斜角度;
S23:印章检测与过滤,利用印章的形状信息和颜色信息,通过霍夫变换进行印章检测,然后得到图像的背景色,通过滤红将印章区域过滤掉;
S24:去噪,通过中值或者均值方式进行去噪;
S25:二值化,对图像进行二值化处理。


4.根据权利要求1所述的基于OCR的财务报表信息快速提取方法,其特征在于,所述S3版式结构分析,判断是否有表格包括:
S31:通过是否还有待识别的行列信息判断有无续页;
S32:获取文本以及框线信息判断报表类型是文本还是表格。


5.根据权利要求1所述的基于OCR的财务报表信息快速提取方法,其特征在于,所述S4单元格分析及识别类型判断包括:<...

【专利技术属性】
技术研发人员:饶顶锋刘伟陶坚坚
申请(专利权)人:北京译图智讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1