一种电子发票全票面信息提取方法及系统技术方案

技术编号:35185676 阅读:59 留言:0更新日期:2022-10-12 17:56
本发明专利技术属于电子发票识别技术领域,具体公开了一种电子发票全票面信息提取方法及系统,其中方法包括:获取电子发票,检测几何图形,对电子发票版式样式进行主区划分,再对主区域划分为多个子区域;搜索电子发票元素信息标签,精确定位坐标范围;解析文本内容,提取文本数据结合业务含义,清洗文本数据以获取票面信息。该方案实现了一个基于规则的专家系统,通过最直接的方式分析版式文件中的图形信息,通过打散、分类进行简单的发票表格几何图形检测,通过文字区域信息提取技术结合聚类算法精确提取票面元素信息,最终形成能够快速提取发票全票面信息的技术方案,推动业务系统对于发票版式文件的利用效率提升。票版式文件的利用效率提升。票版式文件的利用效率提升。

【技术实现步骤摘要】
一种电子发票全票面信息提取方法及系统


[0001]本专利技术属于电子发票识别
,特别是关于一种电子发票全票面信息提取方法及系统。

技术介绍

[0002]随着电子发票的日益普及,电子发票版式文件的使用范围越来越广,很多业务系统在收到电子发票版式文件后都需要提取票面信息,典型的使用场景有两个,一是企业报销系统中,需要采集电子发票信息用于简化人工录入的工作量;二是企业电子会计档案中,通过解析发票数据用于全文检索。由此可见,快速准确地提取发票信息是各业务系统能够有效利用电子发票版式文件的关键技术。
[0003]电子发票使用范围越来越广。国内第三方电子发票服务平台基本具备PDF电子发票的开具能力,因此目前电子发票绝大部分是PDF格式的。另外,近年来免费的版式文件基础服务采用国标OFD版式格式,因此OFD电子发票也逐渐流行。
[0004]PDF是由Adobe用于与应用程序、操作系统、硬件无关的方式进行文件交换所发展出的文件格式,2008年后的PDF参考1.7版成为了ISO 32000:1:2008,从此PDF就成为了正式的国际标准。PDF文件以PostScript语言图象模型为基础,无论在哪种打印机上都可保证精确的颜色和准确的打印效果,即PDF会忠实地再现原稿的每一个字符、颜色以及图象。
[0005]OFD是我国自主研发的版式文档格式标准Open Fixed

Layout Document format的缩写,目前是党政机关电子公文存储、交换、归档的唯一文件格式,同时作为新版电子发票承载格式,另外在电子证照、电子会计档案等领域也都被广泛使用。
[0006]目前电子发票信息提取的方式是首先通过影像系统将PDF/OFD电子发票版式文件转成图像格式,少量信息可以通过识别票面二维码获取,更多的信息通过表格识别定位表格单元,然后通过OCR技术识别发票其他字段的文字信息。
[0007]现有技术的缺点首先是PDF/OFD转图像需要转换时间及额外占用磁盘存储空间,如果图像分辨率低,转换时间稍短一些磁盘占用空间稍小一些,但后续OCR识别效果不好,如果图像分辨率高则转换时间长且占用磁盘空间大;其次是OCR训练需要大量的样本数据,测试数据覆盖范围有可能不全面,模型识别效果仍然不理想,同时OCR识别也是个耗时的过程;再次,PDF发票没有严格的排版标准,国内第三方平台和企业自建平台比较多,可以说PDF发票目前的状态是杂乱无章,版面尺寸、使用字体、特殊字符、排版规则差异非常大,总体来说这些问题对于目前走OCR+表格识别路线的技术方案来说都是无法回避的挑战。

技术实现思路

[0008]本专利技术的目的在于提供一种电子发票全票面信息提取方法及系统,其能够解决通过OCR技术识别OFD格式电子发票信息效果差的技术问题。
[0009]本专利技术提供了一种电子发票全票面信息提取方法,包括以下步骤:
[0010]S1,获取电子发票,检测几何图形,对电子发票版式样式进行主区划分,再对主区
域划分为多个子区域;
[0011]S2,搜索电子发票元素信息标签,精确定位坐标范围;
[0012]S3,解析文本内容,提取文本数据;
[0013]S4,结合业务含义,清洗文本数据以获取票面信息。
[0014]优选地,所述S1具体包括:
[0015]S101,通过对税务总局电子发票版式文件格式规范的分析,将主区域分为A

票头、B

购买方信息和密码区、C

应税明细和合计、D

价税合计、E

销售方信息和备注、F

票尾;
[0016]S102,对主区域进行拆分得到子区域为A1

机器编号、A2

代码至校验码、B1

购方信息、B2

密码区、C1

项目、C2

合计、D1

价税合计、E1

销方信息、E2

备注、F

收款至开票;
[0017]S103,进行表格识别与区域识别。
[0018]优选地,所述S103具体包括:
[0019]表格识别:枚举并收集所有路线,将路线打散,拆分出线段,采用端点重合及方向一致的方式将线段合并;
[0020]区域识别:识别票头双线,将左侧识别为A1,右侧识别为A2;表格外围上下2条框线,上边缘以上为A1,A2,下边缘以下为F;表格内中间三条横线,分割B、C、D;表格内位于B区域内的三条竖线将B区域分割为B1、B2;表格内位于C区域内的七条竖线将C1分割为项目名称、规则型号、单位、数量、单价、金额、税率、税额;表格内位于D区域内的一条竖线分割出D1;表格内位于E区域内的三条竖线分割出E1、E2。
[0021]优选地,所述S2具体包括:针对单条发票元素信息的坐标位置对子区域进行切割,一部分位置可以依靠子区域边框,另一部分需要定位元素的标题位置,通过文本搜索方式定位固定元素名称的坐标。
[0022]优选地,所述S3具体包括:根据版式文件的语法标准,解析票面文本数据,包括字符的Unicode值编码以及排版信息,计算字符的精确矩形坐标,根据元素的定位信息提取文本数据。
[0023]优选地,所述S4具体包括:根据电子发票元素的业务含义,根据税务总局电子发票版式文件格式规范中数据字段类型的定义,部分元素的纯数字或者是数字、英文字符的组合,部分元素是日期格式,同时处理数据与前置人民币、冒号等符号的粘连。
[0024]本专利技术还提供了一种电子发票全票面信息提取系统,所述系统用于实现电子发票全票面信息提取方法的步骤,包括:
[0025]区域划分模块,用于获取电子发票,检测几何图形,对电子发票版式样式进行主区划分,再对主区域划分为多个子区域;
[0026]区域定位模块,用于搜索电子发票元素信息标签,精确定位坐标范围;
[0027]文本解析模块,用于解析文本内容,提取文本数据;
[0028]数据清洗模块,用于结合业务含义,清洗文本数据以获取票面信息。
[0029]本专利技术还提供了一种电子设备,包括存储器、处理器,所述处理器用于执行存储器中存储的计算机管理类程序时实现电子发票全票面信息提取方法的步骤。
[0030]本专利技术还提供了一种计算机可读存储介质,其上存储有计算机管理类程序,所述计算机管理类程序被处理器执行时实现电子发票全票面信息提取方法的步骤。
[0031]与现有技术相比,本专利技术提供了一种电子发票全票面信息提取方法及系统,其中
方法包括:获取电子发票,检测几何图形,对电子发票版式样式进行主区划分,再对主区域划分为多个子区域;搜索电子发票元素信息标签,精确定位坐标范围;解析文本内容,提取文本数据结合业务含义,清洗文本数据以获取票面信息。通过获取电子发票板本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种电子发票全票面信息提取方法,其特征在于,包括以下步骤:S1,获取电子发票,检测几何图形,对电子发票版式样式进行主区划分,再对主区域划分为多个子区域;S2,搜索电子发票元素信息标签,精确定位坐标范围;S3,解析文本内容,提取文本数据;S4,结合业务含义,清洗文本数据以获取票面信息。2.根据权利要求1所述的电子发票全票面信息提取方法,其特征在于,所述S1具体包括:S101,通过对税务总局电子发票版式文件格式规范的分析,将主区域分为A

票头、B

购买方信息和密码区、C

应税明细和合计、D

价税合计、E

销售方信息和备注、F

票尾;S102,对主区域进行拆分得到子区域为A1

机器编号、A2

代码至校验码、B1

购方信息、B2

密码区、C1

项目、C2

合计、D1

价税合计、E1

销方信息、E2

备注、F

收款至开票;S103,进行表格识别与区域识别。3.根据权利要求2所述的电子发票全票面信息提取方法,其特征在于,所述S103具体包括:表格识别:枚举并收集所有路线,将路线打散,拆分出线段,采用端点重合及方向一致的方式将线段合并;区域识别:识别票头双线,将左侧识别为A1,右侧识别为A2;表格外围上下2条框线,上边缘以上为A1,A2,下边缘以下为F;表格内中间三条横线,分割B、C、D;表格内位于B区域内的三条竖线将B区域分割为B1、B2;表格内位于C区域内的七条竖线将C1分割为项目名称、规则型号、单位、数量、单价、金额、...

【专利技术属性】
技术研发人员:陈杰冯辉段伟光陈亚军
申请(专利权)人:百望股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1