一种电子发票全票面信息提取方法及系统技术方案

技术编号：35185676 阅读：59 留言：0更新日期：2022-10-12 17:56

本发明专利技术属于电子发票识别技术领域，具体公开了一种电子发票全票面信息提取方法及系统，其中方法包括：获取电子发票，检测几何图形，对电子发票版式样式进行主区划分，再对主区域划分为多个子区域；搜索电子发票元素信息标签，精确定位坐标范围；解析文本内容，提取文本数据结合业务含义，清洗文本数据以获取票面信息。该方案实现了一个基于规则的专家系统，通过最直接的方式分析版式文件中的图形信息，通过打散、分类进行简单的发票表格几何图形检测，通过文字区域信息提取技术结合聚类算法精确提取票面元素信息，最终形成能够快速提取发票全票面信息的技术方案，推动业务系统对于发票版式文件的利用效率提升。票版式文件的利用效率提升。票版式文件的利用效率提升。

全部详细技术资料下载

【技术实现步骤摘要】
一种电子发票全票面信息提取方法及系统

[0001]本专利技术属于电子发票识别
，特别是关于一种电子发票全票面信息提取方法及系统。

技术介绍

[0002]随着电子发票的日益普及，电子发票版式文件的使用范围越来越广，很多业务系统在收到电子发票版式文件后都需要提取票面信息，典型的使用场景有两个，一是企业报销系统中，需要采集电子发票信息用于简化人工录入的工作量；二是企业电子会计档案中，通过解析发票数据用于全文检索。由此可见，快速准确地提取发票信息是各业务系统能够有效利用电子发票版式文件的关键技术。
[0003]电子发票使用范围越来越广。国内第三方电子发票服务平台基本具备PDF电子发票的开具能力，因此目前电子发票绝大部分是PDF格式的。另外，近年来免费的版式文件基础服务采用国标OFD版式格式，因此OFD电子发票也逐渐流行。
[0004]PDF是由Adobe用于与应用程序、操作系统、硬件无关的方式进行文件交换所发展出的文件格式，2008年后的PDF参考1.7版成为了ISO 32000：1：2008，从此PDF就成为了正式的国际标准。PDF文件以PostScript语言图象模型为基础，无论在哪种打印机上都可保证精确的颜色和准确的打印效果，即PDF会忠实地再现原稿的每一个字符、颜色以及图象。
[0005]OFD是我国自主研发的版式文档格式标准Open Fixed
‑
Layout Document format的缩写，目前是党政机关电子公文存储、交换、归档的唯一文件格式，同时作为新版电子...

【技术保护点】

【技术特征摘要】
1.一种电子发票全票面信息提取方法，其特征在于，包括以下步骤：S1，获取电子发票，检测几何图形，对电子发票版式样式进行主区划分，再对主区域划分为多个子区域；S2，搜索电子发票元素信息标签，精确定位坐标范围；S3，解析文本内容，提取文本数据；S4，结合业务含义，清洗文本数据以获取票面信息。2.根据权利要求1所述的电子发票全票面信息提取方法，其特征在于，所述S1具体包括：S101，通过对税务总局电子发票版式文件格式规范的分析，将主区域分为A
‑
票头、B
‑
购买方信息和密码区、C
‑
应税明细和合计、D
‑
价税合计、E
‑
销售方信息和备注、F
‑
票尾；S102，对主区域进行拆分得到子区域为A1
‑
机器编号、A2
‑
代码至校验码、B1
‑
购方信息、B2
‑
密码区、C1
‑
项目、C2
‑
合计、D1
‑
价税合计、E1
‑
销方信息、E2
‑
备注、F
‑
收款至开票；S103，进行表格识别与区域识别。3.根据权利要求2所述的电子发票全票面信息提取方法，其特征在于，所述S103具体包括：表格识别：枚举并收集所有路线，将路线打散，拆分出线段，采用端点重合及方向一致的方式将线段合并；区域识别：识别票头双线，将左侧识别为A1，右侧识别为A2；表格外围上下2条框线，上边缘以上为A1，A2，下边缘以下为F；表格内中间三条横线，分割B、C、D；表格内位于B区域内的三条竖线将B区域分割为B1、B2；表格内位于C区域内的七条竖线将C1分割为项目名称、规则型号、单位、数量、单价、金额、...

【专利技术属性】
技术研发人员：陈杰，冯辉，段伟光，陈亚军，
申请(专利权)人：百望股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人