基于深度学习和知识图谱的票据识别方法技术

技术编号:37983809 阅读:8 留言:0更新日期:2023-06-30 09:58
基于深度学习和知识图谱的票据识别方法属于电子信息领域。系统由文字检测模块、文字识别模块、关键信息提取模块组成。其中文字检测模块通过文本检测算法获得图片中的文字位置坐标,然后传输给文字识别模块和关键信息提取模块。文字识别模块对文字检测模块提供的坐标区域的文字进行预测,获得文本信息,同时将文本信息传输给关键信息提取模块。最后,关键信息提取模块根据文字的位置信息和对应文本信息预测出该文字片段所属的实体类别,并借助于票据知识图谱提炼票据中发票编号、公司名称等关键信息与企查查等Web检索中获得的公司名称、地名等信息进行矫正和适配,进而提高票据识别的准确率。识别的准确率。识别的准确率。

【技术实现步骤摘要】
基于深度学习和知识图谱的票据识别方法


[0001]本专利技术属于电子信息领域,是一种基于深度学习和知识图谱的OCR技术、应用于各类票据(发票,火车票等)的结构化识别。

技术介绍

[0002]传统财务系统中原始票据需要财务人员手工录入,耗费工作人员大量时间和精力,并且容易发生录入错误。基于计算机视觉的文本检测识别技术发展为票据结构化识别提供了技术基础。但现有的方法只能识别出票据图像上的文字,但是无法理解文字的语义信息,因此,无法将识别的文字结构化。此外,真实票据图像存在打印墨迹过淡、文字位置偏移等现象,会导致文字检测查全率低和识别准确率低等问题。近年来文本检测识别和关键信息提取技术结合为上述问题的提供了新方法。采用关键信息提取方法对票据中的文字进行筛选,选出所关心的文本片段,并识别出该文本片段的实体属性(例如,增值税发票中具有票号、抬头、纳税人、开票日期、金额等实体)。这些实体及相互之间的关系为票据的结构化识别提供了基础。此外,知识图谱可以高效地表示现实世界中实体与实体间的关系。因此,本专利技术引入知识图谱针对票据中的结构化和非结构化数据建模,并结合深度学习算法实现票据文字的准确检测识别与结构化解析。

技术实现思路

[0003]本专利技术针对传统票据识别方法存在的缺点,设计了基于深度学习的票据结构化识别技术。系统由文字检测模块、文字识别模块、关键信息提取模块组成。其中文字检测模块通过文本检测算法获得图片中的文字位置坐标,然后传输给文字识别模块和关键信息提取模块。文字识别模块对文字检测模块提供的坐标区域的文字进行预测,获得文本信息,同时将文本信息传输给关键信息提取模块。最后,关键信息提取模块根据文字的位置信息和对应文本信息预测出该文字片段所属的实体类别,并借助于票据知识图谱提炼票据中发票编号、公司名称等关键信息与企查查等Web检索中获得的公司名称、地名等信息进行矫正和适配,进而提高票据识别的准确率。本专利技术所涉及主要工作如下:
[0004](1)如图1所示,设计了集成文字检测模块、文字识别模块、关键信息提取模块和使用知识图谱建模及纠错模块的票据结构化识别系统。
[0005](2)增加了印章去除和图像对齐等预处理步骤,提高了模型检测和识别的准确率。
[0006](3)为了使字间隔稍大的文本片段较准确地归入到一个文本框中,设计并应用基于竖直方向IOU和横向距离的文本框合并算法。
[0007](4)设计了基于神经网络的关键信息提取流程。
[0008](5)设计了基于知识图谱的识别误差校正流程。
[0009]典型的票据识别方法常常采用模板匹配的方法,对某种固定模板的票据以人工设定规则的方式确定关键区域的空间位置,然后通过文字识别算法提取对应的文字信息。但这种方法仍存在以下问题:生活中的纸质发票大多在固定的票据模板上将关键信息进行二
次打印,而不是一次打印就能生成完整的票据,所以存在二次打印的文字位置偏移问题。使用这种模板匹配的方法会经常丢失文字信息或匹配到错误的信息。
[0010]如果在票据识别过程中出现上述的文字位置偏移情况,则会严重影响票据识别的效果。所以本专利技术在前人研究成果基础上,结合并改进了基于卷积神经网络的文字检测算法,基于卷积神经网络和长短期记忆的文字识别算法,基于图卷积网络的关键信息提取算法。此外,对文字检测算法添加一个后处理步骤,将语义相近的两个文本片段合并到一个文本框中。还使用了知识图谱技术对识别有误的文字进行矫正,增加了识别的准确率。
[0011]本专利技术以真实的火车票、增值税发票等票据的图像作为输入数据,实现对票据内容的结构化输出,具体步骤如下所示:
[0012](1)构建票据知识图谱
[0013]针对各种票据以及该类票据的各关键字段建立合理的模型,以达到结构化输出和识别后纠错的目的。
[0014](2)模板对齐
[0015]对真实发票图片与预先构建好的空白发票模板同时提取图像特征,根据特征点的特征描述进行特征点匹配,根据随机采样一致性原则计算得到最优变换矩阵,对发票图片进行对应的仿射变换,使图像和预定义的模板结构相吻合。为后续关键信息提取奠定了基础。模板对齐示例见图2。
[0016](3)纸质图像预处理
[0017]对纸质图像进行二值化,降噪处理,以提高后续检测和识别的准确率。
[0018](4)印章去除
[0019]使用阈值分割技术去除发票图像中的红色印章,防止印章影响识别结果。
[0020](5)文本检测
[0021]对该图像使用卷积神经网络提取特征,根据特征对每个位置进行预测该位置含有字符的概率,获取到每个文本片段在图中的位置信息。
[0022](6)文字识别
[0023]然后将图片根据上述步骤获得的坐标进行剪裁,获取到文本区域的图片,将这些图片使用深度学习的方法预测出序列中的文字。
[0024](7)关键信息提取
[0025]使用基于深度学习的方法,根据文本片段的位置信息和语义信息识别出该文本片段属于知识图谱中的哪个实体。
[0026](8)使用知识图谱数据库对识别内容进行纠错
[0027]将识别后的关键文本与知识图谱中的实体匹配,通过检查识别内容是否满足该实体的共性特征、是否与实例库相匹配来确定识别内容是否正确,若不正确,使用某种规则将其更正。
[0028]专利技术难点
[0029](1)现有针对票据的识别方法准确率不高,识别出结果后仍需人工复检,不足以满足全自动录入的需求。如何解决这一问题,是该领域一个难点。本专利技术设计了一种基于知识图谱票据识别纠错技术,可以提高票据识别准确率,甚至可以保证某些关键字段识别100%正确,可以满足全自动录入的需求。
[0030](2)如何有效的预处理也是一个难点,本专利技术设计了一种新的去印章方法,可以解决现有方法去除印章后会降低识别准确率的问题。本专利技术将图像对齐算法加入到票据识别流程中,有效解决了票据褶皱,拍摄角度倾斜等现象对文字检测与识别造成干扰的问题。
[0031](3)设计了针对票据的文本检测技术,难点在于对票据图像中大小文本区域的准确预测,同时也要保证低延迟要求。
附图说明
[0032]图1本专利技术的系统结构示意图
[0033]图2模板对齐示例图
[0034]图3票据图像文本区域检测模块示意图
[0035]图4印章去除流程图
具体实施方式
[0036]本专利技术核心算法
[0037](1)票据文本检测网络RTDNN架构
[0038]票据文本检测网络(Receipt Text Detection Neural Networks)的核心思想是将一个character视为一个待检测的目标对象,而不是一个word(由character构成),即不把文本框当作目标。它先检测单个字符(character region score)及字符间的连接关系(affinity score),然后根据字符间的连接关系确定最终本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于深度学习和知识图谱的票据识别方法,其特征在于包括以下步骤:(1)设计了集成文字检测模块、文字识别模块、关键信息提取模块和使用知识图谱建模及纠错模块的票据结构化识别系统。(2)增加了印章去除和图像对齐预处理步骤,提高了模型检测和识别的准确率。(3)设计并应用基于竖直方向IOU和横向距离的文本框合并算法。(4)设计了基于神经网络的关键信息提取流程。(5)设计了基于知识图谱的识别误差校正流程。2.根据权利要求1所述的基于深度学习和知识图谱的票据识别方法,其特征在于包括以下步骤:(1)构建票据知识图谱(2)模板对齐对真实发票图片与预先构建好的空白发票模板同时提取图像特征,根据特征点的特征描述进行特征点匹配,根据随机采样一致性原则计算得到最优变换矩阵,对发票图片进行对应的仿射变换,使图像和预定义的模板结构相吻合。为后续关键信息提取奠定了基础。(3)纸质图像预处理对纸质图像进行二值化,降噪处理,以提高后续检测和识别的准确率。(4)印章去除使用阈值分割技术去除发票图像中的红色印章;(5)文本检测对该图像使用卷积神经网络提取特征,根据特征对每个位置进行预测该位置含有字符的概率,获取到每个文本片段在图中的位置信息。(6)文字识别然后将图片根据上述步骤获得的坐标进行剪裁,获取到文本区域的图片,将这些图片使用深度学习的方法预测出序列中的文字。(7)关键信息提取使用基于深度学习的方法,根据文本片段的位置信息和语义信息识别出该文本片段属于知识图谱中的哪个实体。(8)使用知识图谱数据库对识别内容进行纠错将识别后的关键文本与知识图谱中的实体匹配,通过检查识别内容是否满足该实体的共性特征、是否与实例库相匹配来确定识别内容是否正确,若不正确,将其更正。3.根据权利要求1所述的基于深度学习和知识图谱的票据识别方法,其特征在于包括以下步骤:(1)票据文本检测网络RTDNN架构模型结构分为3个部分。第一部分是Input端。第2部分是Backbone网络,该部分负责提取图片特征。第3部分是Prediction预测模块,该模块输出一个Region score图,用于预测各像素点处于字符中心的概率。3个部分的详细描述如下:1)Input输入端,首先在输入神经网络时,先经过一个5*5*64,步长stride=2的卷积层,再经过一个3*3,stride=2的最大池化层max pool。2)Backbone骨干网络,Backbone骨干网络借鉴了残差网络(ResNet)的思想,由4组卷积
模块组成,各模块细节如下:其中,structure中各项含义为:宽*高*通道数。神经网络中所有的激活函数均采用Leaky_relu。Prediction预测模块,该模块由1层平均池化层average pool和4层Conv构成。最终输出一个Region score map。Region score map表示该点是文字中心的概率。针对票据图像的文本框生成算法,详细介绍如下:首先,在Regions score map中筛选出得分大于等于0.9的像素点,将这些点形成的集合记为S1。然后使用广度优先遍历的方式,将与集合S1相邻且得分大于0.6的点加入到S1中。计算出S1中每个孤立区域的最大外接矩形,然后通过如下方式合并属于同一个文本段的文本框:若两个文本框在竖直方向上的IOU大于等于0.8且水平距离小于30px,则将两个文本框合并为一个。生成的矩形框即为票据图像的文本检测结果。(2)印章去除算法算法的详细步骤如下:1)将RGB图像映射到HSV空间,以便于更准确的提取图...

【专利技术属性】
技术研发人员:何坚杨洺余立
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1