基于深度学习和知识图谱的票据识别方法技术

技术编号：37983809 阅读：8 留言：0更新日期：2023-06-30 09:58

基于深度学习和知识图谱的票据识别方法属于电子信息领域。系统由文字检测模块、文字识别模块、关键信息提取模块组成。其中文字检测模块通过文本检测算法获得图片中的文字位置坐标，然后传输给文字识别模块和关键信息提取模块。文字识别模块对文字检测模块提供的坐标区域的文字进行预测，获得文本信息，同时将文本信息传输给关键信息提取模块。最后，关键信息提取模块根据文字的位置信息和对应文本信息预测出该文字片段所属的实体类别，并借助于票据知识图谱提炼票据中发票编号、公司名称等关键信息与企查查等Web检索中获得的公司名称、地名等信息进行矫正和适配，进而提高票据识别的准确率。识别的准确率。识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度学习和知识图谱的票据识别方法

[0001]本专利技术属于电子信息领域，是一种基于深度学习和知识图谱的OCR技术、应用于各类票据(发票，火车票等)的结构化识别。

技术介绍

[0002]传统财务系统中原始票据需要财务人员手工录入，耗费工作人员大量时间和精力，并且容易发生录入错误。基于计算机视觉的文本检测识别技术发展为票据结构化识别提供了技术基础。但现有的方法只能识别出票据图像上的文字，但是无法理解文字的语义信息，因此，无法将识别的文字结构化。此外，真实票据图像存在打印墨迹过淡、文字位置偏移等现象，会导致文字检测查全率低和识别准确率低等问题。近年来文本检测识别和关键信息提取技术结合为上述问题的提供了新方法。采用关键信息提取方法对票据中的文字进行筛选，选出所关心的文本片段，并识别出该文本片段的实体属性(例如，增值税发票中具有票号、抬头、纳税人、开票日期、金额等实体)。这些实体及相互之间的关系为票据的结构化识别提供了基础。此外，知识图谱可以高效地表示现实世界中实体与实体间的关系。因此，本专利技术引入知识图谱针对票据中的结构化和非结构化数据建模，并结合深度学习算法实现票据文字的准确检测识别与结构化解析。

技术实现思路

[0003]本专利技术针对传统票据识别方法存在的缺点，设计了基于深度学习的票据结构化识别技术。系统由文字检测模块、文字识别模块、关键信息提取模块组成。其中文字检测模块通过文本检测算法获得图片中的文字位置坐标，然后传输给文字识别模块和关键信息提取模块。文字识别模块对文字检测模块提供的坐标区域的...

【技术保护点】

【技术特征摘要】
1.基于深度学习和知识图谱的票据识别方法，其特征在于包括以下步骤：(1)设计了集成文字检测模块、文字识别模块、关键信息提取模块和使用知识图谱建模及纠错模块的票据结构化识别系统。(2)增加了印章去除和图像对齐预处理步骤，提高了模型检测和识别的准确率。(3)设计并应用基于竖直方向IOU和横向距离的文本框合并算法。(4)设计了基于神经网络的关键信息提取流程。(5)设计了基于知识图谱的识别误差校正流程。2.根据权利要求1所述的基于深度学习和知识图谱的票据识别方法，其特征在于包括以下步骤：(1)构建票据知识图谱(2)模板对齐对真实发票图片与预先构建好的空白发票模板同时提取图像特征，根据特征点的特征描述进行特征点匹配，根据随机采样一致性原则计算得到最优变换矩阵，对发票图片进行对应的仿射变换，使图像和预定义的模板结构相吻合。为后续关键信息提取奠定了基础。(3)纸质图像预处理对纸质图像进行二值化，降噪处理，以提高后续检测和识别的准确率。(4)印章去除使用阈值分割技术去除发票图像中的红色印章；(5)文本检测对该图像使用卷积神经网络提取特征，根据特征对每个位置进行预测该位置含有字符的概率，获取到每个文本片段在图中的位置信息。(6)文字识别然后将图片根据上述步骤获得的坐标进行剪裁，获取到文本区域的图片，将这些图片使用深度学习的方法预测出序列中的文字。(7)关键信息提取使用基于深度学习的方法，根据文本片段的位置信息和语义信息识别出该文本片段属于知识图谱中的哪个实体。(8)使用知识图谱数据库对识别内容进行纠错将识别后的关键文本与知识图谱中的实体匹配，通过检查识别内容是否满足该实体的共性特征、是否与实例库相匹配来确定识别内容是否正确，若不正确，将其更正。3.根据权利要求1所述的基于深度学习和知识图谱的票据识别方法，其特征在于包括以下步骤：(1)票据文本检测网络RTDNN架构模型结构分为3个部分。第一部分是Input端。第2部分是Backbone网络，该部分负责提取图片特征。第3部分是Prediction预测模块，该模块输出一个Region score图，用于预测各像素点处于字符中心的概率。3个部分的详细描述如下：1)Input输入端，首先在输入神经网络时，先经过一个5*5*64，步长stride＝2的卷积层，再经过一个3*3，stride＝2的最大池化层max pool。2)Backbone骨干网络，Backbone骨干网络借鉴了残差网络(ResNet)的思想，由4组卷积
模块组成，各模块细节如下：其中，structure中各项含义为:宽*高*通道数。神经网络中所有的激活函数均采用Leaky_relu。Prediction预测模块,该模块由1层平均池化层average pool和4层Conv构成。最终输出一个Region score map。Region score map表示该点是文字中心的概率。针对票据图像的文本框生成算法，详细介绍如下：首先，在Regions score map中筛选出得分大于等于0.9的像素点，将这些点形成的集合记为S1。然后使用广度优先遍历的方式，将与集合S1相邻且得分大于0.6的点加入到S1中。计算出S1中每个孤立区域的最大外接矩形，然后通过如下方式合并属于同一个文本段的文本框：若两个文本框在竖直方向上的IOU大于等于0.8且水平距离小于30px，则将两个文本框合并为一个。生成的矩形框即为票据图像的文本检测结果。(2)印章去除算法算法的详细步骤如下：1)将RGB图像映射到HSV空间，以便于更准确的提取图...

【专利技术属性】
技术研发人员：何坚，杨洺，余立，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人