一种基于编解码结构识别发票文本的报账智能平台制造技术

技术编号：29134184 阅读：16 留言：0更新日期：2021-07-02 22:29

本发明专利技术公开了一种基于编解码结构识别发票文本的报账智能平台，涉及财务报账平台技术领域；其包括图片生成器和终端以及文本图片特征提取模块、卷积神经网络特征编码模块和门控循环神经网络序列解码模块，文本图片特征提取模块，用于第一卷积神经网络对制式图片特征提取并获得三维特征向量矩阵F；卷积神经网络特征编码模块，用于第二卷积神经网络将三维特征向量矩阵F转换为可供门控循环神经网络序列解码输入的待解码特征向量G；门控循环神经网络序列解码模块，用于门控循环神经网络将待解码特征向量G解码并获得发票文本图片中对应的文字；其通过图片生成器和终端以及上述程序模块等，实现了财务报账平台识别发票图片中的长文本。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于编解码结构识别发票文本的报账智能平台
本专利技术涉及财务报账平台
，尤其涉及一种基于编解码结构识别发票文本的报账智能平台。
技术介绍
财务票据报上审批报账对于实现财务自动化和节省人力有着重大帮助，其中尤其是发票图片复杂度较高，这主要是由于发票图片中包含了大量长文本需要识别，目前常见的基于深度学习的场景文本识别算法是将图片输入卷积神经网络做特征提取，提前设定文字字典，然后利用分类模型得到识别结果。如申请号码为CN202011008285.5，名称为《基于深度学习的发票文本信息识别方法》的专利申请，其中发票文本识别采用的即是通用文字识别模型。对于如图3中所示发票文本效果较差，识别较差的主要原因是通常场景文本识别算法通常是针对于10字以内短文本设计，在模型结构分类模型时候直接将从图片中提取到的特征做分类，少于10字即认为是较少，在文本图片字数较少时候可以分类正确，当文字超过10字后我们发现识别效果偏差。现有技术问题及思考：如何解决财务报账平台对发票图片中长文本识别困难的技术问题。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于编解码结构识别发票文本的报账智能平台，其通过图片生成器和终端以及文本图片特征提取模块、卷积神经网络特征编码模块和门控循环神经网络序列解码模块等，实现了财务报账平台识别发票图片中的长文本。为解决上述技术问题，本专利技术所采取的技术方案是：一种基于编解码结构识别发票文本的报账智能平台包括图片生成器和终端，所述图片生成器与终端连接并...

【技术保护点】
1.一种基于编解码结构识别发票文本的报账智能平台，包括图片生成器和终端，所述图片生成器与终端连接并通信，其特征在于：还包括文本图片特征提取模块、卷积神经网络特征编码模块和门控循环神经网络序列解码模块，文本图片特征提取模块，用于终端的处理器将预处理图片处理为统一尺寸的制式图片，终端的处理器将制式图片输入至用于提取特征的第一卷积神经网络，第一卷积神经网络对制式图片进行特征提取并获得三维特征向量矩阵F；卷积神经网络特征编码模块，用于终端的处理器将三维特征向量矩阵F输入至用于转换特征向量的第二卷积神经网络，第二卷积神经网络将三维特征向量矩阵F转换为可供门控循环神经网络序列解码输入的待解码特征向量G；门控循环神经网络序列解码模块，用于终端的处理器将待解码特征向量G输入至门控循环神经网络，门控循环神经网络解码并获得发票文本图片中对应的文字。/n

【技术特征摘要】
1.一种基于编解码结构识别发票文本的报账智能平台，包括图片生成器和终端，所述图片生成器与终端连接并通信，其特征在于：还包括文本图片特征提取模块、卷积神经网络特征编码模块和门控循环神经网络序列解码模块，文本图片特征提取模块，用于终端的处理器将预处理图片处理为统一尺寸的制式图片，终端的处理器将制式图片输入至用于提取特征的第一卷积神经网络，第一卷积神经网络对制式图片进行特征提取并获得三维特征向量矩阵F；卷积神经网络特征编码模块，用于终端的处理器将三维特征向量矩阵F输入至用于转换特征向量的第二卷积神经网络，第二卷积神经网络将三维特征向量矩阵F转换为可供门控循环神经网络序列解码输入的待解码特征向量G；门控循环神经网络序列解码模块，用于终端的处理器将待解码特征向量G输入至门控循环神经网络，门控循环神经网络解码并获得发票文本图片中对应的文字。

2.根据权利要求1所述的一种基于编解码结构识别发票文本的报账智能平台，其特征在于：还包括发票文本图片预处理模块，发票文本图片预处理模块，用于终端的处理器获取发票文本图片，对票文本图片进行预处理并获得预处理图片，预处理包括二值化处理、降噪处理和图像矫正处理。

3.根据权利要求1所述的一种基于编解码结构识别发票文本的报账智能平台，其特征在于：在文本图片特征提取模块中，将预处理图片的长、宽相应调整至160x48个像素点，三维特征向量矩阵F为40*6*512的特征矩阵，包含了制式图片的全部信息，所述第一卷积神经网络包括用于提取特征的第一至第五卷积层、第一至第三最大池化层和第一至第三残差块，用于提取特征的第一卷积层、第二卷积层、第一最大池化层、第一残差块、第三卷积层、第二最大池化层、第二残差块、第四卷积层、第三最大池化层、第三残差块和第五卷积层依次连接。

4.根据权利要求3所述的一种基于编解码结构识别发票文本的报账智能平台，其特征在于：在文本图片特征提取模块中，用于提取特征的第一卷积层为3x3卷积核且64输出通道的卷积层，用于提取特征的第二卷积层为3x3卷积核且128输出通道的卷积层，用于提取特征的第三卷积层为3x3卷积核且128输出通道的卷积层，用于提取特征的第四卷积层为3x3卷积核且512输出通道的卷积层，用于提取特征的第五卷积层为3x3卷积核且512输出通道的卷积层，用于提取特征的第一最大池化层为2x2卷积核且2x2步长的池化层，用于提取特征的第二最大池化层为2x2卷积核且2x2步长的池化层，用于提取特征的第三最大池化层...

【专利技术属性】
技术研发人员：刘义江，姜琳琳，李云超，辛锐，陈曦，侯栋梁，魏明磊，杨青，池建昆，范辉，陈蕾，阎鹏飞，吴彦巧，姜敬，檀小亚，师孜晗，
申请(专利权)人：国网河北省电力有限公司，国网河北省电力有限公司雄安新区供电公司，
类型：发明
国别省市：河北;13

全部详细技术资料下载我是这个专利的主人