一种基于编解码结构识别发票文本的报账智能平台制造技术

技术编号:29134184 阅读:16 留言:0更新日期:2021-07-02 22:29
本发明专利技术公开了一种基于编解码结构识别发票文本的报账智能平台,涉及财务报账平台技术领域;其包括图片生成器和终端以及文本图片特征提取模块、卷积神经网络特征编码模块和门控循环神经网络序列解码模块,文本图片特征提取模块,用于第一卷积神经网络对制式图片特征提取并获得三维特征向量矩阵F;卷积神经网络特征编码模块,用于第二卷积神经网络将三维特征向量矩阵F转换为可供门控循环神经网络序列解码输入的待解码特征向量G;门控循环神经网络序列解码模块,用于门控循环神经网络将待解码特征向量G解码并获得发票文本图片中对应的文字;其通过图片生成器和终端以及上述程序模块等,实现了财务报账平台识别发票图片中的长文本。

【技术实现步骤摘要】
一种基于编解码结构识别发票文本的报账智能平台
本专利技术涉及财务报账平台
,尤其涉及一种基于编解码结构识别发票文本的报账智能平台。
技术介绍
财务票据报上审批报账对于实现财务自动化和节省人力有着重大帮助,其中尤其是发票图片复杂度较高,这主要是由于发票图片中包含了大量长文本需要识别,目前常见的基于深度学习的场景文本识别算法是将图片输入卷积神经网络做特征提取,提前设定文字字典,然后利用分类模型得到识别结果。如申请号码为CN202011008285.5,名称为《基于深度学习的发票文本信息识别方法》的专利申请,其中发票文本识别采用的即是通用文字识别模型。对于如图3中所示发票文本效果较差,识别较差的主要原因是通常场景文本识别算法通常是针对于10字以内短文本设计,在模型结构分类模型时候直接将从图片中提取到的特征做分类,少于10字即认为是较少,在文本图片字数较少时候可以分类正确,当文字超过10字后我们发现识别效果偏差。现有技术问题及思考:如何解决财务报账平台对发票图片中长文本识别困难的技术问题。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于编解码结构识别发票文本的报账智能平台,其通过图片生成器和终端以及文本图片特征提取模块、卷积神经网络特征编码模块和门控循环神经网络序列解码模块等,实现了财务报账平台识别发票图片中的长文本。为解决上述技术问题,本专利技术所采取的技术方案是:一种基于编解码结构识别发票文本的报账智能平台包括图片生成器和终端,所述图片生成器与终端连接并通信,还包括文本图片特征提取模块、卷积神经网络特征编码模块和门控循环神经网络序列解码模块,文本图片特征提取模块,用于终端的处理器将预处理图片处理为统一尺寸的制式图片,终端的处理器将制式图片输入至用于提取特征的第一卷积神经网络,第一卷积神经网络对制式图片进行特征提取并获得三维特征向量矩阵F;卷积神经网络特征编码模块,用于终端的处理器将三维特征向量矩阵F输入至用于转换特征向量的第二卷积神经网络,第二卷积神经网络将三维特征向量矩阵F转换为可供门控循环神经网络序列解码输入的待解码特征向量G;门控循环神经网络序列解码模块,用于终端的处理器将待解码特征向量G输入至门控循环神经网络,门控循环神经网络解码并获得发票文本图片中对应的文字。进一步的技术方案在于:还包括发票文本图片预处理模块,发票文本图片预处理模块,用于终端的处理器获取发票文本图片,对票文本图片进行预处理并获得预处理图片,预处理包括二值化处理、降噪处理和图像矫正处理。进一步的技术方案在于:在文本图片特征提取模块中,将预处理图片的长、宽相应调整至160x48个像素点,三维特征向量矩阵F为40*6*512的特征矩阵,包含了制式图片的全部信息,所述第一卷积神经网络包括用于提取特征的第一至第五卷积层、第一至第三最大池化层和第一至第三残差块,用于提取特征的第一卷积层、第二卷积层、第一最大池化层、第一残差块、第三卷积层、第二最大池化层、第二残差块、第四卷积层、第三最大池化层、第三残差块和第五卷积层依次连接。进一步的技术方案在于:在文本图片特征提取模块中,用于提取特征的第一卷积层为3x3卷积核且64输出通道的卷积层,用于提取特征的第二卷积层为3x3卷积核且128输出通道的卷积层,用于提取特征的第三卷积层为3x3卷积核且128输出通道的卷积层,用于提取特征的第四卷积层为3x3卷积核且512输出通道的卷积层,用于提取特征的第五卷积层为3x3卷积核且512输出通道的卷积层,用于提取特征的第一最大池化层为2x2卷积核且2x2步长的池化层,用于提取特征的第二最大池化层为2x2卷积核且2x2步长的池化层,用于提取特征的第三最大池化层为1x2卷积核且1x2步长的池化层,用于提取特征的第一残差块为由两层3x3卷积核且256输出通道的卷积神经网络通过直连分支连接而成的残差块,用于提取特征的第二残差块为由两层3x3卷积核且512输出通道的卷积神经网络通过直连分支连接而成的残差块,用于提取特征的第三残差块为由两层3x3卷积核且512输出通道的卷积神经网络通过直连分支连接而成的残差块。进一步的技术方案在于:在卷积神经网络特征编码模块中,待解码特征向量G为1*1*512的特征向量,所述第二卷积神经网络包括用于转换特征向量的第一至第三卷积层和第一至第三最大池化层,用于转换特征向量的第一卷积层、第一最大池化层、第二卷积层、第二最大池化层、第三卷积层和第三最大池化层依次连接,用于转换特征向量的第一卷积层为3x3卷积核且512输出通道的卷积层,用于转换特征向量的第二卷积层为3x3卷积核且512输出通道的卷积层,用于转换特征向量的第三卷积层为3x3卷积核且512输出通道的卷积层,用于转换特征向量的第一最大池化层为2x2卷积核且2x2步长的池化层,用于转换特征向量的第二最大池化层为2x1卷积核且2x1步长的池化层,用于转换特征向量的第三最大池化层为5x3卷积核且5x3步长的池化层。进一步的技术方案在于:在门控循环神经网络序列解码模块中,所述门控循环神经网路包含了五十个门控神经网络单元分别是第一至第五十门控神经网络单元,第一门控神经网络单元至第五十门控神经网络单元依次连接。进一步的技术方案在于:所述终端为台式电脑,所述图片生成器为扫描设备或者拍照设备,图片生成器与台式电脑有线连接并单向通信。进一步的技术方案在于:所述扫描设备为数字扫描仪,所述拍照设备为数码照相机。进一步的技术方案在于:所述终端为台式电脑,所述图片生成器为移动智能终端,移动智能终端通过互联网与台式电脑无线连接并通信。进一步的技术方案在于:还包括服务器,所述终端通过互联网与服务器连接并通信。采用上述技术方案所产生的有益效果在于:第一,一种基于编解码结构识别发票文本的报账智能平台包括图片生成器和终端,所述图片生成器与终端连接并通信,还包括文本图片特征提取模块、卷积神经网络特征编码模块和门控循环神经网络序列解码模块,文本图片特征提取模块,用于终端的处理器将预处理图片处理为统一尺寸的制式图片,终端的处理器将制式图片输入至用于提取特征的第一卷积神经网络,第一卷积神经网络对制式图片进行特征提取并获得三维特征向量矩阵F;卷积神经网络特征编码模块,用于终端的处理器将三维特征向量矩阵F输入至用于转换特征向量的第二卷积神经网络,第二卷积神经网络将三维特征向量矩阵F转换为可供门控循环神经网络序列解码输入的待解码特征向量G;门控循环神经网络序列解码模块,用于终端的处理器将待解码特征向量G输入至门控循环神经网络,门控循环神经网络解码并获得发票文本图片中对应的文字。其通过图片生成器和终端以及文本图片特征提取模块、卷积神经网络特征编码模块和门控循环神经网络序列解码模块等,实现了财务报账平台识别发票图片中的长文本。第二,所述终端为台式电脑,所述图片生成器为移动智能终端,移动智能终端通过互联网与台式电脑无线连接并通信。通过移动智能终可以随时随地办公,使用更方便,结构更合理。第三,还包括服务器,所述终端通过互联网与服务器连接本文档来自技高网...

【技术保护点】
1.一种基于编解码结构识别发票文本的报账智能平台,包括图片生成器和终端,所述图片生成器与终端连接并通信,其特征在于:还包括文本图片特征提取模块、卷积神经网络特征编码模块和门控循环神经网络序列解码模块,文本图片特征提取模块,用于终端的处理器将预处理图片处理为统一尺寸的制式图片,终端的处理器将制式图片输入至用于提取特征的第一卷积神经网络,第一卷积神经网络对制式图片进行特征提取并获得三维特征向量矩阵F;卷积神经网络特征编码模块,用于终端的处理器将三维特征向量矩阵F输入至用于转换特征向量的第二卷积神经网络,第二卷积神经网络将三维特征向量矩阵F转换为可供门控循环神经网络序列解码输入的待解码特征向量G;门控循环神经网络序列解码模块,用于终端的处理器将待解码特征向量G输入至门控循环神经网络,门控循环神经网络解码并获得发票文本图片中对应的文字。/n

【技术特征摘要】
1.一种基于编解码结构识别发票文本的报账智能平台,包括图片生成器和终端,所述图片生成器与终端连接并通信,其特征在于:还包括文本图片特征提取模块、卷积神经网络特征编码模块和门控循环神经网络序列解码模块,文本图片特征提取模块,用于终端的处理器将预处理图片处理为统一尺寸的制式图片,终端的处理器将制式图片输入至用于提取特征的第一卷积神经网络,第一卷积神经网络对制式图片进行特征提取并获得三维特征向量矩阵F;卷积神经网络特征编码模块,用于终端的处理器将三维特征向量矩阵F输入至用于转换特征向量的第二卷积神经网络,第二卷积神经网络将三维特征向量矩阵F转换为可供门控循环神经网络序列解码输入的待解码特征向量G;门控循环神经网络序列解码模块,用于终端的处理器将待解码特征向量G输入至门控循环神经网络,门控循环神经网络解码并获得发票文本图片中对应的文字。


2.根据权利要求1所述的一种基于编解码结构识别发票文本的报账智能平台,其特征在于:还包括发票文本图片预处理模块,发票文本图片预处理模块,用于终端的处理器获取发票文本图片,对票文本图片进行预处理并获得预处理图片,预处理包括二值化处理、降噪处理和图像矫正处理。


3.根据权利要求1所述的一种基于编解码结构识别发票文本的报账智能平台,其特征在于:在文本图片特征提取模块中,将预处理图片的长、宽相应调整至160x48个像素点,三维特征向量矩阵F为40*6*512的特征矩阵,包含了制式图片的全部信息,所述第一卷积神经网络包括用于提取特征的第一至第五卷积层、第一至第三最大池化层和第一至第三残差块,用于提取特征的第一卷积层、第二卷积层、第一最大池化层、第一残差块、第三卷积层、第二最大池化层、第二残差块、第四卷积层、第三最大池化层、第三残差块和第五卷积层依次连接。


4.根据权利要求3所述的一种基于编解码结构识别发票文本的报账智能平台,其特征在于:在文本图片特征提取模块中,用于提取特征的第一卷积层为3x3卷积核且64输出通道的卷积层,用于提取特征的第二卷积层为3x3卷积核且128输出通道的卷积层,用于提取特征的第三卷积层为3x3卷积核且128输出通道的卷积层,用于提取特征的第四卷积层为3x3卷积核且512输出通道的卷积层,用于提取特征的第五卷积层为3x3卷积核且512输出通道的卷积层,用于提取特征的第一最大池化层为2x2卷积核且2x2步长的池化层,用于提取特征的第二最大池化层为2x2卷积核且2x2步长的池化层,用于提取特征的第三最大池化层...

【专利技术属性】
技术研发人员:刘义江姜琳琳李云超辛锐陈曦侯栋梁魏明磊杨青池建昆范辉陈蕾阎鹏飞吴彦巧姜敬檀小亚师孜晗
申请(专利权)人:国网河北省电力有限公司国网河北省电力有限公司雄安新区供电公司
类型:发明
国别省市:河北;13

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1