一种票据文本定位方法和装置制造方法及图纸

技术编号:29311378 阅读:12 留言:0更新日期:2021-07-17 02:18
本发明专利技术提供了一种票据文本定位方法和装置,本发明专利技术涉及人工智能,该方法包括:获取票据图像及其标注信息;搭建深度卷积神经网络;将票据图像和标注信息输入深度卷积神经网络,通过总体损失函数对深度卷积神经网络进行迭代训练,确定票据文本定位网络模型和权重参数;从渠道端采集待检测票据图片,通过票据文本定位网络模型和权重参数进行票据文本定位,输出定位文本的倾斜文本框;根据定位文本的倾斜文本框,对待检测票据图片进行裁剪,存入图片数据库。本发明专利技术利用深度学习概念和卷积神经网络设计一种基于深度卷积神经网络的票据文本定位方法,可提高倾斜文本的定位能力。可提高倾斜文本的定位能力。可提高倾斜文本的定位能力。

A method and device for locating bill text

【技术实现步骤摘要】
一种票据文本定位方法和装置


[0001]本专利技术涉及计算机数据处理
,尤其涉及一种票据文本定位方法和装置。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
[0003]伴随着大数据时代的来临和人工智能技术的快速发展,票据文本检测正逐步取代人工录入方式。其中,如何对票据中的文本区域进行有效定位是票据文本检测的一个关键步骤。
[0004]文本检测主要包括文本定位和文本识别两个步骤。传统的文本检测算法大多依赖于人工设计特征,存在语义鸿沟和算法泛化性受限的问题,
[0005]传统文本定位算法存在问题:1、过于依赖人工设计的特征,特征工程繁琐且算法泛化性受限和存在语义鸿沟的问题。2、对于倾斜文本,定位不精确,进而影响下一步的文本识别的准确率。
[0006]在实际应用中,票据种类多而杂,导致算法复杂、效率低;而一些基于深度学习的文本定位算法大多只针对于水平检测问题,使得文本定位效果差。深度学习定位算法存在问题:1、部分算法采用传统定位算法和深度学习网络相结合方式,传统定位算法的存在使得深度学习的算法效率有所下降。2、经典的CTPN文本定位网络只考虑定位水平文本行,对于文本行倾斜角度较大时,定位不精确。
[0007]在实际的票据文字识别中,常面临着扫描的票据影像比较倾斜,或者票据的文本行本身倾斜,使得票据文本行定位不精确,进而影响最终的文字识别率。
[0008]因此,如何提供一种新的方案,其能够解决上述技术问题是本领域亟待解决的技术难题。

技术实现思路

[0009]本专利技术实施例提供一种票据文本定位方法,利用深度学习概念和卷积神经网络设计一种基于深度卷积神经网络的票据文本定位方法,可提高倾斜文本的定位能力,该方法包括:
[0010]获取票据图像及其标注信息;
[0011]搭建深度卷积神经网络;
[0012]将票据图像和标注信息输入深度卷积神经网络,通过总体损失函数对深度卷积神经网络进行迭代训练,确定票据文本定位网络模型和权重参数;
[0013]从渠道端采集待检测票据图片,通过票据文本定位网络模型和权重参数进行票据文本定位,输出定位文本的倾斜文本框;
[0014]根据定位文本的倾斜文本框,对待检测票据图片进行裁剪,存入图片数据库。
[0015]本专利技术实施例还提供一种票据文本定位装置,包括:
[0016]票据图像及其标注信息获取模块,用于获取票据图像及其标注信息;
[0017]深度卷积神经网络搭建模块,用于搭建深度卷积神经网络;
[0018]票据文本定位网络模型和权重参数确定模块,用于将票据图像和标注信息输入深度卷积神经网络,通过总体损失函数对深度卷积神经网络进行迭代训练,确定票据文本定位网络模型和权重参数;
[0019]倾斜文本框定位模块,用于从渠道端采集待检测票据图片,通过票据文本定位网络模型和权重参数进行票据文本定位,输出定位文本的倾斜文本框;
[0020]待检测票据图片剪裁模块,用于根据定位文本的倾斜文本框,对待检测票据图片进行裁剪,存入图片数据库。
[0021]本专利技术实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述一种票据文本定位方法。
[0022]本专利技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述一种票据文本定位方法的计算机程序。
[0023]本专利技术实施例提供的一种票据文本定位方法和装置,包括:首先获取票据图像及其标注信息;然后搭建深度卷积神经网络;接着将票据图像和标注信息输入深度卷积神经网络,通过总体损失函数对深度卷积神经网络进行迭代训练,确定票据文本定位网络模型和权重参数;下一步从渠道端采集待检测票据图片,通过票据文本定位网络模型和权重参数进行票据文本定位,输出定位文本的倾斜文本框;最后根据定位文本的倾斜文本框,对待检测票据图片进行裁剪,存入图片数据库。本专利技术利用深度学习概念和卷积神经网络设计一种基于深度卷积神经网络的票据文本定位方法,可提高倾斜文本的定位能力;避免繁琐的手工特征工程;可提高倾斜文本定位的准确率,泛化性更强;利用深度卷积神经网络来同时定位文本和倾斜角度信息,可以提高票据文本区域检测的效率和票据文本定位准确率,为客户提供良好的体验,值得金融等领域使用。
附图说明
[0024]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
[0025]图1为本专利技术实施例一种票据文本定位方法示意图。
[0026]图2为本专利技术实施例一种票据文本定位方法涉及的深度全连接网络示意图。
[0027]图3为本专利技术实施例一种票据文本定位方法涉及的卷积神经网络示意图。
[0028]图4为本专利技术实施例一种票据文本定位方法的没有加入角度信息的票据文本定位结果。
[0029]图5为本专利技术实施例一种票据文本定位方法的加入倾斜角度信息的票据文本定位结果。
[0030]图6为本专利技术实施例一种票据文本定位方法的票据文本定位网络模型示意图。
[0031]图7为本专利技术实施例一种票据文本定位方法的流程图。
[0032]图8为运行本专利技术实施的一种票据文本定位方法的计算机装置示意图。
[0033]图9为本专利技术实施例一种票据文本定位装置示意图。
具体实施方式
[0034]为使本专利技术实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本专利技术实施例做进一步详细说明。在此,本专利技术的示意性实施例及其说明用于解释本专利技术,但并不作为对本专利技术的限定。
[0035]本专利技术涉及人工智能。图1为本专利技术实施例一种票据文本定位方法示意图,如图1所示,本专利技术实施例提供一种票据文本定位方法,利用深度学习概念和卷积神经网络设计一种基于深度卷积神经网络的票据文本定位方法,可提高倾斜文本的定位能力,该方法包括:
[0036]步骤101:获取票据图像及其标注信息;
[0037]步骤102:搭建深度卷积神经网络;
[0038]步骤103:将票据图像和标注信息输入深度卷积神经网络,通过总体损失函数对深度卷积神经网络进行迭代训练,确定票据文本定位网络模型和权重参数;
[0039]步骤104:从渠道端采集待检测票据图片,通过票据文本定位网络模型和权重参数进行票据文本定位,输出定位文本的倾斜文本框;
[0040]步骤105:根据定位文本的倾斜文本框,对待检测票据图片进行裁剪,存入图片数据库。
[0041]本专利技术实施例提供的一种票据文本定位方法和装置,包括:首先获取票据图像及其标注信息;然后搭建本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种票据文本定位方法,其特征在于,包括:获取票据图像及其标注信息;搭建深度卷积神经网络;将票据图像和标注信息输入深度卷积神经网络,通过总体损失函数对深度卷积神经网络进行迭代训练,确定票据文本定位网络模型和权重参数;从渠道端采集待检测票据图片,通过票据文本定位网络模型和权重参数进行票据文本定位,输出定位文本的倾斜文本框;根据定位文本的倾斜文本框,对待检测票据图片进行裁剪,存入图片数据库。2.如权利要求1所述的方法,其特征在于,获取票据图像和标注信息,包括:从历史数据库中获取票据图像及其标注信息;其中,标注信息,包括票据图像中文本的中心坐标、尺寸、倾斜角度和置信度。3.如权利要求1所述的方法,其特征在于,搭建深度卷积神经网络,包括:采用深度残差网络ResNet50作为特征提取网络,去除网络的全连接层,仅保留多个卷积块通过上采样进行特征融合,设计不同大小的卷积核作为输出层提取特征,搭建深度卷积神经网络。4.如权利要求2所述的方法,其特征在于,将票据图像及其标注信息输入深度卷积神经网络,通过总体损失函数对深度卷积神经网络进行迭代训练,确定票据文本定位网络模型和权重参数,包括:将票据图像输入深度卷积神经网络,进行票据文本定位训练,输出预测文本框坐标信息、角度信息和置信度;判断深度卷积神经网络是否达到预设迭代次数;若未达到预设迭代次数,则根据票据图像的标注信息与预测文本框坐标信息、尺寸信息、角度信息和置信度之间的误差,计算总体损失函数;利用反向传播算法将总体损失函数反向传播至深度卷积神经网络,反复迭代训练优化权重参数;在达到预设迭代次数时,停止迭代训练,将此时的训练的深度卷积神经网络输出为票据文本定位网络模型,输出此时优化的权重参数。5.如权利要求4所述的方法,其特征在于,根据票据图像的标注信息与预测文本框坐标信息、尺寸信息、角度信息和置信度信息之间的误差,计算总体损失函数,包括:根据票据图像的中心坐标与预测文本框坐标信息,确定中心坐标损失;根据票据图像的尺寸与预测文本框尺寸信息,确定尺寸损失;根据票据图像的倾斜角度与预测文本框角度信息,确定角度损失;根据票据图像的置信度与预测文本框置信度信息,确定置信度损失;根据中心坐标损失、尺寸损失、角度损失和置信度损失,确定总体损失函数。6.如权利要求5所述的方法,其特征在于,按照如下方式,确定中心坐标损失:L
center
=∑(x

x
*
)2+(y

y
*
)2其中,L
center
表示中心坐标损失;x表示预测文本框中心坐标的横坐标预测值;x
*
表示票据图像中心坐标的横坐标真实值;y表示预测文本框中心坐标的纵坐标预测值;y
*
表示票据图像中心坐标的纵坐标真实值。
7.如权利要求5所述的方法,其特征在于,按照如下方式,确定尺寸损失:其中,L
size
表示尺寸损失;w表示预测文本框宽度预测值;w
*
表示票据图像宽度真实值;h表示预测文本框高度预测值;h
*
表示票据图像高度真实值。8.如权利要求5所述的方法,其特征在于,按照如下方式,确定角度损失:L
θ
=∑1

cos(θ

θ
*
)其中,L
θ
表示角度损失;θ表示预测文本框角度预测值;θ
*
表示票据图像的倾斜角度真实值。9.如权利要求5所述的方法,其特征在于,按照如下方式,确定置信度损失:L
conf
=∑(conf

conf
*
)2其中,L
conf
表示置信度损失;conf表示预测文本框置信度预测值;conf
*
表示票据图像的置信度真实值。10.如权利要求5所述的方法,其特征在于,按照如下方式,确定总体损失函数:L
all
=L
center
+L
size
+L
conf
+L
θ
其中,L
all
表示总体损失函数;L
center
表示中心坐标损失;L
size
表示尺寸损失;L
θ
表示角度损失;L
conf
表示置信度损失。11.如权利要求3所述的方法,其特征在于,从渠道端采集待检测票据图片,通过票据文本定位网络模型和权重参数进行票据文本定位,输出定位文本的倾斜文本框,包括:从渠道端采集待检测票据图片,输入票据文本定位网络模型;通过深度残差网络ResNet50作为特征提取网络进行特征提取,去除网络的全连接层,仅保留五个按顺序排列的卷积块;将五个卷积块中的后四个卷积块的特征通过上采样进行特征融合,确定卷积核;采用1
×
1通道数为5的卷积核得到文本框中心坐标、尺寸和倾斜角度;采用1
×
1通道数为1的卷积核得到预测文本置信度;根据文本框中心坐标、尺寸和倾斜角度以及预测文本置信度,采用后处理方法得到定位文本的倾斜文本框。12.一种票据文本定位装置,其特征在于,包括:票据图像及其标注信息获取模块,用于获取票据图像及其标注信息;深度卷积神经网络搭建模块,用于搭建深度卷积神经网络;票据文本定位网络模型和权重参数确定模块,用于将票据图像和标注信息输入深度卷积神经网络,通过总体损失函数对深度...

【专利技术属性】
技术研发人员:南晓停朱敬业王帆达举东孙明晨郭媛赵倩茹陈茜蓉韩尚直龚本玲
申请(专利权)人:中国银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1