一种票据文本定位方法和装置制造方法及图纸

技术编号：29311378 阅读：12 留言：0更新日期：2021-07-17 02:18

本发明专利技术提供了一种票据文本定位方法和装置，本发明专利技术涉及人工智能，该方法包括：获取票据图像及其标注信息；搭建深度卷积神经网络；将票据图像和标注信息输入深度卷积神经网络，通过总体损失函数对深度卷积神经网络进行迭代训练，确定票据文本定位网络模型和权重参数；从渠道端采集待检测票据图片，通过票据文本定位网络模型和权重参数进行票据文本定位，输出定位文本的倾斜文本框；根据定位文本的倾斜文本框，对待检测票据图片进行裁剪，存入图片数据库。本发明专利技术利用深度学习概念和卷积神经网络设计一种基于深度卷积神经网络的票据文本定位方法，可提高倾斜文本的定位能力。可提高倾斜文本的定位能力。可提高倾斜文本的定位能力。

A method and device for locating bill text

全部详细技术资料下载

【技术实现步骤摘要】
一种票据文本定位方法和装置

[0001]本专利技术涉及计算机数据处理
，尤其涉及一种票据文本定位方法和装置。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
[0003]伴随着大数据时代的来临和人工智能技术的快速发展，票据文本检测正逐步取代人工录入方式。其中，如何对票据中的文本区域进行有效定位是票据文本检测的一个关键步骤。
[0004]文本检测主要包括文本定位和文本识别两个步骤。传统的文本检测算法大多依赖于人工设计特征，存在语义鸿沟和算法泛化性受限的问题，
[0005]传统文本定位算法存在问题：1、过于依赖人工设计的特征，特征工程繁琐且算法泛化性受限和存在语义鸿沟的问题。2、对于倾斜文本，定位不精确，进而影响下一步的文本识别的准确率。
[0006]在实际应用中，票据种类多而杂，导致算法复杂、效率低；而一些基于深度学习的文本定位算法大多只针对于水平检测问题，使得文本定位效果差。深度学习定位算法存在问题：1、部分算法采用传统定位算法和深度学习网络相结合方式，传统定位算法的存在使得深度学习的算法效率有所下降。2、经典的CTPN文本定位网络只考虑定位水平文本行，对于文本行倾斜角度较大时，定位不精确。
[0007]在实际的票据文字识别中，常面临着扫描的票据影像比较倾斜，或者票据的文本行本身倾斜，使得票据文本行定位不精确，进而影响最终的文字识别率。
[0008]因此，如何提供一种新的方...

【技术保护点】

【技术特征摘要】
1.一种票据文本定位方法，其特征在于，包括：获取票据图像及其标注信息；搭建深度卷积神经网络；将票据图像和标注信息输入深度卷积神经网络，通过总体损失函数对深度卷积神经网络进行迭代训练，确定票据文本定位网络模型和权重参数；从渠道端采集待检测票据图片，通过票据文本定位网络模型和权重参数进行票据文本定位，输出定位文本的倾斜文本框；根据定位文本的倾斜文本框，对待检测票据图片进行裁剪，存入图片数据库。2.如权利要求1所述的方法，其特征在于，获取票据图像和标注信息，包括：从历史数据库中获取票据图像及其标注信息；其中，标注信息，包括票据图像中文本的中心坐标、尺寸、倾斜角度和置信度。3.如权利要求1所述的方法，其特征在于，搭建深度卷积神经网络，包括：采用深度残差网络ResNet50作为特征提取网络，去除网络的全连接层，仅保留多个卷积块通过上采样进行特征融合，设计不同大小的卷积核作为输出层提取特征，搭建深度卷积神经网络。4.如权利要求2所述的方法，其特征在于，将票据图像及其标注信息输入深度卷积神经网络，通过总体损失函数对深度卷积神经网络进行迭代训练，确定票据文本定位网络模型和权重参数，包括：将票据图像输入深度卷积神经网络，进行票据文本定位训练，输出预测文本框坐标信息、角度信息和置信度；判断深度卷积神经网络是否达到预设迭代次数；若未达到预设迭代次数，则根据票据图像的标注信息与预测文本框坐标信息、尺寸信息、角度信息和置信度之间的误差，计算总体损失函数；利用反向传播算法将总体损失函数反向传播至深度卷积神经网络，反复迭代训练优化权重参数；在达到预设迭代次数时，停止迭代训练，将此时的训练的深度卷积神经网络输出为票据文本定位网络模型，输出此时优化的权重参数。5.如权利要求4所述的方法，其特征在于，根据票据图像的标注信息与预测文本框坐标信息、尺寸信息、角度信息和置信度信息之间的误差，计算总体损失函数，包括：根据票据图像的中心坐标与预测文本框坐标信息，确定中心坐标损失；根据票据图像的尺寸与预测文本框尺寸信息，确定尺寸损失；根据票据图像的倾斜角度与预测文本框角度信息，确定角度损失；根据票据图像的置信度与预测文本框置信度信息，确定置信度损失；根据中心坐标损失、尺寸损失、角度损失和置信度损失，确定总体损失函数。6.如权利要求5所述的方法，其特征在于，按照如下方式，确定中心坐标损失：L
center
＝∑(x
‑
x
*
)2+(y
‑
y
*
)2其中，L
center
表示中心坐标损失；x表示预测文本框中心坐标的横坐标预测值；x
*
表示票据图像中心坐标的横坐标真实值；y表示预测文本框中心坐标的纵坐标预测值；y
*
表示票据图像中心坐标的纵坐标真实值。
7.如权利要求5所述的方法，其特征在于，按照如下方式，确定尺寸损失：其中，L
size
表示尺寸损失；w表示预测文本框宽度预测值；w
*
表示票据图像宽度真实值；h表示预测文本框高度预测值；h
*
表示票据图像高度真实值。8.如权利要求5所述的方法，其特征在于，按照如下方式，确定角度损失：L
θ
＝∑1
‑
cos(θ
‑
θ
*
)其中，L
θ
表示角度损失；θ表示预测文本框角度预测值；θ
*
表示票据图像的倾斜角度真实值。9.如权利要求5所述的方法，其特征在于，按照如下方式，确定置信度损失：L
conf
＝∑(conf
‑
conf
*
)2其中，L
conf
表示置信度损失；conf表示预测文本框置信度预测值；conf
*
表示票据图像的置信度真实值。10.如权利要求5所述的方法，其特征在于，按照如下方式，确定总体损失函数：L
all
＝L
center
+L
size
+L
conf
+L
θ
其中，L
all
表示总体损失函数；L
center
表示中心坐标损失；L
size
表示尺寸损失；L
θ
表示角度损失；L
conf
表示置信度损失。11.如权利要求3所述的方法，其特征在于，从渠道端采集待检测票据图片，通过票据文本定位网络模型和权重参数进行票据文本定位，输出定位文本的倾斜文本框，包括：从渠道端采集待检测票据图片，输入票据文本定位网络模型；通过深度残差网络ResNet50作为特征提取网络进行特征提取，去除网络的全连接层，仅保留五个按顺序排列的卷积块；将五个卷积块中的后四个卷积块的特征通过上采样进行特征融合，确定卷积核；采用1
×
1通道数为5的卷积核得到文本框中心坐标、尺寸和倾斜角度；采用1
×
1通道数为1的卷积核得到预测文本置信度；根据文本框中心坐标、尺寸和倾斜角度以及预测文本置信度，采用后处理方法得到定位文本的倾斜文本框。12.一种票据文本定位装置，其特征在于，包括：票据图像及其标注信息获取模块，用于获取票据图像及其标注信息；深度卷积神经网络搭建模块，用于搭建深度卷积神经网络；票据文本定位网络模型和权重参数确定模块，用于将票据图像和标注信息输入深度卷积神经网络，通过总体损失函数对深度...

【专利技术属性】
技术研发人员：南晓停，朱敬业，王帆，达举东，孙明晨，郭媛，赵倩茹，陈茜蓉，韩尚直，龚本玲，
申请(专利权)人：中国银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人