文字识别方法、装置、终端及其计算机存储介质制造方法及图纸

技术编号：29008098 阅读：36 留言：0更新日期：2021-06-26 05:07

本申请公开了一种文字识别方法、装置、终端及其计算机存储介质，通过卷积神经网络对输入的图片进行特征提取，然后输入具有多个通道的注意力机制模块，得到每个通道的注意力权重，并对深度特征图的每个通道进行缩放获得多个注意力特征图，然后输入全连接层进行特征融合后得到字符类别预测结果，训练模型时还根据输入图片的字符类别标注和字符类别预测结果设计损失函数，优化所述注意力权重，从而提高文字识别的准确性，对于困难样本的识别鲁棒性更强。更强。更强。

全部详细技术资料下载

【技术实现步骤摘要】
文字识别方法、装置、终端及其计算机存储介质

[0001]本申请实施例涉及计算机视觉
，更具体地，涉及一种文字识别方法、装置、终端及其计算机存储介质。

技术介绍

[0002]手写汉字识别(HCCR)一直是计算机视觉领域的一个非常活跃的、具有挑战性的研究方向，自20世纪60年代开始研究，并取得了很大的进步，很多现实生活中的应用都和它息息相关，如邮件分拣，银行支票阅读，书籍和手写笔记转录等等。尽管已经进行了许多研究，但手写汉字的识别仍然是一个极具挑战性的任务，一方面是由于中文字符类别的数量众多，并且存在大量的形近字，容易混淆；另一方面是由于不同的人有着巨大的书写风格差异，导致即使是同一类字符，视觉上的差异仍然很明显，这些都给手写汉字识别带来了很大困难。
[0003]大多数已有的基于深度学习的方法利用卷积神经网络，通过从整个图像中学习全局语义特征来进行手写汉字的分类，但这对于视觉上相似的字符的识别是不够的，因为容易混淆的字符之间往往只存在细微差异。具体而言，这些方法提供的全局注意力可以很好地定位整个字符，但是不同类字符间的注意力区域有较大重叠，缺乏区分性，这样可能导致形近字和类内差异大的字的识别错误率较高。

技术实现思路

[0004]以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
[0005]第一方面，本申请实施例提供了一种文字识别网络模型训练方法、文字识别方法、装置、终端及其计算机存储介质，能够提高视觉上容易混淆的文字识别的准确度。
[0006]第二...

【技术保护点】

【技术特征摘要】
1.一种文字识别网络模型训练方法，其特征在于，包括以下步骤：将原始数据集中的每张图片进行标准化，并对每张图片进行字符类别标注，得到带字符类别标注的标准训练数据集；将所述标准训练数据集中的每张图片输入卷积神经网络，提取图片的卷积特征，得到包含所述卷积特征的深度特征图；将所述深度特征图输入具有多个通道的注意力机制模块，得到每个通道的注意力权重，使用所述注意力权重重新对所述深度特征图的每个通道进行缩放获得多个注意力特征图；将每一个所述注意力特征图分别输入全连接层，得到多个注意力特征向量；将多个所述注意力特征向量进行特征融合，输入到字符类全连接层进行字符类别预测；根据所述字符类别预测的结果和所述字符类别标注，设计目标损失函数，利用反向传播算法进行迭代，最小化所述目标损失函数，优化所述注意力权重。2.根据权利要求1所述的一种文字识别网络模型训练方法，其特征在于，所述将原始数据集中的每张图片进行标准化，包括：统计所述原始数据集中每张图片I
i
(i＝1，
···
，N)的均值和方差，将每张图片的高度和宽度缩放到预设高度H和预设宽度W，其中N为所述原始数据集中的图片数量。3.根据权利要求2所述的一种文字识别网络模型训练方法，其特征在于，所述卷积神经网络包括若干卷积层和若干卷积模块；所述将所述标准训练数据集中的每张图片输入卷积神经网络，提取图片的卷积特征，得到包含所述卷积特征的深度特征图，包括：将标准化的图片I
i
(i＝1，
···
，N)分别输入若干卷积层中，每个卷积层后均接一个批归一化层和非线性激活函数ReLU，然后输入到最大池化层进行采样，再输入到若干所述卷积模块中，每个卷积模块由若干数量相同的卷积层和批归一化层构成，每个批归一化层均跟在每个卷积层之后，每个卷积模块之间用最大池化层相连接，最后一个所述卷积模块输出包含卷积特征的深度特征图X
i
。4.根据权利要求1或3所述的一种文字识别网络模型训练方法，其特征在于，所述注意力权重通过以下步骤获得：所述注意力机制模块使用全局平均池化在空间维度上汇集输入的所述深度特征图以生成通道描述子，使用带有Sigmoid激活的门控机制处理所述通道描述子得到每个通道的注意力权重。5.根据权利要求3所述的一种文字识别网络模型训练方法，其特征在于，所述将所述深度特征图输入具有多个通道的注意力机制模块，得到每个通道的注意力权重，使用所述注意力权重重新对所述深度特征图的每个通道进行缩放获得多个注意力特征图，包括：所述注意力机制模块使用全局平化池在H
×
W的空间维度上汇集输入的所述深度特征图X
i
，以生成通道描述子z
s
＝[z1,
…
，z
C
]，其中z
s
的第c个元素z
c
的计算方法是：其中s＝1，
···
，S，S为注意力机制模块的数量；
其中c＝1，
···
，C，C为通道数量；在z
s
上使用带有Sigmoid激活的门控机制，处理所述通道描述子，得到每个所述注意力机制模块的注意力权重：其中，σ为Sigmoid函数，δ为ReLU函数，r为通道压缩比率；每个所述注意力机制模块使用所述注意力权重重新对所述深度特征图X
i
的每个通道进行缩放获得多个注意力特征图行缩放获得多个注意力特征图其中表示标准化的图片I
i
对应的所述注意力特征图的第c个通道和标量之间的乘积。6.根据权利要求5所述的一种文字识别网络模型训练方法，其特征在于，所述将每一个所述注意力特征图分别输入全连接层，得到多个注意力特征向量，包括：将多个所述注意力特征图分别输入到全连接层：其中运算符F
flatt
(
·
)将矩阵平铺为1维向量。7.根据权利要求6所述的一种文字识别网络模型训练方法，其特征在于，所述将多个所述注意力特征向量进行特征融合，输入到字符类全连接层进行字符类别预测，包括：将多个所述注意力特征向量f
is
(s＝1,
…
,S)进行特征融合，再输入到字符类全连接层进行字符类别预测：Y
i
＝softmax(W
·
[f
i1
,
…
,f
iS
])其中，[
·
]表示级联操作，Y
i
表示图片I
i
属于字符类别的对应得分，得分最高的类别为字符类别预测的结果。8.根据权利要求7所述的一种文字识别网络模型训练方法，其特征在于，所述根据所述字符类别预测的结果和所述字符类别标注，设计目标损失函数，利用反向传播算法进行迭代，最小化所述目标损失函数，优化所述注意力权重，包括：定义目标损失函数为：L
total
＝L
cls
+λ(L
center
+L
contra
)其中L
cls
为交叉熵损失函数，L
center
为用于减少同一类字符的各个注意力特征之间的距离的区域中心损失函数，L
contra
为将图片I
i<...

【专利技术属性】
技术研发人员：白翔，王勃飞，徐清泉，许永超，刘少丽，
申请(专利权)人：华中科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人