文字识别方法、装置、终端及其计算机存储介质制造方法及图纸

技术编号:29008098 阅读:25 留言:0更新日期:2021-06-26 05:07
本申请公开了一种文字识别方法、装置、终端及其计算机存储介质,通过卷积神经网络对输入的图片进行特征提取,然后输入具有多个通道的注意力机制模块,得到每个通道的注意力权重,并对深度特征图的每个通道进行缩放获得多个注意力特征图,然后输入全连接层进行特征融合后得到字符类别预测结果,训练模型时还根据输入图片的字符类别标注和字符类别预测结果设计损失函数,优化所述注意力权重,从而提高文字识别的准确性,对于困难样本的识别鲁棒性更强。更强。更强。

【技术实现步骤摘要】
文字识别方法、装置、终端及其计算机存储介质


[0001]本申请实施例涉及计算机视觉
,更具体地,涉及一种文字识别方法、装置、终端及其计算机存储介质。

技术介绍

[0002]手写汉字识别(HCCR)一直是计算机视觉领域的一个非常活跃的、具有挑战性的研究方向,自20世纪60年代开始研究,并取得了很大的进步,很多现实生活中的应用都和它息息相关,如邮件分拣,银行支票阅读,书籍和手写笔记转录等等。尽管已经进行了许多研究,但手写汉字的识别仍然是一个极具挑战性的任务,一方面是由于中文字符类别的数量众多,并且存在大量的形近字,容易混淆;另一方面是由于不同的人有着巨大的书写风格差异,导致即使是同一类字符,视觉上的差异仍然很明显,这些都给手写汉字识别带来了很大困难。
[0003]大多数已有的基于深度学习的方法利用卷积神经网络,通过从整个图像中学习全局语义特征来进行手写汉字的分类,但这对于视觉上相似的字符的识别是不够的,因为容易混淆的字符之间往往只存在细微差异。具体而言,这些方法提供的全局注意力可以很好地定位整个字符,但是不同类字符间的注意力区域有较大重叠,缺乏区分性,这样可能导致形近字和类内差异大的字的识别错误率较高。

技术实现思路

[0004]以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
[0005]第一方面,本申请实施例提供了一种文字识别网络模型训练方法、文字识别方法、装置、终端及其计算机存储介质,能够提高视觉上容易混淆的文字识别的准确度。
[0006]第二方面,本申请实施例提供了一种文字识别网络模型训练方法,包括以下步骤:
[0007]将原始数据集中的每张图片进行标准化,并对每张图片进行字符类别标注,得到带字符类别标注的标准训练数据集;
[0008]将所述标准训练数据集中的每张图片输入卷积神经网络,提取图片的卷积特征,得到包含所述卷积特征的深度特征图;
[0009]将所述深度特征图输入具有多个通道的注意力机制模块,得到每个通道的注意力权重,使用所述注意力权重重新对所述深度特征图的每个通道进行缩放获得多个注意力特征图;
[0010]将每一个所述注意力特征图分别输入全连接层,得到多个注意力特征向量;
[0011]将多个所述注意力特征向量进行特征融合,输入到字符类全连接层进行字符类别预测;
[0012]根据所述字符类别预测的结果和所述字符类别标注,设计目标损失函数,利用反向传播算法进行迭代,最小化所述目标损失函数,优化所述注意力权重。
[0013]第三方面,本申请实施例提供了一种文字识别方法,包括:
[0014]将待测试图片进行标准化,缩放到预设高度H和预设宽度W;
[0015]将待测试图片输入卷积神经网络,提取待测试图片的卷积特征,得到包含所述卷积特征的深度特征图;
[0016]将所述深度特征图输入具有多个通道的注意力机制模块,得到每个通道的注意力权重,使用所述注意力权重重新对所述深度特征图的每个通道进行缩放获得多个注意力特征图;
[0017]将每一个所述注意力特征图分别输入全连接层,得到多个注意力特征向量;
[0018]将多个所述注意力特征向量进行特征融合,输入到字符类全连接层进行字符类别预测。
[0019]第四方面,本申请实施例提供了一种文字识别网络模型训练装置,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第二方面实施例所述的文字识别网络模型训练方法。
[0020]第五方面,本申请实施例提供了一种文字识别装置,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第三方面实施例所述的文字识别方法。
[0021]第六方面,本申请实施例提供了一种终端,包括如上述第四方面所述的文字识别网络模型训练装置或者包括如上述第五方面所述的文字识别装置。
[0022]第七方面,本申请实施例提供了一种计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行如第二方面实施例所述的文字识别网络模型训练方法或用于执行如第三方面实施例所述的文字识别方法。
[0023]根据本申请实施例提供的方案:通过卷积神经网络对输入的图片进行特征提取,然后通过注意力机制模块得到具有区分性的注意力特征,进行特征融合后得到字符类别预测结果,训练模型时还根据输入图片的字符类别标注和字符类别预测结果设计损失函数,优化所述注意力权重,从而提高文字识别的准确性,对于困难样本的识别鲁棒性更强。
[0024]本申请的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
[0025]附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
[0026]图1是本申请实施例提供的文字识别网络模型训练方法和文字识别方法流程示意图;
[0027]图2是本申请一个实施例提供的文字识别网络模型训练方法的流程图;
[0028]图3是本申请实施例提供的文字识别网络模型的网络结构图,“CA”表示通道注意力机制(Channel Attention);
[0029]图4是本申请实施例提供的卷积神经网络结构图;
[0030]图5是本申请实施例提供的注意力机制模块结构图;
[0031]图6是本申请另一实施例提供的文字识别方法的流程图;
[0032]图7是本申请另一实施例提供的文字识别网络模型训练装置的结构图;
[0033]图8是本申请另一实施例提供的文字识别装置的结构图。
具体实施方式
[0034]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
[0035]需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。
[0036]手写汉字识别(HCCR)一直是计算机视觉领域的一个非常活跃的、具有挑战性的研究方向,自20世纪60年代开始研究,并取得了很大的进步,很多现实生活中的应用都和它息息相关,如邮件分拣,银行支票阅读,书籍和手写笔记转录等等。尽管已经进行了许多研究,但手写汉字的识别仍然是一个极具挑战性的任务,一方面是由于中文字符类别的数量众多,并且存在大量的形近字,容易混淆;另一方面是由于不同的人有着巨大的书写风格差异,导致即使是同一类字符,视觉上的差异仍然很明显,这些都给手写汉字识别带来了很大困难。
[0037]大多数已有的基于深度学习的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文字识别网络模型训练方法,其特征在于,包括以下步骤:将原始数据集中的每张图片进行标准化,并对每张图片进行字符类别标注,得到带字符类别标注的标准训练数据集;将所述标准训练数据集中的每张图片输入卷积神经网络,提取图片的卷积特征,得到包含所述卷积特征的深度特征图;将所述深度特征图输入具有多个通道的注意力机制模块,得到每个通道的注意力权重,使用所述注意力权重重新对所述深度特征图的每个通道进行缩放获得多个注意力特征图;将每一个所述注意力特征图分别输入全连接层,得到多个注意力特征向量;将多个所述注意力特征向量进行特征融合,输入到字符类全连接层进行字符类别预测;根据所述字符类别预测的结果和所述字符类别标注,设计目标损失函数,利用反向传播算法进行迭代,最小化所述目标损失函数,优化所述注意力权重。2.根据权利要求1所述的一种文字识别网络模型训练方法,其特征在于,所述将原始数据集中的每张图片进行标准化,包括:统计所述原始数据集中每张图片I
i
(i=1,
···
,N)的均值和方差,将每张图片的高度和宽度缩放到预设高度H和预设宽度W,其中N为所述原始数据集中的图片数量。3.根据权利要求2所述的一种文字识别网络模型训练方法,其特征在于,所述卷积神经网络包括若干卷积层和若干卷积模块;所述将所述标准训练数据集中的每张图片输入卷积神经网络,提取图片的卷积特征,得到包含所述卷积特征的深度特征图,包括:将标准化的图片I
i
(i=1,
···
,N)分别输入若干卷积层中,每个卷积层后均接一个批归一化层和非线性激活函数ReLU,然后输入到最大池化层进行采样,再输入到若干所述卷积模块中,每个卷积模块由若干数量相同的卷积层和批归一化层构成,每个批归一化层均跟在每个卷积层之后,每个卷积模块之间用最大池化层相连接,最后一个所述卷积模块输出包含卷积特征的深度特征图X
i
。4.根据权利要求1或3所述的一种文字识别网络模型训练方法,其特征在于,所述注意力权重通过以下步骤获得:所述注意力机制模块使用全局平均池化在空间维度上汇集输入的所述深度特征图以生成通道描述子,使用带有Sigmoid激活的门控机制处理所述通道描述子得到每个通道的注意力权重。5.根据权利要求3所述的一种文字识别网络模型训练方法,其特征在于,所述将所述深度特征图输入具有多个通道的注意力机制模块,得到每个通道的注意力权重,使用所述注意力权重重新对所述深度特征图的每个通道进行缩放获得多个注意力特征图,包括:所述注意力机制模块使用全局平化池在H
×
W的空间维度上汇集输入的所述深度特征图X
i
,以生成通道描述子z
s
=[z1,

,z
C
],其中z
s
的第c个元素z
c
的计算方法是:其中s=1,
···
,S,S为注意力机制模块的数量;
其中c=1,
···
,C,C为通道数量;在z
s
上使用带有Sigmoid激活的门控机制,处理所述通道描述子,得到每个所述注意力机制模块的注意力权重:其中,σ为Sigmoid函数,δ为ReLU函数,r为通道压缩比率;每个所述注意力机制模块使用所述注意力权重重新对所述深度特征图X
i
的每个通道进行缩放获得多个注意力特征图行缩放获得多个注意力特征图其中表示标准化的图片I
i
对应的所述注意力特征图的第c个通道和标量之间的乘积。6.根据权利要求5所述的一种文字识别网络模型训练方法,其特征在于,所述将每一个所述注意力特征图分别输入全连接层,得到多个注意力特征向量,包括:将多个所述注意力特征图分别输入到全连接层:其中运算符F
flatt
(
·
)将矩阵平铺为1维向量。7.根据权利要求6所述的一种文字识别网络模型训练方法,其特征在于,所述将多个所述注意力特征向量进行特征融合,输入到字符类全连接层进行字符类别预测,包括:将多个所述注意力特征向量f
is
(s=1,

,S)进行特征融合,再输入到字符类全连接层进行字符类别预测:Y
i
=softmax(W
·
[f
i1
,

,f
iS
])其中,[
·
]表示级联操作,Y
i
表示图片I
i
属于字符类别的对应得分,得分最高的类别为字符类别预测的结果。8.根据权利要求7所述的一种文字识别网络模型训练方法,其特征在于,所述根据所述字符类别预测的结果和所述字符类别标注,设计目标损失函数,利用反向传播算法进行迭代,最小化所述目标损失函数,优化所述注意力权重,包括:定义目标损失函数为:L
total
=L
cls
+λ(L
center
+L
contra
)其中L
cls
为交叉熵损失函数,L
center
为用于减少同一类字符的各个注意力特征之间的距离的区域中心损失函数,L
contra
为将图片I
i<...

【专利技术属性】
技术研发人员:白翔王勃飞徐清泉许永超刘少丽
申请(专利权)人:华中科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1