基于原型网络的手写汉字识别方法、装置、设备及介质制造方法及图纸

技术编号:37480131 阅读:16 留言:0更新日期:2023-05-07 09:20
本发明专利技术公开一种基于原型网络的手写汉字识别方法、装置、设备及介质,方法包括:获取手写文书的灰度图像;基于所述灰度图像进行汉字字符的分割,得到手写文书内每一汉字字符的图像数据;将每一所述汉字字符的图像数据作为预先训练的原型网络汉字识别模型的输入,获取原型网络汉字识别模型的输出,所述输出为相对于输入的汉字字符的候选字符集;基于最大后验概率准则,扩充每一所述候选字符集,得到手写文书内每一汉字字符的扩充候选字符集,并将所述扩充候选字符集与候选字符集取并集形成新候选字符集;将所述新候选字符集作为预先训练的bi

【技术实现步骤摘要】
基于原型网络的手写汉字识别方法、装置、设备及介质


[0001]本专利技术涉及手写汉字识别
,具体涉及一种基于原型网络的手写汉字识别方法、装置、设备及介质。

技术介绍

[0002]随着智能化时代的到来,枯燥重复的程序化工作必然逐渐被无需人工或者少量人工的智能化技术所代替,文字识别技术将不可避免的得到广泛应用,而如今文字识别融合了机器视觉,机器翻译等多种学科,其技术水平随着图像识别技术和计算机技术的发展而水涨船高,但就我国目前的文字识别产品来说,其识别速度和识别精度依然无法满足用户的实际需求。国外在文字识别方面起步稍早,对于英文单词的识别精度也能够达到99%,但对于中文的识别却远远达不到这么高的精度。除去技术起步时间较晚外,中文汉字繁多的种类、复杂的结构和繁多的笔画也是造成汉字识别精度较低的原因,在此基础上,对于脱机手写体汉字文书的识别只会更加困难,具体表现在:(1)手写字符往往和标准字体有所差距,有时甚至相差甚远,带有严重的“个人风格”。
[0003](2)手写文书的格式也并不标准,偏旁部首之间的距离,汉字与汉字间的距离和行与行之间的距离都有可能出现偏差。
[0004](3)在某些文书样本稀缺的场合也就是我们所说的“小样本学习”情况时,采用传统算法的模型的泛化效果不好,容易过拟合。

技术实现思路

[0005]为克服上述现有技术的不足,本专利技术提供一种基于原型网络的手写汉字识别方法、装置、设备及介质,用以解决上述至少一个技术问题。
[0006]根据本专利技术说明书的一方面,提供一种基于原型网络的手写汉字识别方法,包括:获取手写文书的灰度图像;基于所述灰度图像进行汉字字符的分割,得到手写文书内每一汉字字符的图像数据;将每一所述汉字字符的图像数据作为预先训练的原型网络汉字识别模型的输入,获取原型网络汉字识别模型的输出,所述输出为相对于输入的汉字字符的候选字符集;基于最大后验概率准则,扩充每一所述候选字符集,得到手写文书内每一汉字字符的扩充候选字符集,并将所述扩充候选字符集与候选字符集取并集形成新候选字符集;将所述新候选字符集作为预先训练的bi

gram语言模型的输入,结合Viterbi算法选择具有最大概率的句子路径,形成手写文书的识别文本。
[0007]上述技术方案经由原型网络汉字识别模型进行初步识别,输出每一被识别汉字字符的候选字符集;然后对所述候选字符集进行扩充得到扩充候选字符集,并将扩充候选字符集和候选字符集取并集以提高候选字符集中出现正确字符的概率;接着基于取并集的新
候选字符集进行识别后处理,由bi

gram语言模型结合Viterbi算法选择具有最大概率的句子路径,输出识别文本。
[0008]上述技术方案在得到汉字字符的初步识别结果后,结合bi

gram语言模型以及扩充候选字符集和候选字符集的并集,对一段话出现在人类语言习惯中的概率进行判断,根据前后文的语义对当前识别的文字进行纠错,从而达到增加识别精度的效果。
[0009]作为进一步的技术方案,所述原型网络汉字识别模型的训练包括:获取嵌入函数;根据所述嵌入函数对输入空间进行处理,得到嵌入空间;以数据集各类中所有输入样本的均值作为各类的一个“原型”,在嵌入空间中计算输入样本到各类的“原型”的欧式距离;根据Softmax模型将输入样本归类到距离最短的“原型”所属的类别中;以交叉熵作为损失函数,利用Adam优化器不断最小化损失函数来优化嵌入函数参数,最终输出根据各个候选字符的概率大小排序的输入样本的候选字符集。
[0010]可选地,所述原型网络汉字识别模型的训练还包括:获取手写文书训练样本;从所述手写文书训练样本中随机选取若干手写文书样本形成数据集,以所述数据集中的手写文书样本作为输入样本,进行原型网络汉字识别模型训练;获取手写文书测试样本,并将所述手写文书测试样本输入到训练后的原型网络汉字识别模型,获取识别准确率,若所述识别准确率大于或等于预设准确率,则确定所述原型网络汉字识别模型为最终模型。
[0011]作为进一步的技术方案,获取嵌入函数的步骤包括:构建卷积神经网络,所述卷积神经网络由四个卷积模块构成,每一个卷积模块均包括64个3
×
3的卷积核的卷积层、批量归一化层、ReLU非线性层和一个2
×
2池化核大小的最大池化层;将原始样本作为所述卷积神经网络的输入,获得降维后的样本作为所述卷积神经网络的输出。
[0012]进一步地,在通过卷积神经网络训练获得嵌入函数的过程中,设置学习率为0.003,且每2000轮训练后将学习率减半。通过所述嵌入函数将原输入样本进行降维,以便对输入样本进行分类。
[0013]作为进一步的技术方案,基于最大后验概率准则,由每一输入样本的所述候选字符集来预测最有可能输入正确的汉字字符,并将这些最有可能输入正确的汉字字符按照概率大小选择前m个作为扩充的候选字符集。
[0014]作为进一步的技术方案,所述bi

gram语言模型的训练包括:获取训练语料;统计训练语料中各个汉字字符出现的频率;根据各个汉字字符出现的频率,计算待识别文本中由各汉字字符所组成的每个句子的联合分布概率。
[0015]作为进一步的技术方案,将所述手写文书扫描件的灰度图像先分割成行图像,然后将每行图像分割成单个汉字字符的图像;将分割后的汉字字符图像进行图像增强,得到
每个汉字字符的28
×
28的灰度图像。
[0016]可选地,获取手写文书的灰度图像,还包括:获取手写文书扫描件的原始图像;对所述原始图像进行预处理,获取有效图像;对所述有效图像进行背景去除,获取包括手写文书的目标图像。
[0017]根据本专利技术说明书的一方面,提供一种基于原型网络的手写汉字识别装置,包括:获取模块,用于获取手写文书的灰度图像;预处理模块,用于基于所述灰度图像进行汉字字符的分割,得到手写文书内每一汉字字符的图像数据;识别模块,用于将每一所述汉字字符的图像数据作为预先训练的原型网络汉字识别模型的输入,获取原型网络汉字识别模型的输出,所述输出为相对于输入的汉字字符的候选字符集;扩充模块,用于基于最大后验概率准则,扩充每一所述候选字符集,得到手写文书内每一汉字字符的扩充候选字符集,并将所述扩充候选字符集与候选字符集取并集形成新候选字符集;识别后处理模块,用于将所述新候选字符集作为预先训练的bi

gram语言模型的输入,结合Viterbi算法选择具有最大概率的句子路径,形成手写文书的识别文本。
[0018]根据本专利技术说明书的一方面,提供一种电子设备,所述电子设备包括处理器、存储器,以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现所述的基于原型网络的手写汉字识别方法的步骤。
[0019]根据本专利技术说明书的一方面,提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于原型网络的手写汉字识别方法,其特征在于,包括:获取手写文书的灰度图像;基于所述灰度图像进行汉字字符的分割,得到手写文书内每一汉字字符的图像数据;将每一所述汉字字符的图像数据作为预先训练的原型网络汉字识别模型的输入,获取原型网络汉字识别模型的输出,所述输出为相对于输入的汉字字符的候选字符集;基于最大后验概率准则,扩充每一所述候选字符集,得到手写文书内每一汉字字符的扩充候选字符集,并将所述扩充候选字符集与候选字符集取并集形成新候选字符集;将所述新候选字符集作为预先训练的bi

gram语言模型的输入,结合Viterbi算法选择具有最大概率的句子路径,形成手写文书的识别文本。2.根据权利要求1所述基于原型网络的手写汉字识别方法,其特征在于,所述原型网络汉字识别模型的训练包括:获取嵌入函数;根据所述嵌入函数对输入空间进行处理,得到嵌入空间;以数据集各类中所有输入样本的均值作为各类的一个“原型”,在嵌入空间中计算输入样本到各类的“原型”的欧式距离;根据Softmax模型将输入样本归类到距离最短的“原型”所属的类别中;以交叉熵作为损失函数,利用Adam优化器不断最小化损失函数来优化嵌入函数参数,最终输出根据各个候选字符的概率大小排序的输入样本的候选字符集。3.根据权利要求2所述基于原型网络的手写汉字识别方法,其特征在于,获取嵌入函数的步骤包括:构建卷积神经网络,所述卷积神经网络由四个卷积模块构成,每一个卷积模块均包括64个3
×
3的卷积核的卷积层、批量归一化层、ReLU非线性层和一个2
×
2池化核大小的最大池化层;将原始样本作为所述卷积神经网络的输入,获得降维后的样本作为所述卷积神经网络的输出。4.根据权利要求2所述基于原型网络的手写汉字识别方法,其特征在于,基于最大后验概率准则,由每一输入样本的所述候选字符集来预测最有可能输入正确的汉字字符,并将这些最有可能输入正确的汉字字符按照概率大小...

【专利技术属性】
技术研发人员:俞翔肖剑波谢海燕张乔斌闫伟冬楼京俊胡世峰刘杰峰
申请(专利权)人:中国人民解放军海军工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1