融合多尺度语义特征图的缅甸语图像文本识别方法及装置制造方法及图纸

技术编号：31792692 阅读：33 留言：0更新日期：2022-01-08 10:51

本发明专利技术涉及融合多尺度语义特征图的缅甸语图像文本识别方法及装置，属于自然语言处理领域。针对缅甸语图像字符的结构特点，本发明专利技术提出了一种融合多尺度语义特征图的缅甸语图像文本识别方法，主要包括缅甸语图像文本数据预处理、融合多尺度语义特征图的缅甸语识别模型、基于MIX UP数据增强策略的缅甸语图像文本识别模型训练、缅甸语图像文本识别等四个部分构成。本发明专利技术所提方法能够有效地融合缅甸语图像的字符结构特征提升缅甸语图像文本识别模型性能，对东南亚图像文本识别具有理论和实际应用价值。应用价值。应用价值。

全部详细技术资料下载

【技术实现步骤摘要】
融合多尺度语义特征图的缅甸语图像文本识别方法及装置

[0001]本专利技术涉及融合多尺度语义特征图的缅甸语图像文本识别方法及装置，属于自然语言处理

技术介绍

[0002]由于缅甸语属于低资源语言，缅甸语文本数据较难获得，但是互联网中存在大量含有缅甸语的图像，因此，如何利用深度学习技术对缅甸语文本图像进行识别成为了关键问题，结合缅甸语图像文本识别技术获取缅甸语单语语料，可以为缅甸语机器翻译、实体识别及信息检索等自然语言处理任务提供重要的数据支撑。
[0003]缅甸语字符组合与英文、中文不同，缅甸语由基础字符、基础前字符、基础后字符、基础上字符和基础下字符构成，所以缅甸语在图像中的组合字符是由多个单字符组合而成，如图1所示，缅甸语图像中的组合字符实际上由基础字符基础上字符以及基础下字符组成，但是在图1(b,c)中，感受野内的中文和英语都是由单个字符构成的，没有明显的边缘特征，现有针对中文、英文的图像文本识别模型所利用特征序列信息主要来源于深度卷积神经网络中最后一层网络输出的特征图，取得了较好的效果，但是，这样的方式会造成部分语义信息丢失，尤其是针对缅甸语这种字符嵌套组合的语言，语义信息丢失更加明显，例如，一个感受野中的缅甸语经过卷积神经网络时，等类型的微小特征在高层语义特征图存在丢失问题，所以，主流的图像文本识别方法直接应用于缅甸语上并不适用。
[0004]目前，图像文本识别方法在中英文等大规模训练集上展现出非常强大的性能，但这依赖于大规模、高质量的训练数据，由于目前没有公开的高质量、大规模缅甸...

【技术保护点】

【技术特征摘要】
1.融合多尺度语义特征图的缅甸语图像文本识别方法，其特征在于：所述方法的具体步骤如下：Step1、对缅甸语图像数据进行预处理：通过人工方式收集缅甸语图像，利用数据增广技术对缅甸语图像进行数据扩充，将缅甸语图像进行灰度化；Step2、融合缅甸语图像的多尺度语义特征：采用残差块、卷积神经网络设计缅甸语图像特征提取网络，并利用其从缅甸语图像中获取具有语义信息的多尺度语义特征；最终将提取的多尺度语义特征通过特征上采样进行融合增强；Step3、使用MIX UP数据增强策略进行缅甸语图像文本识别模型训练：让两个训练样本进行融合，将融合结果分别与对应的缅甸语标签进行损失计算，将加权损失作为目标优化函数实现网络训练；Step4、对缅甸语图像特征提取并进行特征增强之后的特征进行字符最优预测，利用注意力机制关注图像中文字区域，同时在分类字符中加入起始以及结束标签，将输入模型的缅甸语图片进行识别得到缅甸语文本。2.根据权利要求1所述的融合多尺度语义特征图的缅甸语图像文本识别方法，其特征在于：所述Step2中，多尺度语义特征的获取如下：从缅甸语图像特征提取网络的不同阶段依次获取具有微小字符特征、字符形状特征、字符边缘特征以及字符轮廓特征的底层语义信息、具有丰富的主干特征的高层语义特征图；最终将提取的底层语义信息与高层语义特征图通过特征上采样进行融合增强。3.根据权利要求1所述的融合多尺度语义特征图的缅甸语图像文本识别方法，其特征在于：所述Step1的具体步骤为：Step1.1、缅甸语图像数据收集以及缅甸语图像数据增广：收集缅甸语真实图像数据，其中包括具有短文本的缅甸语文本信息图像、长文本的缅甸语文本信息图像；同时对缅甸语真实图像数据增加高斯噪声和椒盐噪声实现数据扩充；Step1.2、缅甸语图像灰度化：计算缅甸语图像每个像素点R、G、B三个分量的平均值，再将这个平均值赋予这个像素的三个分量，从而实现缅甸语图像的灰度化；Step1.3、分析缅甸语图像数据像素大小分布，训练样本的缅甸语图像像素高为32，宽分布于90
‑
140区间内，设置模型输入为32*100，保证识别模型支持批次训练。4.根据权利要求1所述的融合多尺度语义特征图的缅甸语图像文本识别方法，其特征在于：所述Step2的具体步骤为：Step2.1、缅甸语图像的多尺度语义特征获取：利用残差块、卷积层、归一化层设计缅甸语图像特征提取网络，自动获取缅甸语图像特征，根据不同网络深度将特征提取网络分为五个阶段，并从五个阶段当中得到获取多尺度语义特征图；Step2.2、缅甸语图像的多尺度语义特征融合：设计缅甸语特征融合网络，利用上采样和通道数叠加的方法将多尺度语义特征图进行融合，具体将存在和通道数叠加的方法将多尺度语义特征图进行融合，具体将存在字符的语义信息底层语义特征图与高层语义特征图进行融合。5.根据权利要求4所述的融合多尺度语义特征图的缅甸语图像文本识别方法，其特征在于：所述Step2.2的具体步骤为：Step2.2.1、设计融合缅甸语特征的金字塔网络，融合缅甸语多尺度语义特征图：利用上采样卷积层、连接层设计特征融合网络；特征融合输入层融合对象为缅甸语图像特征提
取网络Layer1、Layer2、Layer3、Layer4以及Layer5五阶段得到五个不同尺度的语义特征图；其中，Layer1、Layer2、Layer3阶段用于获得微小字符的特征，...

【专利技术属性】
技术研发人员：毛存礼，刘福浩，余正涛，高盛祥，王琳钦，黄于欣，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人