融合多尺度语义特征图的缅甸语图像文本识别方法及装置制造方法及图纸

技术编号:31792692 阅读:25 留言:0更新日期:2022-01-08 10:51
本发明专利技术涉及融合多尺度语义特征图的缅甸语图像文本识别方法及装置,属于自然语言处理领域。针对缅甸语图像字符的结构特点,本发明专利技术提出了一种融合多尺度语义特征图的缅甸语图像文本识别方法,主要包括缅甸语图像文本数据预处理、融合多尺度语义特征图的缅甸语识别模型、基于MIX UP数据增强策略的缅甸语图像文本识别模型训练、缅甸语图像文本识别等四个部分构成。本发明专利技术所提方法能够有效地融合缅甸语图像的字符结构特征提升缅甸语图像文本识别模型性能,对东南亚图像文本识别具有理论和实际应用价值。应用价值。应用价值。

【技术实现步骤摘要】
融合多尺度语义特征图的缅甸语图像文本识别方法及装置


[0001]本专利技术涉及融合多尺度语义特征图的缅甸语图像文本识别方法及装置,属于自然语言处理


技术介绍

[0002]由于缅甸语属于低资源语言,缅甸语文本数据较难获得,但是互联网中存在大量含有缅甸语的图像,因此,如何利用深度学习技术对缅甸语文本图像进行识别成为了关键问题,结合缅甸语图像文本识别技术获取缅甸语单语语料,可以为缅甸语机器翻译、实体识别及信息检索等自然语言处理任务提供重要的数据支撑。
[0003]缅甸语字符组合与英文、中文不同,缅甸语由基础字符、基础前字符、基础后字符、基础上字符和基础下字符构成,所以缅甸语在图像中的组合字符是由多个单字符组合而成,如图1所示,缅甸语图像中的组合字符实际上由基础字符基础上字符以及基础下字符组成,但是在图1(b,c)中,感受野内的中文和英语都是由单个字符构成的,没有明显的边缘特征,现有针对中文、英文的图像文本识别模型所利用特征序列信息主要来源于深度卷积神经网络中最后一层网络输出的特征图,取得了较好的效果,但是,这样的方式会造成部分语义信息丢失,尤其是针对缅甸语这种字符嵌套组合的语言,语义信息丢失更加明显,例如,一个感受野中的缅甸语经过卷积神经网络时,等类型的微小特征在高层语义特征图存在丢失问题,所以,主流的图像文本识别方法直接应用于缅甸语上并不适用。
[0004]目前,图像文本识别方法在中英文等大规模训练集上展现出非常强大的性能,但这依赖于大规模、高质量的训练数据,由于目前没有公开的高质量、大规模缅甸语文字识别数据集,通过合成方式构建的缅甸语图像数据集图像背景复杂、图片质量低下,导致特征缺失的问题更为严重,利用常规的网络训练策略得到的模型往往会使模型泛化能力较弱。

技术实现思路

[0005]本专利技术提供了融合多尺度语义特征图的缅甸语图像文本识别方法及装置,以用于缓解复杂背景下缅甸语字符丢失的问题,提升模型训练样本的多样性,以及提升复杂背景下模型的识别性能。
[0006]本专利技术的技术方案是:第一方面,本专利技术提供融合多尺度语义特征图的缅甸语图像文本识别方法,所述方法的具体步骤如下:
[0007]Step1、对缅甸语图像数据进行预处理:通过人工方式收集缅甸语图像,利用数据增广技术对缅甸语图像进行数据扩充,将缅甸语图像进行灰度化;
[0008]Step2、融合缅甸语图像的多尺度语义特征:采用残差块、卷积神经网络设计缅甸语图像特征提取网络,并利用其从缅甸语图像中获取具有语义信息的多尺度语义特征;最终将提取的多尺度语义特征通过特征上采样进行融合增强;
[0009]Step3、使用MIX UP数据增强策略进行缅甸语图像文本识别模型训练:让两个训练
样本进行融合,将融合结果分别与对应的缅甸语标签进行损失计算,将加权损失作为目标优化函数实现网络训练;
[0010]Step4、对缅甸语图像特征提取并进行特征增强之后的特征进行字符最优预测,利用注意力机制关注图像中文字区域,同时在分类字符中加入起始以及结束标签,将输入模型的缅甸语图片进行识别得到缅甸语文本。
[0011]作为本专利技术的进一步方案,所述Step2中,多尺度语义特征的获取如下:从缅甸语图像特征提取网络的不同阶段依次获取具有微小字符特征、字符形状特征、字符边缘特征以及字符轮廓特征的底层语义信息、具有丰富的主干特征的高层语义特征特征图;最终将提取的底层语义信息与高层语义特征特征图通过特征上采样进行融合增强。
[0012]作为本专利技术的进一步方案,所述Step1的具体步骤为:
[0013]Step1.1、缅甸语图像数据收集以及缅甸语图像数据增广:收集缅甸语真实图像数据,其中包括具有短文本的缅甸语文本信息图像、长文本的缅甸语文本信息图像;同时对缅甸语真实图像数据增加高斯噪声和椒盐噪声实现数据扩充;
[0014]Step1.2、缅甸语图像灰度化:计算缅甸语图像每个像素点R、G、B三个分量的平均值,再将这个平均值赋予这个像素的三个分量,从而实现缅甸语图像的灰度化;
[0015]Step1.3、分析缅甸语图像数据像素大小分布,训练样本的缅甸语图像像素高为32,宽分布于90

140区间内,设置模型输入为32*100,保证识别模型支持批次训练。
[0016]作为本专利技术的进一步方案,所述Step2的具体步骤为:
[0017]Step2.1、缅甸语图像的多尺度语义特征获取:利用残差块、卷积层、归一化层设计缅甸语图像特征提取网络,自动获取缅甸语图像特征,根据不同网络深度将特征提取网络分为五个阶段,并从五个阶段当中得到获取多尺度语义特征图;
[0018]Step2.2、缅甸语图像的多尺度语义特征融合:设计缅甸语特征融合网络,利用上采样和通道数叠加的方法将多尺度语义特征图进行融合,具体将存在采样和通道数叠加的方法将多尺度语义特征图进行融合,具体将存在字符的语义信息底层语义特征图与高层语义特征图进行融合。
[0019]作为本专利技术的进一步方案,所述Step2.2的具体步骤为:
[0020]Step2.2.1、设计融合缅甸语特征的金字塔网络,融合缅甸语多尺度语义特征图:利用上采样卷积层、连接层设计特征融合网络;特征融合输入层融合对象为缅甸语图像特征提取网络Layer1、Layer2、Layer3、Layer4以及Layer5五阶段得到五个不同尺度的语义特征图;其中,Layer1、Layer2、Layer3阶段用于获得微小字符的特征,Layer4和Layer5阶段具有更丰富以及正常大小字符的特征;
[0021]Step2.2.2、高层语义特征图、底层语义信息融合:采用通道数叠加以及双线性插值方法实现高层语义特征图与低层语义信息特征图融合;对于融合的五个多尺度特征将被表示为C1、C2、C3、C4、C5,融合之前减少C2、C3、C4、C5特征图的通道数以得到新的特征图{M2、M3、M4、M5}:
[0022]M
i
=Reduce(C
i
)
[0023]通过减少初始的语义特征图通道数,保证用最少的特征图保留缅甸图像特征信息;减少特征图大小的策略是利用通道数为128、大小为1*1卷积核以1的步长进行卷积计算,最终得到的特征图{M2、M3、M4、M5}的通道数都为128;
[0024]再将M5进行卷积计算得到高层语义特征图P5,基于双线性插值的上采样方法将特
征图P5放大到M4大小,将处理之后的结果与特征图M3进行相加操作以得到融合特征图P4,利用同样的方式最终得到融合特征图{P2、P3、P4、P5},最终将{P3、P4、P5}三种类型的融合特征图上采样到P2大小,再进行通道叠加操作以起到特征增强的作用,得到最终的增强特征图H5。
[0025]作为本专利技术的进一步方案,所述Step4的具体步骤为:
[0026]Step4.1、将输入的增强特征图H5转换为特征序列:为从缅甸语图像特征中获取具有上下文信本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.融合多尺度语义特征图的缅甸语图像文本识别方法,其特征在于:所述方法的具体步骤如下:Step1、对缅甸语图像数据进行预处理:通过人工方式收集缅甸语图像,利用数据增广技术对缅甸语图像进行数据扩充,将缅甸语图像进行灰度化;Step2、融合缅甸语图像的多尺度语义特征:采用残差块、卷积神经网络设计缅甸语图像特征提取网络,并利用其从缅甸语图像中获取具有语义信息的多尺度语义特征;最终将提取的多尺度语义特征通过特征上采样进行融合增强;Step3、使用MIX UP数据增强策略进行缅甸语图像文本识别模型训练:让两个训练样本进行融合,将融合结果分别与对应的缅甸语标签进行损失计算,将加权损失作为目标优化函数实现网络训练;Step4、对缅甸语图像特征提取并进行特征增强之后的特征进行字符最优预测,利用注意力机制关注图像中文字区域,同时在分类字符中加入起始以及结束标签,将输入模型的缅甸语图片进行识别得到缅甸语文本。2.根据权利要求1所述的融合多尺度语义特征图的缅甸语图像文本识别方法,其特征在于:所述Step2中,多尺度语义特征的获取如下:从缅甸语图像特征提取网络的不同阶段依次获取具有微小字符特征、字符形状特征、字符边缘特征以及字符轮廓特征的底层语义信息、具有丰富的主干特征的高层语义特征图;最终将提取的底层语义信息与高层语义特征图通过特征上采样进行融合增强。3.根据权利要求1所述的融合多尺度语义特征图的缅甸语图像文本识别方法,其特征在于:所述Step1的具体步骤为:Step1.1、缅甸语图像数据收集以及缅甸语图像数据增广:收集缅甸语真实图像数据,其中包括具有短文本的缅甸语文本信息图像、长文本的缅甸语文本信息图像;同时对缅甸语真实图像数据增加高斯噪声和椒盐噪声实现数据扩充;Step1.2、缅甸语图像灰度化:计算缅甸语图像每个像素点R、G、B三个分量的平均值,再将这个平均值赋予这个像素的三个分量,从而实现缅甸语图像的灰度化;Step1.3、分析缅甸语图像数据像素大小分布,训练样本的缅甸语图像像素高为32,宽分布于90

140区间内,设置模型输入为32*100,保证识别模型支持批次训练。4.根据权利要求1所述的融合多尺度语义特征图的缅甸语图像文本识别方法,其特征在于:所述Step2的具体步骤为:Step2.1、缅甸语图像的多尺度语义特征获取:利用残差块、卷积层、归一化层设计缅甸语图像特征提取网络,自动获取缅甸语图像特征,根据不同网络深度将特征提取网络分为五个阶段,并从五个阶段当中得到获取多尺度语义特征图;Step2.2、缅甸语图像的多尺度语义特征融合:设计缅甸语特征融合网络,利用上采样和通道数叠加的方法将多尺度语义特征图进行融合,具体将存在和通道数叠加的方法将多尺度语义特征图进行融合,具体将存在字符的语义信息底层语义特征图与高层语义特征图进行融合。5.根据权利要求4所述的融合多尺度语义特征图的缅甸语图像文本识别方法,其特征在于:所述Step2.2的具体步骤为:Step2.2.1、设计融合缅甸语特征的金字塔网络,融合缅甸语多尺度语义特征图:利用上采样卷积层、连接层设计特征融合网络;特征融合输入层融合对象为缅甸语图像特征提
取网络Layer1、Layer2、Layer3、Layer4以及Layer5五阶段得到五个不同尺度的语义特征图;其中,Layer1、Layer2、Layer3阶段用于获得微小字符的特征,...

【专利技术属性】
技术研发人员:毛存礼刘福浩余正涛高盛祥王琳钦黄于欣
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1