【技术实现步骤摘要】
一种基于复杂度分组的手写汉字识别方法
[0001]本专利技术属于计算机视觉
,具体涉及一种基于复杂度分组的手写汉字识别方法。
技术介绍
[0002]手写汉字的识别一直是手写体识别中的难点,首先是由于汉字数量多,其次是因为不同汉字的复杂度差异很大。在目前现有的方法中,一般是将训练集中的所有汉字放入一个独立的网络模型中进行训练;这就导致了模型的复杂度难以调整,从而影响识别效果。与此同时,相似汉字识别也一直是手写汉字识别中的难点,也是总体识别率上不去的一个重要影响因素。现有的依赖上下文的识别方法虽然对相似汉字识别率较高,但在出现病句或少数汉字识别错误时会引起连锁反应,导致大片的汉字识别错误,鲁棒性较差。
技术实现思路
[0003]本专利技术的目的是提供基于复杂度分组的手写汉字识别方法用于解决现有技术中无法根据汉字复杂程度调整识别所需的计算量,因此无法在提高模型的识别精度的同时保证模型的识别速度的技术问题。
[0004]所述的一种基于复杂度分组的手写汉字识别方法,包括下列步骤:
[0005]S1、对原有的手写汉字数据集进行复杂度划分并打上相应的标签,构建出手写汉字复杂度分组数据集;
[0006]S2、通过步骤S1构建出的分组数据集训练手写汉字复杂度分类器;
[0007]S3、从原始数据集中读取手写汉字图片,使用步骤S2中训练出的分类器确定汉字复杂度;
[0008]S4、根据步骤S3中得出的汉字复杂度,将其输入本方法设计的多分支并行网络中相适应的分支进行特征提取;< ...
【技术保护点】
【技术特征摘要】
1.一种基于复杂度分组的手写汉字识别方法,其特征在于:包括下列步骤:S1、对原有的手写汉字数据集进行复杂度划分并打上相应的标签,构建出手写汉字复杂度分组数据集;S2、通过步骤S1构建出的分组数据集训练手写汉字复杂度分类器;S3、从原始数据集中读取手写汉字图片,使用步骤S2中训练出的分类器确定汉字复杂度;S4、根据步骤S3中得出的汉字复杂度,将其输入本方法设计的多分支并行网络中相适应的分支进行特征提取;S5、采用AM
‑
softmax函数进行汉字识别,并使用交叉熵损失函数对识别结果进行训练;S6、获取实际手写体文本图片,先对其中汉字进行分割,再通过训练好的手写汉字识别网络进行识别。2.根据权利要求1所述的一种基于复杂度分组的手写汉字识别方法,其特征在于:所述步骤S1包含以下具体步骤:S11、对数据集中的每个汉字进行笔画拆分,分别数出每个汉字的基本笔画数P1和派生笔画数P2;其中,笔画的方向在书写过程中自始至终没有变化的称为基本笔画,笔画方向在书写过程发生变化的称为派生笔画;S12、设定基本笔画的权重W1、派生笔画的权重为W2;根据公式C=(P1
×
W1)+(P2
×
W2)计算每个汉字的复杂度C;S13、设置汉字的复杂度阈值数组为[a,b];也即是复杂度C<a的汉字判定为简单汉字,复杂度C≥a且C≤b的汉字判定为中等汉字,复杂度C>b的汉字判定为复杂汉字,由此对汉字进行复杂度分类。3.根据权利要求2所述的一种基于复杂度分组的手写汉字识别方法,其特征在于:所述步骤S2中设计的分类器网络结构包含三个卷积层和两个池化层,利用步骤S1构建的汉字复杂度数据集对设计的分类网络进行训练。4.根据权利要求1所述的一种基于复杂度分组的手写汉字识别方法,其特征在于:所述步骤S4获取步骤S3中分类器得出的汉字复杂度,按照简单、中等、复杂三种情况分别输入到并行多分支特征提取网络的第一、二、三条分支进行特征提取,得出对应的特征向量,所述分支即用于处理不同复杂度汉字的子网络,设于复杂度分类器的后面到识别器的前面。5.根据权利要求4所述的一种基于复杂度分组的手写汉字识别方法,其特征在于:第一条分支使用的是嵌入了CBAM的AlexNet网络,分别在AlexNet网络中的第一层卷积层和第四层卷积层之后嵌入了CBAM;第二条分支在第一条分支的基础上加入了一个InceptionA模块,特征数据经InceptionA模块处理后再由CBAM处理;第三条分支在第一条分支的基础上加入了一个InceptionB模块,特征数据经InceptionB模块处理后再由CBAM处理;InceptionA模块和InceptionB模块将原本大卷积核分解成了多...
【专利技术属性】
技术研发人员:单强达,冯子亮,刘恒宇,吕丹亚,张宇,张海强,赵正文,
申请(专利权)人:芜湖职业技术学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。