【技术实现步骤摘要】
一种字符识别模型的更新方法、装置及存储介质
[0001]本专利技术涉及字符识别、训练、分类领域,特别涉及一种字符识别模型的更新方法、装置及存储介质。
技术介绍
[0002]文本是人类最重要的信息来源之一,自然场景中充满了形形色色的文字符号,例如车牌号码、商店标志上的字符,各类容器表面的字符图案等。OCR技术是本领域中最常用的字符识别手段,其首先通过字符检测定位字符在图像中的区域,然后提取区域中的特征向量,最后利用分类模型进行字符识别。然而,在现实场景下,由于包含字符的图像会出现弯曲、变形等各种不规则的形状,因此,字符识别算法的优劣直接决定着字符的准确识别率。而在各种背景噪声的干扰下,如何获取字符区域中有效的特征是至关重要的。在特征提取算法中,神经网络一直是热门的存在,但是一直以来神经网络因为黑盒而被诟病。因此,迫切需要提高现实场景下字符特征提取、学习的有效性、准确性。
技术实现思路
[0003]有鉴于此,本专利技术提供了一种字符识别模型的更新方法,通过可视化训练完的神经网络来分析神经网络学习到的字符特征,增加神经网络的可解释性。当神经网络训练完成之后,利用神经网络最后一层的得分结合神经网络的链式求导原则来可视化神经网络学习到了哪些特征,只更新对特征具有决定性的神经网络参数而不是所有的神经网络参数,从而降低神经网络对错误特征的依赖,提升网络对真实类别的特征依赖,增加网络的鲁棒性,使得网络能够学习到更好的特征。
[0004]本专利技术提供了一种字符识别模型的更新方法,包括如下步骤:步骤1:采集现实 ...
【技术保护点】
【技术特征摘要】
1.一种字符识别模型的更新方法,其特征在于,包括如下步骤:步骤1:采集现实应用场景下的包含字符的图片,标注出图片上字符的位置以及图片的字符类别信息;步骤2:建立字符字典库,具体为统计训练数据中字符类别的数量,对字符类别和数字标签做映射;其中,字符类别指不同字符的个数,一个类别表示一个字符;步骤3:构建ResNet34作为主干神经网络的字符识别模型;步骤4:训练字符识别模型,得到初始字符识别模型;步骤5:利用步骤4中训练好的初始字符识别模型,在测试数据集上做分类预测,收集预测结果错误的字符图片和字符类别数据;步骤6:使用步骤5中收集到的预测结果错误的字符图片和字符类别数据,对初始字符识别模型中的部分网络参数进行更新,得到最终的字符识别模型;步骤7:使用训练好的最终的字符识别模型进行字符识别,获取字符识别结果。2.根据权利要求1所述的方法,其特征在于:所述标注出图片上字符的位置以及图片的字符类别信息,具体包括如下步骤:步骤1.1:采集包含一种或多种字符的图片,其中字符包括中文文字、英文字母、数字中的一种或多种;步骤1.2:识别图片中的字符区域,并利用矩形框标记图片上每个字符的位置,其中一个字符对应一个位置;步骤1.3:标记矩形框内字符的类别;步骤1.4:生成图片的标签文件,该标签文件包含图片上的字符位置信息和字符类别信息。3.根据权利要求1所述的方法,其特征在于:所述ResNet34神经网络包括卷积块、平均池化层、全连接层、softmax层;其中,所述卷积块由残差块堆叠而成;所述全连接层输出特征向量,通过该特征向量获取字符识别模型输出的预测类别;softmax层将全连接层的输出向量值归一化,向量元素的值表示对应字符类别的概率,通过获取softmax层中最大得分的下标,通过下标从字符字典库中找到对应的字符类别从而输出文字识别结果。4.根据权利要求3所述的方法,其特征在于:softmax层中归一化函数采用如下公式:;其中,n表示字符类别的数量;y
j
表示全连接层输出向量中第j个元素的值。5.根据权利要求1所述的方法,其特征在于:所述训练字符识别模型,得到初始字符识别模型,具体包括如下步骤:步骤4.1:利用标注好的图片和生成的标签文件,先获取图片中字符的位置,然后将字符截取出来,让当前图片中只包含一个字符类别;步骤4.2:利用预先构建好的字符字典库将字符类别进行数字映射,然后将数字转换为one
‑
hot编码;步骤4.3:随机初始化神经网络参数;步骤4.4:将当前图片送入到神经网络中,通过前向传播得到softmax层输出的字符向
量,利用交叉熵损失函数计算其与one
‑
hot编码的损失loss,交叉熵损失函数如下所示:;其中,N表示字符类别的数量;y
i
对应图片字符类别one
‑
hot编码中的第i个元素的值;p
i
为softmax层网络通过前向传播的输出值;步骤4.5:利用梯度下降法更新神经网络参数,具体为:利用loss函数计算其对网络参数的偏导,利用链式求导法则,更新网络参数,更新公式如下:;;其中,ω
i
为全连接层中权重的第i个参数,η为初始学习率;ω
i+
为更新后的权重参数,z
i
为神经网络的输出值,,b为偏置参数,x
i
为神经网络第i层的输入值,o为激活函数的输出值,o=f(z),f表示激活函数Relu,Relu为max(0,x);步骤4.6:重复所述前向传播和网络参数更新过程,使得loss逐渐变小,当达到设定的迭代次数时,停止训练,获取此时神经网络的模型作为初始字符识别模型。6.根据权利要求1所述的方法,其特征在于:所述使用步骤5中收集到的预测结果错误的字符图片和字符类别数据,对所述...
【专利技术属性】
技术研发人员:ꢀ五一IntClG零六K九零零,
申请(专利权)人:冠传网络科技南京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。