一种字符识别模型的更新方法、装置及存储介质制造方法及图纸

技术编号:30058649 阅读:18 留言:0更新日期:2021-09-15 11:03
本申请公开了一种字符识别模型的更新方法、装置及存储介质,标注字符位置和字符类别,建立字符字典库,训练字符识别模型,得到初始字符识别模型;利用初始字符识别模型,在测试数据集上做分类预测,收集预测结果错误的字符图片和字符类别数据,利用收集到的预测结果错误的字符图片和字符类别数据,对初始字符模型中网络参数进行更新,得到最终的字符识别模型;使用训练好的最终的字符识别模型进行字符识别,获取字符识别结果。本发明专利技术分析神经网络的方法增加了神经网络的可解释性,只更新对特征具有决定性的神经网络参数,从而降低神经网络对错误特征的依赖,提升网络对真实类别的特征依赖,增加网络的鲁棒性,使得网络能够学习到更好的特征。到更好的特征。到更好的特征。

【技术实现步骤摘要】
一种字符识别模型的更新方法、装置及存储介质


[0001]本专利技术涉及字符识别、训练、分类领域,特别涉及一种字符识别模型的更新方法、装置及存储介质。

技术介绍

[0002]文本是人类最重要的信息来源之一,自然场景中充满了形形色色的文字符号,例如车牌号码、商店标志上的字符,各类容器表面的字符图案等。OCR技术是本领域中最常用的字符识别手段,其首先通过字符检测定位字符在图像中的区域,然后提取区域中的特征向量,最后利用分类模型进行字符识别。然而,在现实场景下,由于包含字符的图像会出现弯曲、变形等各种不规则的形状,因此,字符识别算法的优劣直接决定着字符的准确识别率。而在各种背景噪声的干扰下,如何获取字符区域中有效的特征是至关重要的。在特征提取算法中,神经网络一直是热门的存在,但是一直以来神经网络因为黑盒而被诟病。因此,迫切需要提高现实场景下字符特征提取、学习的有效性、准确性。

技术实现思路

[0003]有鉴于此,本专利技术提供了一种字符识别模型的更新方法,通过可视化训练完的神经网络来分析神经网络学习到的字符特征,增加神经网络的可解释性。当神经网络训练完成之后,利用神经网络最后一层的得分结合神经网络的链式求导原则来可视化神经网络学习到了哪些特征,只更新对特征具有决定性的神经网络参数而不是所有的神经网络参数,从而降低神经网络对错误特征的依赖,提升网络对真实类别的特征依赖,增加网络的鲁棒性,使得网络能够学习到更好的特征。
[0004]本专利技术提供了一种字符识别模型的更新方法,包括如下步骤:步骤1:采集现实应用场景下的包含字符的图片,利用labelme图像标注工具标注出图片上字符的位置以及图片的字符类别信息;步骤2:建立字符字典库,具体包括:统计训练数据中字符类别的数量;对字符类别和数字标签做映射;其中,字符类别指不同字符的个数,一个类别表示一个字符;步骤3:构建字符识别模型,构建ResNet34作为主干神经网络的字符识别模型;步骤4:训练字符识别模型,得到初始字符识别模型;步骤5:利用步骤4中训练好的初始字符识别模型,在测试数据集上做分类预测,收集预测结果错误的字符图片和字符类别数据;步骤6:使用步骤5中收集到的预测结果错误的字符图片和字符类别数据,对初始字符识别模型中的部分网络参数进行更新,获得最终的字符识别模型;步骤7:使用训练好的字符识别模型进行字符识别,获取字符识别结果。
[0005]本专利技术还提供了一种字符识别模型的更新装置,所述装置包括:字符标记模块、字符字典库构建模块、字符识别模型构建模块、字符识别模型训练模块、识别错误字符收集模块、字符识别模型微调模块、字符识别预测分类模块;
所述字符标记模块,用于采集现实应用场景下的包含字符的图片,利用labelme图像标注工具标注出图片上字符的位置以及图片的字符类别信息;所述符字典库构建模块,用于统计训练数据中字符类别的数量;对字符类别和数字标签做映射;其中,字符类别指不同字符的个数,一个类别表示一个字符;所述字符识别模型构建模块,用于采用ResNet34作为主干神经网络来构建字符识别模型;所述字符识别模型训练模块,用于对训练数据集进行训练,获取初始字符识别模型;所述识别错误字符收集模块,用于采用训练好的初始字符识别模型,在测试数据集上做分类预测,收集预测结果错误的字符图片和字符类别数据;所述字符识别模型调整模块,用于利用收集到的预测结果错误的字符图片和字符类别数据,对初始字符识别模型中的部分网络参数进行更新,得到最终的字符识别模型;所述字符识别预测分类模块,用于使用训练好的最终字符识别模型进行字符识别,获取字符识别结果。
[0006]在上述方案中,通过可视化训练完的神经网络来分析神经网络学习到的特征,增加神经网络的可解释性。通过模型预测的类别来找到模型判断这个类别时所依赖的特征,进一步找到决定这些特征时所依赖的网络参数。通过控制网络的错误参数来削弱模型对这部分特征的依赖,而对于真实类别的特征加强模型对这部分特征的依赖。最终实现了提高字符识别模型的精度和准度的技术效果。
附图说明
[0007]结合附图并参考以下详细说明,本公开的各实施例的特征、优点及其他方面将变得更加明显,在此以示例性而非限制性的方式示出了本公开的若干实施例,在附图中:图1是本专利技术的一种字符识别模型的更新方法的一实施例的流程示意图。
具体实施方式
[0008]为了使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作进一步地详细描述,所描述的实施例不应视为对本专利技术的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。
[0009]下面说明本专利技术实施例提供的一种字符识别模型的更新方法,如图1所示,包括如下步骤:步骤1:采集现实应用场景下的包含字符的图片,利用labelme图像标注工具标注出图片上字符的位置以及图片的字符类别信息;在该实施例中,训练数据的采集包括如下步骤:步骤1.1:采集包含一种或多种字符的图片,其中字符包括中文文字、英文字母、数字中的一种或多种;步骤1.2:利用图像识别技术识别出图片中的字符区域,并利用矩形框标记图片上每个字符的位置;其中,一个字符对应一个位置;识别该图片中的字符区域可以利用现有技术中常规的图像识别技术;
步骤1.3:标记矩形框内字符的类别;步骤1.4:生成图片的标签文件,该标签文件包含图片上的字符位置信息和字符类别信息。
[0010]优选地,本专利技术的实施例可用于车牌识别,例如对于车牌号码渝A999U9,最终生成的包含字符位置和类别信息的JSON文件中的部分内容如下:“shapes”:[{“label”:”渝”,“points”:[[47.99999999999999,128.2682926829268],[128.48780487804876,291.68292682926824]],“group_id”:null,“shape_type”:”rectangle”,“flags”:{}}步骤2:建立字符字典库,具体包括:统计训练数据中字符类别的数量;对字符类别和数字标签做映射;其中,字符类别指不同字符的个数,一个类别表示一个字符。
[0011]在该实施例中,例如识别的字符一共包含9个字符,将每个字符按照顺序与数字0

8做一一映射,得到字符字典库。
[0012]步骤3:构建字符识别模型,构建ResNet34作为主干神经网络的字符识别模型;在该实施例中,所述ResNet34神经网络包括四个卷积块、平均池化层、全连接层、softmax层;其中,所述卷积块由残差块堆叠而成;所述残差块由两个3
×
3的卷积核组成;所述平均池化层包括一个2
×
2的卷积块,对该2
×
2的卷积块区域内取平均值作为池化层的输出;通过所述全连接层输出特征向量,通过该特征向量获取字符识别模型输出的预测类别;在softmax层,通过softmax函数将全连接层的输出值归一化到[0,1]之间,向量元素的值就表示对应字符类本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种字符识别模型的更新方法,其特征在于,包括如下步骤:步骤1:采集现实应用场景下的包含字符的图片,标注出图片上字符的位置以及图片的字符类别信息;步骤2:建立字符字典库,具体为统计训练数据中字符类别的数量,对字符类别和数字标签做映射;其中,字符类别指不同字符的个数,一个类别表示一个字符;步骤3:构建ResNet34作为主干神经网络的字符识别模型;步骤4:训练字符识别模型,得到初始字符识别模型;步骤5:利用步骤4中训练好的初始字符识别模型,在测试数据集上做分类预测,收集预测结果错误的字符图片和字符类别数据;步骤6:使用步骤5中收集到的预测结果错误的字符图片和字符类别数据,对初始字符识别模型中的部分网络参数进行更新,得到最终的字符识别模型;步骤7:使用训练好的最终的字符识别模型进行字符识别,获取字符识别结果。2.根据权利要求1所述的方法,其特征在于:所述标注出图片上字符的位置以及图片的字符类别信息,具体包括如下步骤:步骤1.1:采集包含一种或多种字符的图片,其中字符包括中文文字、英文字母、数字中的一种或多种;步骤1.2:识别图片中的字符区域,并利用矩形框标记图片上每个字符的位置,其中一个字符对应一个位置;步骤1.3:标记矩形框内字符的类别;步骤1.4:生成图片的标签文件,该标签文件包含图片上的字符位置信息和字符类别信息。3.根据权利要求1所述的方法,其特征在于:所述ResNet34神经网络包括卷积块、平均池化层、全连接层、softmax层;其中,所述卷积块由残差块堆叠而成;所述全连接层输出特征向量,通过该特征向量获取字符识别模型输出的预测类别;softmax层将全连接层的输出向量值归一化,向量元素的值表示对应字符类别的概率,通过获取softmax层中最大得分的下标,通过下标从字符字典库中找到对应的字符类别从而输出文字识别结果。4.根据权利要求3所述的方法,其特征在于:softmax层中归一化函数采用如下公式:;其中,n表示字符类别的数量;y
j
表示全连接层输出向量中第j个元素的值。5.根据权利要求1所述的方法,其特征在于:所述训练字符识别模型,得到初始字符识别模型,具体包括如下步骤:步骤4.1:利用标注好的图片和生成的标签文件,先获取图片中字符的位置,然后将字符截取出来,让当前图片中只包含一个字符类别;步骤4.2:利用预先构建好的字符字典库将字符类别进行数字映射,然后将数字转换为one

hot编码;步骤4.3:随机初始化神经网络参数;步骤4.4:将当前图片送入到神经网络中,通过前向传播得到softmax层输出的字符向
量,利用交叉熵损失函数计算其与one

hot编码的损失loss,交叉熵损失函数如下所示:;其中,N表示字符类别的数量;y
i
对应图片字符类别one

hot编码中的第i个元素的值;p
i
为softmax层网络通过前向传播的输出值;步骤4.5:利用梯度下降法更新神经网络参数,具体为:利用loss函数计算其对网络参数的偏导,利用链式求导法则,更新网络参数,更新公式如下:;;其中,ω
i
为全连接层中权重的第i个参数,η为初始学习率;ω
i+
为更新后的权重参数,z
i
为神经网络的输出值,,b为偏置参数,x
i
为神经网络第i层的输入值,o为激活函数的输出值,o=f(z),f表示激活函数Relu,Relu为max(0,x);步骤4.6:重复所述前向传播和网络参数更新过程,使得loss逐渐变小,当达到设定的迭代次数时,停止训练,获取此时神经网络的模型作为初始字符识别模型。6.根据权利要求1所述的方法,其特征在于:所述使用步骤5中收集到的预测结果错误的字符图片和字符类别数据,对所述...

【专利技术属性】
技术研发人员:ꢀ五一IntClG零六K九零零
申请(专利权)人:冠传网络科技南京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1