本公开涉及人工智能技术领域,具体涉及深度学习、图像处理、计算机视觉技术领域,可应用于OCR等场景。具体实现方案为:基于图像样本对第一神经网络进行训练得到视觉特征提取模型;基于文字样本对第二神经网络进行训练得到语义特征提取模型;基于图像样本对视觉特征提取模型进行训练;基于视觉特征提取模型训练过程中输出的视觉特征,获取图像样本对应的文本;基于文本对语义特征提取模型进行训练,直至视觉特征提取模型和语义特征提取模型收敛。在对文字识别模型进行训练之前,对用于提取视觉特征的子模型和提取语义特征的子模型分开进行预训练,提高文字识别模型的鲁棒性,从而提高文字识别的精度。文字识别的精度。文字识别的精度。
【技术实现步骤摘要】
文字识别方法、装置、模型训练方法、电子设备及介质
[0001]本公开涉及人工智能
,具体涉及深度学习、图像处理、计算机视觉
,可应用于OCR(optical character recognition,光学字符识别)等场景。
技术介绍
[0002]随着计算资源的更新迭代和深度学习的发展,OCR识别技术已日渐成熟,在交通、卡证、交通等场景中发挥重要作用,但自然场景中的图片不可避免会存在光线、噪声等干扰。另外,由于人工拍摄的原因,有时会存在拍摄不完整/有遮挡的情况,影响OCR的识别效果。
[0003]现有的文字识别方法包括:输入带有文字的图片,框选出文字候选区域;再基于候选框从原图中抠出对应的文字区域,输入文字识别模型中进行文字识别,得到最终的识别结果。一方面,在面对光照、噪声等外界干扰时,可以通过增加相应的训练数据来提高模型对某种干扰的鲁棒性,但收集数据/生成数据、标注数据、模型训练等流程均需要时间和人力,成本较高,且模型的学习能力受模型结构的限制,可能无法学习到所有的场景。另一方面,当图片中的字符不完整时,可能导致模型的误识别或漏识别,当前比较有效的方法是通过对识别结果的纠错来进行矫正,而这种两阶段的识别方法性能较差,矫正效果完全取决于纠错模块,落地应用的难度较大。
技术实现思路
[0004]本公开提供了一种文字识别方法、文字识别装置、文字识别模型的训练方法、训练装置、电子设备以及存储介质。
[0005]根据本公开的第一方面,提供了一种模型训练方法,包括:
[0006]基于图像样本对第一神经网络进行训练得到视觉特征提取模型;
[0007]基于文字样本对第二神经网络进行训练得到语义特征提取模型;
[0008]基于所述图像样本对所述视觉特征提取模型进行训练;
[0009]基于所述视觉特征提取模型训练过程中输出的所述视觉特征,获取所述图像样本对应的文本;
[0010]基于所述文本对所述语义特征提取模型进行训练,直至所述视觉特征提取模型和语义特征提取模型收敛。
[0011]根据本公开的第二方面,提供了一种文字识别方法,包括:
[0012]获取待识别文字图像;
[0013]提取所述待识别文字图像的视觉特征;
[0014]基于所述视觉特征提取得到语义特征;
[0015]将所述视觉特征与所述语义特征进行特征融合;
[0016]基于所述特征融合后的特征进行文本预测得到文字识别结果。
[0017]根据本公开的第三方面,提供了一种模型训练装置,包括:
[0018]第一训练模块,被配置为基于图像样本对第一神经网络进行训练得到视觉特征提取模型;
[0019]第二训练模块,被配置为基于文字样本对第二神经网络进行训练得到语义特征提取模型;
[0020]第三训练模块,被配置为基于所述图像样本对所述视觉特征提取模型进行训练;
[0021]所述第三训练模块基于所述视觉特征提取模型训练过程中输出的所述视觉特征,获取所述图像样本对应的文本;
[0022]所述第三训练模块基于所述文本对所述语义特征提取模型进行训练,直至所述视觉特征提取模型和语义特征提取模型收敛。
[0023]根据本公开的第四方面,提供了一种文字识别装置,包括:
[0024]获取模块,被配置为获取待识别文字图像;
[0025]第一特征提取模块,被配置为提取所述待识别文字图像的视觉特征;
[0026]第二特征提取模块,被配置为基于所述视觉特征提取得到语义特征;
[0027]特征融合模块,被配置为将所述视觉特征与所述语义特征进行特征融合;
[0028]文字识别模块,被配置为基于所述特征融合后的特征进行文本预测得到文字识别结果。
[0029]根据本公开的第五方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述技术方案中任一项所述的方法。
[0030]根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据上述技术方案中任一项所述的方法。
[0031]根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据上述技术方案中任一项所述的方法。
[0032]本公开提供了一种文字识别方法、文字识别装置、模型训练方法、模型训练装置、电子设备及存储介质,在对文字识别模型进行训练之前,对用于提取视觉特征的子模型和提取语义特征的子模型分开进行预训练,提高文字识别模型的鲁棒性,提高文字识别的精度。
[0033]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0034]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0035]图1是本公开实施例中的文字识别模型训练方法的步骤示意图;
[0036]图2是本公开实施例中的视觉特征提取模型的训练步骤示意图;
[0037]图3是本公开实施例中的语义特征提取模型的训练步骤示意图;
[0038]图4是本公开实施例中的文字识别方法的流程示意图;
[0039]图5是本公开实施例中的文字识别方法的步骤示意图;
[0040]图6是本公开实施例中的模型训练装置的原理框图;
[0041]图7是本公开实施例中的文字识别装置的原理框图;
[0042]图8是本公开实施例中的示例电子设备的示意性框图。
具体实施方式
[0043]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0044]本公开提供了一种模型训练方法,如图1所示,包括:
[0045]步骤S101,基于图像样本对第一神经网络进行训练得到视觉特征提取模型。图像样本可以是包含文字的图像数据,如图2所示,第一神经网络的输入可以是包含行文字的图片。基于自监督的原则,第一神经网络的基本结构可以包括Encoder(编码)模块201和Decoder(解码)模块202,Encoder模块201用于提取图像特征,Decoder模块202用于重建输入,模型训练的loss为输出和输入的重建损失(一般为L2 loss)。待模型训练收敛后,即具备提取视觉特征的能力。
[0046]步骤S102,基于文字样本对第二神经网络进行训练得到语义特征提取模型。文字样本可以采用纯文本数据,如图3所示,第本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种模型训练方法,包括:基于图像样本对第一神经网络进行训练得到视觉特征提取模型;基于文字样本对第二神经网络进行训练得到语义特征提取模型;基于所述图像样本对所述视觉特征提取模型进行训练;基于所述视觉特征提取模型训练过程中输出的所述视觉特征,获取所述图像样本对应的文本;基于所述文本对所述语义特征提取模型进行训练,直至所述视觉特征提取模型和语义特征提取模型收敛。2.根据权利要求1所述的方法,其中,所述基于所述文字样本对第二神经网络进行训练得到语义特征提取模型包括:对所述文字样本中的至少一个字符进行随机屏蔽;将进行所述随机屏蔽后的所述文字样本中的所有字符转换为对应的第一字符识别码;将所述第一字符识别码输入所述第二神经网络进行训练,得到所述语义特征提取模型。3.根据权利要求1所述的方法,其中,所述基于所述文本对所述语义特征提取模型进行训练包括:将所述文本中的字符转换为对应的第二字符识别码;将所述第二字符识别码输入所述语义特征提取模型进行训练。4.一种文字识别方法,包括:获取待识别文字图像;提取所述待识别文字图像的视觉特征;基于所述视觉特征提取得到语义特征;将所述视觉特征与所述语义特征进行特征融合;基于所述特征融合后的特征进行文本预测得到文字识别结果。5.根据权利要求4所述的方法,其中,所述基于所述视觉特征提取得到语义特征包括:对所述视觉特征进行分类得到所述待识别文字图像对应的字符;基于所述字符计算得到对应的字符识别码;基于所述字符识别码提取得到所述语义特征。6.根据权利要求4所述的方法,还包括:所述将所述视觉特征与所述语义特征进行融合之前,将所述视觉特征映射到与所述语义特征同一特征空间。7.一种模型训练装置,包括:第一训练模块,被配置为基于图像样本对第一神经网络进行训练得到视觉特征提取模型;第二训练模块,被配置为基于文字样本对第二神经网络进行训练得到语义特征提取模型;第三训练模块,被配置为基于所述图像样本对所述视觉特征提取模型进行训练;所述第三训练模块基于所述视觉特征提取模型训练过程中输出的所述视觉特征,获取所述图像样本对应的文本;所述第三训练模块基于所述文本对所述语义特征提取模型进行训练,直至所述视觉特
征提...
【专利技术属性】
技术研发人员:乔美娜,吕鹏原,刘珊珊,章成全,姚锟,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。