文字识别方法、装置、计算机可读介质及电子设备制造方法及图纸

技术编号：33948918 阅读：29 留言：0更新日期：2022-06-29 21:59

本公开涉及一种文字识别方法、装置、计算机可读介质及电子设备，该文字识别方法包括：获取多个包含文本的待识别图片，利用文字识别模型识别待识别图片中的文字，得到识别结果，文字识别模型是根据多个包含文本的样本图片中的字符的语义信息及位置特征训练得到的。融合字符位置信息的文字识别模型，能够有效利用样本图片中字符之间的相对位置信息，结合字符本身的语义信息，提高了文字识别的准确率。提高了文字识别的准确率。提高了文字识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
文字识别方法、装置、计算机可读介质及电子设备

[0001]本公开涉及计算机技术邻域，具体地，涉及一种文字识别方法、装置、计算机可读介质及电子设备。

技术介绍

[0002]在基于序列方法的光学字符识别(Optical Character Recognition，OCR)模型中，编码器(encoder)结构广泛被应用于Transformer网络结构中，但是这些网络往往只用标签中字符语义进行损失函数的计算，而忽略了字符之间的相对位置所包含的丰富信息。
[0003]因此，亟需一种能够融合字符位置信息的OCR识别模型。

技术实现思路

[0004]提供该
技术实现思路
部分以便以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。该
技术实现思路
部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。
[0005]第一方面，本公开提供一种文字识别方法，包括：获取包含文本的待识别图片；利用文字识别模型识别所述待识别图片中的文字，得到识别结果；其中，所述文字识别模型是根据多个包含文本的样本图片中的字符的语义信息及位置特征训练得到的。
[0006]第二方面，本公开提供一种文字识别装置，包括：获取模块，用于获取包含文本的待识别图片；处理模块，用于利用文字识别模型识别所述待识别图片中的文字，得到识别结果；其中，所述文字识别模型是根据多个包含文本的样本图片中的字符的语义信息及位置特征训练得到的。
[0007]第三方面，本公开提供一种计算机可...

【技术保护点】

【技术特征摘要】
1.一种文字识别方法，其特征在于，包括：获取包含文本的待识别图片；利用文字识别模型识别所述待识别图片中的文字，得到识别结果；其中，所述文字识别模型是根据多个包含文本的样本图片中的字符的语义信息及位置特征训练得到的。2.根据权利要求1所述的方法，其特征在于，所述文字识别模型是通过以下方式训练得到：获取所述多个包含文本的样本图片；提取所述样本图片中的图片特征，将所述图片特征转换为固定维度的序列特征；对所述固定维度的序列特征进行维度转换，得到维度转换后的序列特征；获取所述维度转换后的序列特征中的所述字符的语义信息及位置特征；利用根据所述语义信息及所述位置特征得到的损失函数，对文字识别模型进行训练。3.根据权利要求2所述的方法，其特征在于，所述语义信息包括字符分类特征、所述字符分类特征对应的分类标签，所述位置特征包括字符的位置回归特征、所述位置回归特征对应的位置标签；所述获取所述维度转换后的序列特征中的字符的语义信息及位置特征的步骤包括：获取所述维度转换后的序列特征中的字符的语义；根据所述字符的语义得到所述字符分类特征；根据所述字符分类特征从预定义的字符标签集中获取所述字符分类特征对应的所述分类标签；获取所述维度转换后的序列特征中的字符之间的相对位置；获取所述相对位置的预定义位置标签；对所述预定义标签进行归一化处理，得到所述位置回归特征及所述位置回归特征对应的位置标签。4.根据权利要求3所述的方法，其特征在于，所述根据所述语义特征及所述位置特征得到所述损失函数的方法包括：根据所述维度转换后的序列特征中字符的字符分类特征、所述字符分类特征对应的分类标签，以及位置回归特征、所述位置回归特征对应的位置标签确定所述损失函数。5.根据权利要求4所述的方法，其特征在于，所述损失函数的计算公式包括：Loss1＝CTC(Z1，G1)+λMSE(Z2，G2)其中，CTC为字符分类损失，Z1为所述字符分...

【专利技术属性】
技术研发人员：毛晓飞，黄灿，
申请(专利权)人：北京有竹居网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人