文字识别方法、装置、设备及存储介质制造方法及图纸

技术编号：37173956 阅读：34 留言：0更新日期：2023-04-20 22:43

本申请属于文字识别领域，具体涉及文字识别方法、装置设备及存储介质。其方法包括：获取图像数据，图像数据包括待识别的文字信息；获取预先训练的文字识别模型，文字识别模型包括主分支和子分支，子分支用于获取图像数据的语义信息；主分支用于使用图像数据的语义信息识别图像数据的文字信息；将图像数据输入至文字识别模型，得到识别后的文字信息；可以解决传统的文字识别方法导致文字识别准确率较低问题，由于文字识别模型在对文字识别过程中将文字的语义信息可以充分学习到，因此可以提高模型的识别准确性，从而提高文字识别的准确率。从而提高文字识别的准确率。从而提高文字识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
文字识别方法、装置、设备及存储介质

[0001]本专利技术属于文字识别领域，尤其涉及一种文字识别方法、装置设备及存储介质。

技术介绍

[0002]文字识别是指对含有文字的图像进行识别，得到计算机可识别的文字的过程。
[0003]传统的文字识别方法，包括：将待识别图像输入至预先训练的神经网络模型，该神经网络模型通过提取待识别图像的结构信息，得到一个高维度的特征向量，将特征向量输入一个带有注意力机制的双层GRU(Gated Recurrent Unit)门控循环单元，最终预测出图像中文字的特殊结构和偏旁部首的序列，从而识别出带识别图像中的文字。
[0004]然而，含有文字的图像不仅仅表达了组成文字的偏旁部首与其的空间结构，也表达了这些偏旁部首按照特定的空间结构组成后的整体文字所表达的语义信息。上述传统的文字识别方法只运用了文字图像表达的偏旁部首与其空间结构的信息，并没有使用整体图像表达的语义信息，这就导致了文字识别准确率较低的问题。

技术实现思路

[0005]本申请提供了文字识别方法、装置设备及存储介质，可以解决文字识别准确率较低的问题。
[0006]本申请提供如下技术方案：
[0007]第一方面，提供了一种文字识别方法，所述方法包括：
[0008]获取图像数据，所述图像数据包括待识别的文字信息；
[0009]获取预先训练的文字识别模型，所述文字识别模型包括主分支和子分支，所述子分支用于获取所述图像数据的语义信息；所述主分支用于使用所述图像数据的...

【技术保护点】

【技术特征摘要】
1.一种文字识别方法，其特征在于，所述方法包括：获取图像数据，所述图像数据包括待识别的文字信息；获取预先训练的文字识别模型，所述文字识别模型包括主分支和子分支，所述子分支用于获取所述图像数据的语义信息；所述主分支用于使用所述图像数据的语义信息识别所述图像数据的文字信息；将所述图像数据输入至所述文字识别模型，得到识别后的文字信息。2.根据权利要求1所述的方法，其特征在于，所述获取所述图像数据的语义信息，包括：将所述图像数据输入至所述主分支编码器中，得到所述图像数据对应的高维特征向量；获取预先训练的语义提取模型，所述语义提取模型包括一层BILSTM层和两层全连接层；将所述高维特征向量输入至预先训练的语义提取模型，得到所述图像数据的语义信息。3.根据权利要求2所述的方法，其特征在于，所述获取预先训练的语义提取模型，包括：获取预先创建的初始网络模型；获取第一训练数据，所述第一训练数据包括样本图像数据对应的样本高维特征向量和样本高维特征向量对应的标签语义信息；将所述样本高维特征向量输入至所述初始网络模型，得到第一训练结果；获取第一损失函数；将所述样本高维特征向量和所述第一训练结果输入至所述第一损失函数，得到第一损失函数值；使用所述第一损失函数值对所述初始网络模型进行迭代训练，得到语义提取模型。4.根据权利要求3所述的方法，其特征在于，所述获取第一训练数据，包括：将所述图像数据输入至基于Bert算法训练的字向量提取模型，得到图像数据...

【专利技术属性】
技术研发人员：王秋锋，张若钊，
申请(专利权)人：西交利物浦大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人