本申请属于文字识别领域,具体涉及文字识别方法、装置设备及存储介质。其方法包括:获取图像数据,图像数据包括待识别的文字信息;获取预先训练的文字识别模型,文字识别模型包括主分支和子分支,子分支用于获取图像数据的语义信息;主分支用于使用图像数据的语义信息识别图像数据的文字信息;将图像数据输入至文字识别模型,得到识别后的文字信息;可以解决传统的文字识别方法导致文字识别准确率较低问题,由于文字识别模型在对文字识别过程中将文字的语义信息可以充分学习到,因此可以提高模型的识别准确性,从而提高文字识别的准确率。从而提高文字识别的准确率。从而提高文字识别的准确率。
【技术实现步骤摘要】
文字识别方法、装置、设备及存储介质
[0001]本专利技术属于文字识别领域,尤其涉及一种文字识别方法、装置设备及存储介质。
技术介绍
[0002]文字识别是指对含有文字的图像进行识别,得到计算机可识别的文字的过程。
[0003]传统的文字识别方法,包括:将待识别图像输入至预先训练的神经网络模型,该神经网络模型通过提取待识别图像的结构信息,得到一个高维度的特征向量,将特征向量输入一个带有注意力机制的双层GRU(Gated Recurrent Unit)门控循环单元,最终预测出图像中文字的特殊结构和偏旁部首的序列,从而识别出带识别图像中的文字。
[0004]然而,含有文字的图像不仅仅表达了组成文字的偏旁部首与其的空间结构,也表达了这些偏旁部首按照特定的空间结构组成后的整体文字所表达的语义信息。上述传统的文字识别方法只运用了文字图像表达的偏旁部首与其空间结构的信息,并没有使用整体图像表达的语义信息,这就导致了文字识别准确率较低的问题。
技术实现思路
[0005]本申请提供了文字识别方法、装置设备及存储介质,可以解决文字识别准确率较低的问题。
[0006]本申请提供如下技术方案:
[0007]第一方面,提供了一种文字识别方法,所述方法包括:
[0008]获取图像数据,所述图像数据包括待识别的文字信息;
[0009]获取预先训练的文字识别模型,所述文字识别模型包括主分支和子分支,所述子分支用于获取所述图像数据的语义信息;所述主分支用于使用所述图像数据的语义信息识别所述图像数据的文字信息;
[0010]将所述图像数据输入至所述文字识别模型,得到识别后的文字信息。
[0011]可选地,所述获取所述图像数据的语义信息,包括:
[0012]将所述图像数据输入至所述主分支编码器中,得到所述图像数据对应的高维特征向量;
[0013]获取预先训练的语义提取模型,所述语义提取模型包括一层BILSTM层和两层全连接层;
[0014]将所述高维特征向量输入至预先训练的语义提取模型,得到所述图像数据的语义信息。
[0015]可选地,所述获取预先训练的语义提取模型,包括:
[0016]获取预先创建的初始网络模型;
[0017]获取第一训练数据,所述第一训练数据包括样本图像数据对应的样本高维特征向量和样本高维特征向量对应的标签语义信息;
[0018]将所述样本高维特征向量输入至所述初始网络模型,得到第一训练结果;
[0019]获取第一损失函数;
[0020]将所述样本高维特征向量和所述第一训练结果输入至所述第一损失函数,得到第一损失函数值;
[0021]使用所述第一损失函数值对所述初始网络模型进行迭代训练,得到语义提取模型。
[0022]可选地,所述获取第一训练数据,包括:
[0023]将所述图像数据输入至基于Bert算法训练的字向量提取模型,得到图像数据对应的字向量;
[0024]将所述图像数据作为样本图像数据;
[0025]将所述图像数据对应的字向量作为样本高维特征向量对应的标签语义信息。
[0026]可选地,所述编码器基于稠密连接网络生成。
[0027]可选地,所述稠密连接网络包括密集块、平均池化层和最大池化层。
[0028]可选地,所述主分支包括解码器和编码器,所述编码器基于注意力机制生成;所述获取预先训练的文字识别模型,包括:
[0029]将语义信息和编码器生成的高维特征向量输入解码器中得到预测结果;
[0030]基于所述预测结果与损失函数确定所述文字识别模型。
[0031]第二方面,提供了一种文字识别装置,所述装置包括:
[0032]第一获取模块,用于获取图像数据,所述图像数据包括待识别的文字信息;
[0033]第二获取模块,用于获取预先训练的文字识别模型,所述文字识别模型包括主分支和子分支,所述子分支用于获取所述图像数据的语义信息;所述主分支用于使用所述图像数据的语义信息识别所述图像数据的文字信息;
[0034]文字识别模块,用于将所述图像数据输入至所述文字识别模型,得到识别后的文字信息。
[0035]第三方面,提供了一种电子设备,所述设备包括处理器和存储器;所述存储器中存储有程序,所述程序由所述处理器加载并执行以实现如第一方面所述的文字识别方法。
[0036]第四方面,提供了一种计算机可读存储介质,所述存储介质中存储有程序,所述程序被处理器执行时用于实现如第一方面所述的文字识别方法。
[0037]本申请的有益效果在于:通过获取图像数据,所述图像数据包括待识别的文字信息;获取预先训练的文字识别模型,所述文字识别模型包括主分支和子分支,所述子分支用于获取所述图像数据的语义信息;所述主分支用于使用所述图像数据的语义信息识别所述图像数据的文字信息;将所述图像数据输入至所述文字识别模型,得到识别后的文字信息;可以解决传统的文字识别方法导致文字识别准确率较低问题,由于文字识别模型在对文字识别过程中将文字的语义信息可以充分学习到,避免了如传统的文字识别方法只运用了文字图像表达的偏旁部首与其空间结构的信息,并没有使用整体图像表达的语义信息的问题,因此可以提高模型的识别准确性,从而提高文字识别的准确率。
【附图说明】
[0038]图1是本申请一个实施例提供的文字识别方法的流程图;
[0039]图2是本申请一个实施例提供的稠密连接网络的结构图;
[0040]图3是本申请一个实施例提供的文字识别模型的训练过程;
[0041]图4是本申请一个实施例提供的文字识别模型的训练过程的示意图;
[0042]图5是本申请一个实施例提供的文字识别装置的框图;
[0043]图6是本申请一个实施例提供的电子设备的框图。
【具体实施方式】
[0044]下面将结合附图对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
[0045]需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
[0046]在申请中,在未作相反说明的情况下,使用的方位词如“上、下、顶、底”通常是针对附图所示的方向而言的,或者是针对部件本身在竖直、垂直或重力方向上而言的;同样地,为便于理解和描述,“内、外”是指相对于各部件本身的轮廓的内、外,但上述方位词并不用于限制本申请。
[0047]下面对本申请提供的文字识别方法进行详细介绍。
[0048]可选地,本申请提供的文字识别方法的执行主体为电子设备,该电子设备可以为计算机、手机、平板电脑、摄像头等终端,或者也可以为服务器,本实施例不对电子设备的实现本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种文字识别方法,其特征在于,所述方法包括:获取图像数据,所述图像数据包括待识别的文字信息;获取预先训练的文字识别模型,所述文字识别模型包括主分支和子分支,所述子分支用于获取所述图像数据的语义信息;所述主分支用于使用所述图像数据的语义信息识别所述图像数据的文字信息;将所述图像数据输入至所述文字识别模型,得到识别后的文字信息。2.根据权利要求1所述的方法,其特征在于,所述获取所述图像数据的语义信息,包括:将所述图像数据输入至所述主分支编码器中,得到所述图像数据对应的高维特征向量;获取预先训练的语义提取模型,所述语义提取模型包括一层BILSTM层和两层全连接层;将所述高维特征向量输入至预先训练的语义提取模型,得到所述图像数据的语义信息。3.根据权利要求2所述的方法,其特征在于,所述获取预先训练的语义提取模型,包括:获取预先创建的初始网络模型;获取第一训练数据,所述第一训练数据包括样本图像数据对应的样本高维特征向量和样本高维特征向量对应的标签语义信息;将所述样本高维特征向量输入至所述初始网络模型,得到第一训练结果;获取第一损失函数;将所述样本高维特征向量和所述第一训练结果输入至所述第一损失函数,得到第一损失函数值;使用所述第一损失函数值对所述初始网络模型进行迭代训练,得到语义提取模型。4.根据权利要求3所述的方法,其特征在于,所述获取第一训练数据,包括:将所述图像数据输入至基于Bert算法训练的字向量提取模型,得到图像数据...
【专利技术属性】
技术研发人员:王秋锋,张若钊,
申请(专利权)人:西交利物浦大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。