文本识别模型训练方法、文本识别方法、装置及电子设备制造方法及图纸

技术编号:32026838 阅读:27 留言:0更新日期:2022-01-22 18:57
本公开涉及一种文本识别模型训练方法、文本识别方法、装置及电子设备。文本识别模型训练方法包括:构建包括第一卷积神经网络、第一循环神经网络、第二循环神经网络和编解码网络的初始文本识别模型;将第一文本图像输入第一卷积神经网络,以输出第一文本图像的第一特征序列至第一循环神经网络和第二循环神经网络,通过第一循环神经网络输出第一特征向量标签分布,通过第二循环神经网络输出第一预测结果,由编解码网络根据第一特征向量标签分布和第一预测结果输出第一文本图像中字符序列的第一文本识别结果,用于训练初始文本识别模型,获得目标文本识别模型,以提高目标文本识别模型的可靠性。别模型的可靠性。别模型的可靠性。

【技术实现步骤摘要】
文本识别模型训练方法、文本识别方法、装置及电子设备


[0001]本公开涉及自然语言处理领域,尤其涉及一种文本识别模型训练方法、文本识别方法、装置及电子设备。

技术介绍

[0002]自然语言处理领域中,自然场景文字识别是指从携带有字符序列的图像中识别出字符序列的过程。现有技术中,字符序列的识别方法通常是基于整体分析的策略,也即,字符序列到字符序列的方法,首先,对图像进行编码,然后,再进行字符序列的解码,而直接获得整个字符序列,且现有技术中,通常借用传统的卷积循环神经网络实现字符序列的识别。

技术实现思路

[0003]本公开的目的在于,提供一种文本识别模型训练方法、文本识别方法、装置及电子设备,以解决通过现有技术训练获得的目标文本识别模型的可靠性较低的问题。
[0004]本公开第一方面提供的文本识别模型训练方法,包括:获取训练数据集,训练数据集中包括多张文本图像,以及多张文本图像中每张文本图像的字符标注信息,字符标注信息包括整体字符信息;构建初始文本识别模型,初始文本识别模型包括第一卷积神经网络、第一循环神经网络、第二循环神经网络和编解码网络;针对训练数据集中的每张第一文本图像,将第一文本图像输入第一卷积神经网络,以供第一卷积神经网络输出第一文本图像的第一特征序列至第一循环神经网络和第二循环神经网络,并通过第一循环神经网络输出第一特征序列的第一特征向量标签分布,以及通过第二循环神经网络输出第一预测结果,且由编解码网络根据第一特征向量标签分布和第一预测结果输出第一文本图像中字符序列的第一文本识别结果,第一预测结果为第一文本图像中字符序列的分词结果和实体标注信息的预测结果;在每获得一次第一文本识别结果之后,根据第一文本识别结果,以及第一文本识别结果所对应的第一文本图像的整体字符信息,对第一卷积神经网络、第一循环神经网络、第二循环神经网络和编解码网络进行训练,获得目标文本识别模型。
[0005]本公开第二方面提供的文本识别方法,包括:获取待识别文本图像;将待识别文本图像输入包括目标卷积神经网络、第一目标循环神经网络、第二目标循环神经网络和目标编解码网络的目标文本识别模型,以供目标卷积神经网络输出待识别文本图像的第八特征序列至第一目标循环神经网络和第二目标循环神经网络,并通过第一目标循环神经网络输出第八特征序列的第三特征向量标签分布,以及通过第二目标循环神经网络输出第五预测结果,且由目标编解码网络根据第三特征向量标签分布和第五预测结果输出待识别文本图像中字符序列的第二文本识别结果,第五预测结果为待识别文本图像中字符序列的分词结果和实体标注信息的预测结果。
[0006]本公开第三方面提供的文本识别模型训练装置,包括:训练数据集获取模块,用于获取训练数据集,训练数据集中包括多张文本图像,以及多张文本图像中每张文本图像的字符标注信息,字符标注信息包括整体字符信息;第一模型构建模块,用于构建初始文本识别模型,初始文本识别模型包括第一卷积神经网络、第一循环神经网络、第二循环神经网络和编解码网络;第一输入控制模块,针对训练数据集中的每张第一文本图像,将第一文本图像输入第一卷积神经网络,以供第一卷积神经网络输出第一文本图像的第一特征序列至第一循环神经网络和第二循环神经网络,并通过第一循环神经网络输出第一特征序列的第一特征向量标签分布,以及通过第二循环神经网络输出第一预测结果,且由编解码网络根据第一特征向量标签分布和第一预测结果输出第一文本图像中字符序列的第一文本识别结果,第一预测结果为第一文本图像中字符序列的分词结果和实体标注信息的预测结果;第一模型训练模块,用于在每获得一次第一文本识别结果之后,根据第一文本识别结果,以及第一文本识别结果所对应的第一文本图像的整体字符信息,对第一卷积神经网络、第一循环神经网络、第二循环神经网络和编解码网络进行训练,获得目标文本识别模型。
[0007]本公开第四方面提供的文本识别装置,包括:待识别文本图像获取模块,用于获取待识别文本图像;文本识别模块,用于将待识别文本图像输入包括目标卷积神经网络、第一目标循环神经网络、第二目标循环神经网络和目标编解码网络的目标文本识别模型,以供目标卷积神经网络输出待识别文本图像的第八特征序列至第一目标循环神经网络和第二目标循环神经网络,并通过第一目标循环神经网络输出第八特征序列的第三特征向量标签分布,以及通过第二目标循环神经网络输出第五预测结果,且由目标编解码网络根据第三特征向量标签分布和第五预测结果输出待识别文本图像中字符序列的第二文本识别结果,第五预测结果为待识别文本图像中字符序列的分词结果和实体标注信息的预测结果。
[0008]本公开第五方面提供的电子设备,包括:处理器;以及存储器,存储器上存储有计算机程序;其中,计算机程序包括指令,指令在由处理器执行时,使处理器执行本公开的第一方面所提供的文本识别模型训练方法,或使处理器执行本公开的第二方面所提供的文本识别方法。
[0009]本公开第六方面还提供了一种非瞬时计算机可读存储介质,其特征在于,存储有计算机指令,计算机指令用于使计算机执行本公开的第一方面所提供的文本识别模型训练方法,或使计算机执行本公开的第二方面所提供的文本识别方法。
[0010]本公开第七方面还提供了一种计算机程序产品,其特征在于,包括计算机程序,计算机程序在被处理器执行时实现本公开的第一方面所提供的文本识别模型训练方法,或实现处理器执行本公开的第二方面所提供的文本识别方法。
[0011]本公开提供的一个或多个技术方案中,构建了包括第一卷积神经网络、第一循环神经网络、第二循环神经网络和编解码网络这四个高性能的神经网络模型的初始文本识别模型,也即,初始文本识别模型的模型结构相较于传统的卷积循环神经网络而言,不仅包括
并列的两层循环数据网络,还包括编解码网络,在通过第一卷积神经网络输出第一样本图像的第一特征序列之后,第一循环神经网络输出第一特征序列的第一特征向量标签分布,第二循环神经网络输出第一预测结果,第一预测结果为第一文本图像中字符序列的分词结果和实体标注信息的预测结果,再由编解码网络根据第一特征向量标签分布和第一预测结果输出第一文本图像中字符序列的第一文本识别结果,最后,根据第一文本识别结果,以及第一文本识别结果所对应的第一文本图像的整体字符信息,对第一卷积神经网络、第一循环神经网络、第二循环神经网络和编解码网络进行训练,获得目标文本识别模型。显然,由于模型结构的改变,在对初始文本识别模型进行训练,获得目标文本识别模型的过程中,能够完成更为深入的学习,从而提高目标文本识别模型的可靠性。
附图说明
[0012]在下面结合附图对于示例性实施例的描述中,本公开的更多细节、特征和优点被公开,在附图中:图1示出了本公开示例性实施例提供的一种文本识别模型训练方法的流程图;图2示出了本公开示例性实施例提供的一种文本图像;图3示出了本公开示例性实施例提供的一种初始文本识别模型的示意性框图;图4示出了本公开示例性实施例提供的文本识别模型训练方法的另一种流程图;图5示出了本公开示例性实施例提供的文本识别模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本识别模型训练方法,其特征在于,包括:获取训练数据集,所述训练数据集中包括多张文本图像,以及所述多张文本图像中每张文本图像的字符标注信息,所述字符标注信息包括整体字符信息;构建初始文本识别模型,所述初始文本识别模型包括第一卷积神经网络、第一循环神经网络、第二循环神经网络和编解码网络;针对所述训练数据集中的每张第一文本图像,将所述第一文本图像输入所述第一卷积神经网络,以供所述第一卷积神经网络输出所述第一文本图像的第一特征序列至所述第一循环神经网络和所述第二循环神经网络,并通过所述第一循环神经网络输出所述第一特征序列的第一特征向量标签分布,以及通过所述第二循环神经网络输出第一预测结果,且由所述编解码网络根据所述第一特征向量标签分布和所述第一预测结果输出所述第一文本图像中字符序列的第一文本识别结果,所述第一预测结果为所述第一文本图像中字符序列的分词结果和实体标注信息的预测结果;在每获得一次所述第一文本识别结果之后,根据所述第一文本识别结果,以及所述第一文本识别结果所对应的第一文本图像的整体字符信息,对所述第一卷积神经网络、所述第一循环神经网络、所述第二循环神经网络和所述编解码网络进行训练,获得目标文本识别模型。2.根据权利要求1所述的文本识别模型训练方法,其特征在于,所述字符标注信息还包括分词结果和实体标注信息,所述构建初始文本识别模型,包括:构建初始文本处理模型,所述初始文本处理模型包括所述第一卷积神经网络、所述第一循环神经网络和所述第二循环神经网络;针对所述训练数据集中的每张第二文本图像,将所述第二文本图像输入所述第一卷积神经网络,以供所述第一卷积神经网络输出所述第二文本图像的第二特征序列至所述第一循环神经网络和所述第二循环神经网络,并通过所述第一循环神经网络输出所述第二特征序列的第二特征向量标签分布,以及通过所述第二循环神经网络输出第二预测结果,所述第二预测结果为所述第二文本图像中字符序列的分词结果和实体标注信息的预测结果;在每获得一次所述第二特征向量标签分布之后,根据所述第二特征向量标签分布,以及所述第二特征向量标签分布所对应的第二文本图像的整体字符信息,对所述第一卷积神经网络和所述第一循环神经网络进行训练;在每获得一次所述第二预测结果之后,根据所述第二预测结果,以及所述第二预测结果所对应的第二文本图像的分词结果和实体标注信息,对所述第一卷积神经网络和所述第二循环神经网络进行训练;通过所述编解码网络,以及训练之后的所述第一卷积神经网络、所述第一循环神经网络和所述第二循环神经网络构建所述初始文本识别模型。3.根据权利要求2所述的文本识别模型训练方法,其特征在于,所述构建初始文本识别模型之前,所述文本识别模型训练方法还包括:构建命名实体识别模型,所述命名实体识别模型包括所述第一卷积神经网络和所述第二循环神经网络;针对所述训练数据集中的每张第三文本图像,将所述第三文本图像输入所述第一卷积神经网络,以供所述第一卷积神经网络输出所述第三文本图像的第三特征序列至所述第二
循环神经网络,并通过所述第二循环神经网络输出第三预测结果,所述第三预测结果为所述第三文本图像中字符序列的分词结果和实体标注信息的预测结果;在每获得一次所述第三预测结果之后,根据所述第三预测结果,以及所述第三预测结果所对应的第三文本图像的分词结果和实体标注信息,对所述第一卷积神经网络和所述第二循环神经网络进行训练。4.根据权利要求3所述的文本识别模型训练方法,其特征在于,所述构建命名实体识别模型之前,所述文本识别模型训练方法还包括:构建第一卷积循环神经网络,所述第一卷积循环神经网络包括所述第一卷积神经网络和第三循环神经网络;针对所述训练数据集中的每张第四文本图像,将所述第四文本图像输入所述第一卷积神经网络,以供所述第一卷积神经网络输出所述第四文本图像的第四特征序列至所述第三循环神经网络,并通过所述第三循环神经网络输出所述第四特征序列的第三特征向量标签分布;在每获得一次所述第三特征向量标签分布之后,根据所述第三特征向量标签分布,以及所述第三特征向量标签分布所对应的第四文本图像的整体字符信息,对所述第一卷积神经网络和所述第三循环神经网络进行训练。5.根据权利要求4所述的文本识别模型训练方法,其特征在于,所述构建第一卷积循环神经网络,包括:构建变分自编码器,所述变分自编码器包括第一编码网络和第一解码网络;针对所述训练数据集中的每张第五文本图像,将所述第五文本图像输入所述第一编码网络,以供所述第一编码网络输出所述第五文本图像的第五特征序列至所述第一解码网络,并通过所述第一解码网络输出所述第五文本图像的图像构建结果;在每获得一次所述图像构建结果之后,根据所述图像构建结果,以及所述图像构建结果所对应的第五文本图像,对所述第一编码网络和所述第一解码网络进行训练;将训练之后的所述第一编码网络作为所述第一卷积神经网络,并结合所述第三循环神经网络,构建所述第一卷积循环神经网络。6.根据权利要求3所述的文本识别模型训练方法,其特征在于,所述构建命名实体识别模型之前,所述文本识别模型训练方法还包括:构建简单命名实体网络,所述简单命名实体网络包括所述第二循环神经网络;获取所述训练数据集中,每张第六文本图像中字符序列所对应的第一表征词向量;针对所述训练数据集中的每张第六文本图像,将所述第六文本图像中字符序列所对应的第一表征词向量输入所述第二循环神经网络,以通过所述第二循环神经网络输出第四预测结果,所述第四预测结果为所述第六文本图像中字符序列的分词结果和实体标注信息的预测结果;在每获得一次所述第四预测结果之后,根据所述第四预测结果,以及与所述第四预测结果对应的第六文本图像的分词结果和实体标注信息,对所述第二循环神经网络进行训练。7.根据权利要求1或2所述的文本识别模型训练方法,其特征在于,所述构建初始文本识别模型之前,所述文本识别模型训练方法还包括:
构建第二卷积循环神经网络,所述第二卷积循环神经网络包括第二卷积神经网络和所述第一循环神经网络;针对所述训练数据集中的每张第七文本图像,将所述第七文本图像输入所述第二...

【专利技术属性】
技术研发人员:刘军秦勇
申请(专利权)人:北京易真学思教育科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1