一种基于视觉语言建模网络的场景文字识别方法技术

技术编号:27773060 阅读:18 留言:0更新日期:2021-03-23 12:57
本发明专利技术公开了一种基于视觉语言建模网络的场景文字识别方法,训练过程中,通过使视觉模型直接在被遮挡的文字图像特征中识别完整的词级结果,引导视觉模型根据视觉上下文信息推理出被遮挡的文字内容,从而赋予视觉模型语言能力;因此,在不需要引入额外语言模型结构的情况下,视觉模型自适应地在视觉上下文中捕捉语言信息来增强视觉特征,从而提升识别能力。并且,整个字符级掩码的生成过程只需要原有的词级标注,不需要引入额外的标注信息;测试过程中只使用了主干网络和视觉语义推理模块进行识别,因此位置感知的掩码生成模块只在训练过程中使用,不引入额外的计算开销。

【技术实现步骤摘要】
一种基于视觉语言建模网络的场景文字识别方法
本专利技术涉及自然场景文字识别
,尤其涉及一种基于视觉语言建模网络的场景文字识别方法。
技术介绍
自然场景文字识别是一种通用的文字识别技术,已成为近年来计算机视觉与文档分析领域的热点研究方向,并且被广泛应用于自动驾驶,车牌识别,帮助视障人士等领域。该任务的目标是将图像中的文字内容转换成可编辑的文字。由于自然场景中的文字具有分辨率低下、背景复杂、易受噪声干扰等特点,导致传统的文字识别技术无法应用到自然场景中。因此,自然场景中的文字识别技术具有重大的研究意义。随着近年来深度学习技术在计算机视觉领域的发展,近期的场景文字识别方法达到了比较好的效果。这些方法都使用了额外的语言模型捕捉语言信息,通过将独立的视觉和语言信息融合的方式来提升文字图像的识别精度(例如分辨率低、背景复杂、受噪声干扰的图像)。但是这些方法存在两个问题:1)因为另外地引入了语言模型结构,导致大量的额外计算开销。2)由于在两个分开的模块中分别建模视觉信息和语言信息,导致网络很难充分考虑和有效融合两个独立的信息实现准确的文字识别。因此目前场景文字识别的速度和精度还有待提升。
技术实现思路
本专利技术的目的是提供一种基于视觉语言建模网络的场景文字识别方法,可以提升场景文字识别的速度和精度。本专利技术的目的是通过以下技术方案实现的:一种基于视觉语言建模网络的场景文字识别方法,包括:构建包含主干网络、位置感知掩码生成模块及视觉语义推理模块的视觉模型,通过训练引导视觉模型根据视觉上下文信息推理出被遮挡的字符信息,从而赋予视觉模型语言能力;训练过程包括:主干网络输出的视觉特征、以及随机生成的场景文字中的字符索引作为位置感知掩码生成模块的输入,字符索引对应的字符信息作为被遮挡的字符信息,采用弱监督互补学习的方式,学习被遮挡的字符信息、以及被遮挡后的字符信息,从而来指导被遮挡的字符信息的字符级掩码图的生成;基于被遮挡的字符信息字符级掩码图与视觉特征生成被遮挡字符信息后的特征图作为视觉语义推理模块的输入,视觉语义推理模块通过视觉上下文信息推理出被遮挡的字符信息,最终输出词级预测结果;根据词级预测结果与实际结果的损失、以及学习被遮挡的字符信息和被遮挡后的字符信息与相应的实际信息的损失构建损失函数,从而训练所述视觉模型;训练完毕后,主干网络对输入的包含场景文字的测试图像进行视觉特征提取,再通过视觉语义推理模块,获得词级识别结果。由上述本专利技术提供的技术方案可以看出,训练过程中,通过使视觉模型直接在被遮挡的文字图像特征中识别完整的词级结果,引导视觉模型根据视觉上下文信息推理出被遮挡的文字内容,从而赋予视觉模型语言能力;因此,在不需要引入额外语言模型结构的情况下,视觉模型自适应地在视觉上下文中捕捉语言信息来增强视觉特征,从而提升识别能力。并且,用于遮挡视觉特征的字符级掩码的生成过程只需要原有的词级标注,不需要引入额外的标注信息;测试过程中只使用了主干网络和视觉语义推理模块进行识别,因此位置感知的掩码生成模块只在训练过程中使用,在测试过程中不引入额外的计算开销。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。图1为本专利技术实施例提供的一种基于视觉语言建模网络的场景文字识别方法的框架图;图2为本专利技术实施例提供的位置感知掩码生成模块的原理图;图3为本专利技术实施例提供的视觉语义推理模块的原理图;图4为本专利技术实施例提供的视觉语义推理层通过从视觉上下文中提取语言信息来增强视觉特征的示意图;图5为本专利技术实施例提供的视觉语义推理模块通过学习语言信息提升识别性能的示意图;图6为本专利技术实施例提供的传统方案与本专利技术的区别示意图;图7为本专利技术实施例提供的OST数据集生成示意图。具体实施方式下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。本专利技术实施例提供一种基于视觉语言建模网络的场景文字识别方法,如图1所示,主要包括:构建包含主干网络、位置感知掩码生成模块及视觉语义推理模块的视觉模型,通过使用位置感知掩码生成模块在训练中引导视觉语义推理模块根据视觉上下文信息推理出被遮挡的字符信息,从而赋予视觉模型语言能力;训练过程包括:主干网络输出的视觉特征、以及随机生成的场景文字中的字符索引作为位置感知掩码生成模块的输入,字符索引对应的字符信息作为被遮挡的字符信息,采用弱监督互补学习的方式,学习被遮挡的字符信息、以及被遮挡后的字符信息,从而来指导被遮挡的字符信息字符级掩码图的生成;基于被遮挡的字符信息字符级掩码图与视觉特征生成被遮挡字符信息后的特征图作为视觉语义推理模块的输入,视觉语义推理模块通过视觉上下文信息推理出被遮挡的字符信息,最终输出词级预测结果;根据词级预测结果与实际结果的损失、以及学习被遮挡的字符信息和被遮挡后的字符信息与相应的实际信息的损失构建损失函数,从而训练所述视觉模型;训练完毕后,主干网络对输入的包含场景文字的测试图像进行视觉特征提取,再通过视觉语义推理模块,获得词级识别结果。图1所示的框架中,下半部分是训练阶段所涉及的操作,即位置感知的掩码生成模块只在训练过程中使用,测试过程中只使用了主干网络和视觉语义推理模块进行识别。下面结合视觉模型的组成对整个识别过程做详细的介绍。一、主干网络。本专利技术实施例中,主干网络可以采用ResNet45结构;示例性的,可以在第2,3,4stage设置步长为2,输入图片尺寸为256×64,输出大小为32×8的特征图V。二、位置感知的掩码生成模块。如图2所示,位置感知的掩码生成模块以主干网络提取的特征V和随机生成的字符索引P作为输入,输出对应位置的字符级掩码图。同时,提出了一种弱监督互补学习策略,通过两个平行的分支(即第二个分支与第三个分支)分别去学习被遮挡的字符信息和被遮挡后的字符信息来指导遮挡字符掩码的生成。如图2所示,所述位置感知掩码生成模块包含三个分支。第一个分支将视觉特征V与编码后的字符索引(即字符索引通过embedding映射层后的输出)级联,再通过Transformer模型后,经Sigmoid层生成[0,1]的掩码图Maskc,也即,被遮挡的字符信息的字符级掩码图(例如,字符“b”的掩码图)。第二个分支通过掩码图Maskc点乘视觉特征V得到被遮挡字符的语义信息;第三个分支通过1-Maskc点乘视觉特征V得到被遮挡后的字符串的语义信息,两类语义信息各自通过Transformer模型后,本文档来自技高网...

【技术保护点】
1.一种基于视觉语言建模网络的场景文字识别方法,其特征在于,包括:/n构建包含主干网络、位置感知掩码生成模块及视觉语义推理模块的视觉模型,通过训练引导视觉模型根据视觉上下文信息推理出被遮挡的字符信息,从而赋予视觉模型语言能力;/n训练过程包括:主干网络输出的视觉特征、以及随机生成的场景文字中的字符索引作为位置感知掩码生成模块的输入,字符索引对应的字符信息作为被遮挡的字符信息,采用弱监督互补学习的方式,学习被遮挡的字符信息、以及被遮挡后的字符信息,从而来指导被遮挡的字符信息的字符级掩码图的生成;基于被遮挡的字符信息字符级掩码图与视觉特征生成被遮挡字符信息后的特征图作为视觉语义推理模块的输入,视觉语义推理模块通过视觉上下文信息推理出被遮挡的字符信息,最终输出词级预测结果;根据词级预测结果与实际结果的损失、以及学习被遮挡的字符信息和被遮挡后的字符信息与相应的实际信息的损失构建损失函数,从而训练所述视觉模型;/n训练完毕后,主干网络对输入的包含场景文字的测试图像进行视觉特征提取,再通过视觉语义推理模块,获得词级识别结果。/n

【技术特征摘要】
1.一种基于视觉语言建模网络的场景文字识别方法,其特征在于,包括:
构建包含主干网络、位置感知掩码生成模块及视觉语义推理模块的视觉模型,通过训练引导视觉模型根据视觉上下文信息推理出被遮挡的字符信息,从而赋予视觉模型语言能力;
训练过程包括:主干网络输出的视觉特征、以及随机生成的场景文字中的字符索引作为位置感知掩码生成模块的输入,字符索引对应的字符信息作为被遮挡的字符信息,采用弱监督互补学习的方式,学习被遮挡的字符信息、以及被遮挡后的字符信息,从而来指导被遮挡的字符信息的字符级掩码图的生成;基于被遮挡的字符信息字符级掩码图与视觉特征生成被遮挡字符信息后的特征图作为视觉语义推理模块的输入,视觉语义推理模块通过视觉上下文信息推理出被遮挡的字符信息,最终输出词级预测结果;根据词级预测结果与实际结果的损失、以及学习被遮挡的字符信息和被遮挡后的字符信息与相应的实际信息的损失构建损失函数,从而训练所述视觉模型;
训练完毕后,主干网络对输入的包含场景文字的测试图像进行视觉特征提取,再通过视觉语义推理模块,获得词级识别结果。


2.根据权利要求1所述的一种基于视觉语言建模网络的场景文字识别方法,其特征在于,所述位置感知掩码生成模块包含三个分支;
第一个分支将视觉特征V与编码后的字符索引级联,再通过Transformer模型后,经Sigmoid层生成[0,1]的被遮挡的字符信息的字符级掩码图Maskc;
第二个分支通过掩码图Maskc点乘视觉特征V得到被遮挡字符的语义信息;第三个分支通过1-Maskc点乘视觉特征V得到被遮挡后的字符串的语义信息,两类语义信息各自通过Transformer模型后,再各自通过预测层控制第二和第三个分支的语义信息来指导掩码图Maskc的学习过程;所述第二个分支的监督为被遮挡的字符信息,所述第三个分支的监督为被遮挡后的字符串。


3.根据权利要求1所述的...

【专利技术属性】
技术研发人员:张勇东王裕鑫谢洪涛柳轩
申请(专利权)人:北京中科研究院中国科学技术大学人民网股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1