一种基于视觉语言建模网络的场景文字识别方法技术

技术编号：27773060 阅读：18 留言：0更新日期：2021-03-23 12:57

本发明专利技术公开了一种基于视觉语言建模网络的场景文字识别方法，训练过程中，通过使视觉模型直接在被遮挡的文字图像特征中识别完整的词级结果，引导视觉模型根据视觉上下文信息推理出被遮挡的文字内容，从而赋予视觉模型语言能力；因此，在不需要引入额外语言模型结构的情况下，视觉模型自适应地在视觉上下文中捕捉语言信息来增强视觉特征，从而提升识别能力。并且，整个字符级掩码的生成过程只需要原有的词级标注，不需要引入额外的标注信息；测试过程中只使用了主干网络和视觉语义推理模块进行识别，因此位置感知的掩码生成模块只在训练过程中使用，不引入额外的计算开销。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于视觉语言建模网络的场景文字识别方法
本专利技术涉及自然场景文字识别
，尤其涉及一种基于视觉语言建模网络的场景文字识别方法。
技术介绍
自然场景文字识别是一种通用的文字识别技术，已成为近年来计算机视觉与文档分析领域的热点研究方向，并且被广泛应用于自动驾驶，车牌识别，帮助视障人士等领域。该任务的目标是将图像中的文字内容转换成可编辑的文字。由于自然场景中的文字具有分辨率低下、背景复杂、易受噪声干扰等特点，导致传统的文字识别技术无法应用到自然场景中。因此，自然场景中的文字识别技术具有重大的研究意义。随着近年来深度学习技术在计算机视觉领域的发展，近期的场景文字识别方法达到了比较好的效果。这些方法都使用了额外的语言模型捕捉语言信息，通过将独立的视觉和语言信息融合的方式来提升文字图像的识别精度(例如分辨率低、背景复杂、受噪声干扰的图像)。但是这些方法存在两个问题：1)因为另外地引入了语言模型结构，导致大量的额外计算开销。2)由于在两个分开的模块中分别建模视觉信息和语言信息，导致网络很难充分考虑和有效融合两个独立的信息实现准确的文字识别。因此目前场景文字识别的速度和精度还有待提升。
技术实现思路
本专利技术的目的是提供一种基于视觉语言建模网络的场景文字识别方法，可以提升场景文字识别的速度和精度。本专利技术的目的是通过以下技术方案实现的：一种基于视觉语言建模网络的场景文字识别方法，包括：构建包含主干网络、位置感知掩码生成模块及视觉语义推理模块的视觉模型，通过训练...

【技术保护点】
1.一种基于视觉语言建模网络的场景文字识别方法，其特征在于，包括：/n构建包含主干网络、位置感知掩码生成模块及视觉语义推理模块的视觉模型，通过训练引导视觉模型根据视觉上下文信息推理出被遮挡的字符信息，从而赋予视觉模型语言能力；/n训练过程包括：主干网络输出的视觉特征、以及随机生成的场景文字中的字符索引作为位置感知掩码生成模块的输入，字符索引对应的字符信息作为被遮挡的字符信息，采用弱监督互补学习的方式，学习被遮挡的字符信息、以及被遮挡后的字符信息，从而来指导被遮挡的字符信息的字符级掩码图的生成；基于被遮挡的字符信息字符级掩码图与视觉特征生成被遮挡字符信息后的特征图作为视觉语义推理模块的输入，视觉语义推理模块通过视觉上下文信息推理出被遮挡的字符信息，最终输出词级预测结果；根据词级预测结果与实际结果的损失、以及学习被遮挡的字符信息和被遮挡后的字符信息与相应的实际信息的损失构建损失函数，从而训练所述视觉模型；/n训练完毕后，主干网络对输入的包含场景文字的测试图像进行视觉特征提取，再通过视觉语义推理模块，获得词级识别结果。/n

【技术特征摘要】
1.一种基于视觉语言建模网络的场景文字识别方法，其特征在于，包括：
构建包含主干网络、位置感知掩码生成模块及视觉语义推理模块的视觉模型，通过训练引导视觉模型根据视觉上下文信息推理出被遮挡的字符信息，从而赋予视觉模型语言能力；
训练过程包括：主干网络输出的视觉特征、以及随机生成的场景文字中的字符索引作为位置感知掩码生成模块的输入，字符索引对应的字符信息作为被遮挡的字符信息，采用弱监督互补学习的方式，学习被遮挡的字符信息、以及被遮挡后的字符信息，从而来指导被遮挡的字符信息的字符级掩码图的生成；基于被遮挡的字符信息字符级掩码图与视觉特征生成被遮挡字符信息后的特征图作为视觉语义推理模块的输入，视觉语义推理模块通过视觉上下文信息推理出被遮挡的字符信息，最终输出词级预测结果；根据词级预测结果与实际结果的损失、以及学习被遮挡的字符信息和被遮挡后的字符信息与相应的实际信息的损失构建损失函数，从而训练所述视觉模型；
训练完毕后，主干网络对输入的包含场景文字的测试图像进行视觉特征提取，再通过视觉语义推理模块，获得词级识别结果。

2.根据权利要求1所述的一种基于视觉语言建模网络的场景文字识别方法，其特征在于，所述位置感知掩码生成模块包含三个分支；
第一个分支将视觉特征V与编码后的字符索引级联，再通过Transformer模型后，经Sigmoid层生成[0，1]的被遮挡的字符信息的字符级掩码图Maskc；
第二个分支通过掩码图Maskc点乘视觉特征V得到被遮挡字符的语义信息；第三个分支通过1-Maskc点乘视觉特征V得到被遮挡后的字符串的语义信息，两类语义信息各自通过Transformer模型后，再各自通过预测层控制第二和第三个分支的语义信息来指导掩码图Maskc的学习过程；所述第二个分支的监督为被遮挡的字符信息，所述第三个分支的监督为被遮挡后的字符串。

3.根据权利要求1所述的...

【专利技术属性】
技术研发人员：张勇东，王裕鑫，谢洪涛，柳轩，
申请(专利权)人：北京中科研究院，中国科学技术大学，人民网股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人