一种基于级联组注意力单视觉模型的场景文字识别方法技术

技术编号：43196802 阅读：10 留言：0更新日期：2024-11-01 20:17

本发明专利技术公开了一种基于级联组注意力单视觉模型的场景文字识别方法。本发明专利技术提出了级联组注意力单视觉模型，将待识别图像输入到训练好的级联组注意力单视觉模型中，输出获得文字识别结果。级联组注意力单视觉模型中，首先利用矫正网络对待识别图像的不规则场景文字进行矫正，得到矫正后的新图像；再经过双层渐进卷积，得到图像的字符组件嵌入；接着通过高度逐渐下采样的三个特征提取阶段；最后使用基于CTC的并行线性分类器，将特征序列转化为字符序列，得到文字识别结果。本发明专利技术在不损失模型精度的同时，有效减少了参数量，具有参数高效、网络轻量、推理速度快的优点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机图像文字识别领域的一种场景文字识别方法，具体涉及了一种基于级联组注意力单视觉模型的场景文字识别方法。

技术介绍

1、作为高级语义信息的载体，文字对于场景理解极具价值，因此场景文本检测与识别成为近年来的研究热点。文字识别是文本检测与识别流程中的核心部分，其任务是将图片中的文字转录为文本序列。不同于文稿图像，场景文本图像的来源复杂，具有字体种类繁多、文字大小不一、背景复杂、布局多样等特点，对识别技术提出了更大挑战。

2、主流场景文本识别方法通常包含三个阶段，分别是特征提取阶段、序列建模阶段以及预测阶段。其中，特征提取阶段，通常采用卷积神经网络或transformer编码器等视觉模型提取视觉特征；序列建模阶段，通常采用循环神经网络或transformer解码器等序列模型进行上下文建模；预测阶段，采用联通时序分析(ctc)或注意力机制进行分析，输出目标字符串序列。此类方法将文字识别看作图像映射到文本的多模态任务，同时采用视觉模型和序列模型，虽然准确性较高，但存在模型复杂、推理速度慢等问题。

技术实现思路

1、针对上述问题，本专利技术提出了一种基于级联组注意力单视觉模型的场景文字识别方法，在保持识别准确性的同时，降低了模型复杂度，提高了推理速度。

2、本专利技术采用的技术方案是：

3、一、一种基于级联组注意力单视觉模型的场景文字识别方法

4、1)搭建并训练级联组注意力单视觉模型，获得训练好的级联组注意力单视觉模型；

<p>5、2)将待识别图像输入到训练好的级联组注意力单视觉模型中，输出获得文字识别结果。

6、所述级联组注意力单视觉模型包括矫正网络、双层渐进卷积块、位置编码模块、多阶段的特征提取模块和分类器；级联组注意力单视觉模型的输入作为矫正网络的输入，矫正网络依次经双层渐进卷积块、位置编码模块和多阶段的特征提取模块后再与分类器相连，分类器的输出为文字识别结果；其中，矫正网络用于对输入的图像进行矫正，双层渐进卷积块用于将输入图像变成局部特征融合后的字符组件嵌入，位置编码模块用于添加可学习的绝对位置编码，多阶段的特征提取模块用于提取特征序列，分类器用于将特征序列转化为字符序列。

7、所述双层渐进卷积块包括卷积层、批归一化层和激活层，双层渐进卷积块的输入作为第一卷积层的输入，第一卷积层依次经第一批归一化层、激活层、第二卷积层和第二批归一化层后再与第二激活层相连，第二激活层的输出作为双层渐进卷积块的输出。

8、所述多阶段的特征提取模块中，每个阶段的特征提取模块包括至少一个基于级联组注意力和夹层布局的transformer块和与最后一个基于级联组注意力和夹层布局的transformer块相连的下采样层，其中最后一个阶段的特征提取模块中的下采样层用于将高度缩放到1，其他阶段的特征提取模块中的下采样层用于将高度缩放为1/2。

9、所述基于级联组注意力和夹层布局的transformer块包括包含前馈网络的残差块和包含级联组注意力的残差块，基于级联组注意力和夹层布局的transformer块的输入作为第一包含前馈网络的残差块的输入，第一包含前馈网络的残差块经包含级联组注意力的残差块后再与第二包含前馈网络的残差块相连，第二包含前馈网络的残差块的输出作为基于级联组注意力和夹层布局的transformer块的输出；包含前馈网络的残差块包括相连的第三批归一化层和前馈网络，包含级联组注意力的残差块包括相连的第四批归一化层和级联组注意力块。

10、所述基于级联组注意力和夹层布局的transformer块中采用参数重分配的方法提高参数效率，减少计算冗余。

11、所述参数重分配的方法具体为：

12、在前馈网络的两个全连接层中，将中间通道扩充率设置为2倍；将包含级联组注意力的残差块中的自注意力头的查询值q和键值k的通道维度减小。

13、所述级联组注意力块包括多个依次相连的自注意力头，对级联组注意力块的输入拆分后获得多个分支输入，每个分支输入作为对应自注意力头的输入，每个自注意力头的输出还作为下一自注意力头的输入，所有自注意力头的输出拼接和投影后再作为级联组注意力块的输出。

14、所述其他阶段的特征提取模块中的下采样层包括相连的第三卷积层和第五批归一化层。

15、所述最后一个阶段的特征提取模块中的下采样层包括相连的逐宽度池化的池化层和线性层。

16、所述分类器采用基于ctc的并行线形分类器。

17、二、一种计算机设备

18、所述设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现所述方法的步骤。

19、三、一种计算机可读存储介质

20、所述介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述方法的步骤。

21、四、一种计算机程序产品

22、所述产品包括计算机程序/指令，该计算机程序/指令被处理器执行时实现所述方法的步骤。

23、本专利技术的有益效果是：

24、本专利技术兼顾文字识别模型的轻量化与精确性，在不损失模型精度的同时，提高了模型的参数效率、内存效率和计算效率，为文字识别模型在更轻量级平台上的应用提供可能。

25、与现有技术相比，本专利技术采用高度并行的单视觉模型提取文字图像特征，在文字图像特征提取阶段的transformer块中采用级联组注意力，提高了自注意力头获取的特征多样性，从而提高模型计算效率，并在不增加模型参数的同时加深了网络，提高模型性能；在文字图像特征提取阶段的transformer块中采用夹层布局，增加了前馈网络层的比例，减少了内存消耗高的自注意力层，从而提高了模型的内存效率，提高模型性能。同时，采用了参数重分配方法，增加重要参数的比例，减少次重要参数的比例，在不损失精度的前提下提高了参数效率。

本文档来自技高网...

【技术保护点】

1.一种基于级联组注意力单视觉模型的场景文字识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于级联组注意力单视觉模型的场景文字识别方法，其特征在于，所述级联组注意力单视觉模型包括矫正网络、双层渐进卷积块、位置编码模块、多阶段的特征提取模块和分类器；级联组注意力单视觉模型的输入作为矫正网络的输入，矫正网络依次经双层渐进卷积块、位置编码模块和多阶段的特征提取模块后再与分类器相连，分类器的输出为文字识别结果；其中，矫正网络用于对输入的图像进行矫正，双层渐进卷积块用于将输入图像变成局部特征融合后的字符组件嵌入，位置编码模块用于添加可学习的绝对位置编码，多阶段的特征提取模块用于提取特征序列，分类器用于将特征序列转化为字符序列。

3.根据权利要求2所述的一种基于级联组注意力单视觉模型的场景文字识别方法，其特征在于，所述双层渐进卷积块包括卷积层、批归一化层和激活层，双层渐进卷积块的输入作为第一卷积层的输入，第一卷积层依次经第一批归一化层、激活层、第二卷积层和第二批归一化层后再与第二激活层相连，第二激活层的输出作为双层渐进卷积块的输出。

5.根据权利要求4所述的一种基于级联组注意力单视觉模型的场景文字识别方法，其特征在于，所述基于级联组注意力和夹层布局的Transformer块包括包含前馈网络的残差块和包含级联组注意力的残差块，基于级联组注意力和夹层布局的Transformer块的输入作为第一包含前馈网络的残差块的输入，第一包含前馈网络的残差块经包含级联组注意力的残差块后再与第二包含前馈网络的残差块相连，第二包含前馈网络的残差块的输出作为基于级联组注意力和夹层布局的Transformer块的输出；包含前馈网络的残差块包括相连的第三批归一化层和前馈网络，包含级联组注意力的残差块包括相连的第四批归一化层和级联组注意力块。

6.根据权利要求4所述的一种基于级联组注意力单视觉模型的场景文字识别方法，其特征在于，所述基于级联组注意力和夹层布局的Transformer块中采用参数重分配的方法提高参数效率，减少计算冗余。

7.根据权利要求6所述的一种基于级联组注意力单视觉模型的场景文字识别方法，其特征在于，所述参数重分配的方法具体为：

8.根据权利要求5所述的一种基于级联组注意力单视觉模型的场景文字识别方法，其特征在于，所述级联组注意力块包括多个依次相连的自注意力头，对级联组注意力块的输入拆分后获得多个分支输入，每个分支输入作为对应自注意力头的输入，每个自注意力头的输出还作为下一自注意力头的输入，所有自注意力头的输出拼接和投影后再作为级联组注意力块的输出。

9.根据权利要求4所述的一种基于级联组注意力单视觉模型的场景文字识别方法，其特征在于，所述其他阶段的特征提取模块中的下采样层包括相连的第三卷积层和第五批归一化层。

10.根据权利要求4所述的一种基于级联组注意力单视觉模型的场景文字识别方法，其特征在于，所述最后一个阶段的特征提取模块中的下采样层包括相连的逐宽度池化的池化层和线性层。

...

【技术特征摘要】

1.一种基于级联组注意力单视觉模型的场景文字识别方法，其特征在于，包括以下步骤：

4.根据权利要求2所述的一种基于级联组注意力单视觉模型的场景文字识别方法，其特征在于，所述多阶段的特征提取模块中，每个阶段的特征提取模块包括至少一个基于级联组注意力和夹层布局的transformer块和与最后一个基于级联组注意力和夹层布局的transformer块相连的下采样层，其中最后一个阶段的特征提取模块中的下采样层用于将高度缩放到1，其他阶段的特征提取模块中的下采样层用于将高度缩放为1/2。

5.根据权利要求4所述的一种基于级联组注意力单视觉模型的场景文字识别方法，其特征在于，所述基于级联组注意力和...

【专利技术属性】
技术研发人员：杨依娜，王强，蔡亮，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人