System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及计算机图像文字识别领域的一种场景文字识别方法,具体涉及了一种基于级联组注意力单视觉模型的场景文字识别方法。
技术介绍
1、作为高级语义信息的载体,文字对于场景理解极具价值,因此场景文本检测与识别成为近年来的研究热点。文字识别是文本检测与识别流程中的核心部分,其任务是将图片中的文字转录为文本序列。不同于文稿图像,场景文本图像的来源复杂,具有字体种类繁多、文字大小不一、背景复杂、布局多样等特点,对识别技术提出了更大挑战。
2、主流场景文本识别方法通常包含三个阶段,分别是特征提取阶段、序列建模阶段以及预测阶段。其中,特征提取阶段,通常采用卷积神经网络或transformer编码器等视觉模型提取视觉特征;序列建模阶段,通常采用循环神经网络或transformer解码器等序列模型进行上下文建模;预测阶段,采用联通时序分析(ctc)或注意力机制进行分析,输出目标字符串序列。此类方法将文字识别看作图像映射到文本的多模态任务,同时采用视觉模型和序列模型,虽然准确性较高,但存在模型复杂、推理速度慢等问题。
技术实现思路
1、针对上述问题,本专利技术提出了一种基于级联组注意力单视觉模型的场景文字识别方法,在保持识别准确性的同时,降低了模型复杂度,提高了推理速度。
2、本专利技术采用的技术方案是:
3、一、一种基于级联组注意力单视觉模型的场景文字识别方法
4、1)搭建并训练级联组注意力单视觉模型,获得训练好的级联组注意力单视觉模型;
< ...【技术保护点】
1.一种基于级联组注意力单视觉模型的场景文字识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于级联组注意力单视觉模型的场景文字识别方法,其特征在于,所述级联组注意力单视觉模型包括矫正网络、双层渐进卷积块、位置编码模块、多阶段的特征提取模块和分类器;级联组注意力单视觉模型的输入作为矫正网络的输入,矫正网络依次经双层渐进卷积块、位置编码模块和多阶段的特征提取模块后再与分类器相连,分类器的输出为文字识别结果;其中,矫正网络用于对输入的图像进行矫正,双层渐进卷积块用于将输入图像变成局部特征融合后的字符组件嵌入,位置编码模块用于添加可学习的绝对位置编码,多阶段的特征提取模块用于提取特征序列,分类器用于将特征序列转化为字符序列。
3.根据权利要求2所述的一种基于级联组注意力单视觉模型的场景文字识别方法,其特征在于,所述双层渐进卷积块包括卷积层、批归一化层和激活层,双层渐进卷积块的输入作为第一卷积层的输入,第一卷积层依次经第一批归一化层、激活层、第二卷积层和第二批归一化层后再与第二激活层相连,第二激活层的输出作为双层渐进卷积块的输出。
4
5.根据权利要求4所述的一种基于级联组注意力单视觉模型的场景文字识别方法,其特征在于,所述基于级联组注意力和夹层布局的Transformer块包括包含前馈网络的残差块和包含级联组注意力的残差块,基于级联组注意力和夹层布局的Transformer块的输入作为第一包含前馈网络的残差块的输入,第一包含前馈网络的残差块经包含级联组注意力的残差块后再与第二包含前馈网络的残差块相连,第二包含前馈网络的残差块的输出作为基于级联组注意力和夹层布局的Transformer块的输出;包含前馈网络的残差块包括相连的第三批归一化层和前馈网络,包含级联组注意力的残差块包括相连的第四批归一化层和级联组注意力块。
6.根据权利要求4所述的一种基于级联组注意力单视觉模型的场景文字识别方法,其特征在于,所述基于级联组注意力和夹层布局的Transformer块中采用参数重分配的方法提高参数效率,减少计算冗余。
7.根据权利要求6所述的一种基于级联组注意力单视觉模型的场景文字识别方法,其特征在于,所述参数重分配的方法具体为:
8.根据权利要求5所述的一种基于级联组注意力单视觉模型的场景文字识别方法,其特征在于,所述级联组注意力块包括多个依次相连的自注意力头,对级联组注意力块的输入拆分后获得多个分支输入,每个分支输入作为对应自注意力头的输入,每个自注意力头的输出还作为下一自注意力头的输入,所有自注意力头的输出拼接和投影后再作为级联组注意力块的输出。
9.根据权利要求4所述的一种基于级联组注意力单视觉模型的场景文字识别方法,其特征在于,所述其他阶段的特征提取模块中的下采样层包括相连的第三卷积层和第五批归一化层。
10.根据权利要求4所述的一种基于级联组注意力单视觉模型的场景文字识别方法,其特征在于,所述最后一个阶段的特征提取模块中的下采样层包括相连的逐宽度池化的池化层和线性层。
...【技术特征摘要】
1.一种基于级联组注意力单视觉模型的场景文字识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于级联组注意力单视觉模型的场景文字识别方法,其特征在于,所述级联组注意力单视觉模型包括矫正网络、双层渐进卷积块、位置编码模块、多阶段的特征提取模块和分类器;级联组注意力单视觉模型的输入作为矫正网络的输入,矫正网络依次经双层渐进卷积块、位置编码模块和多阶段的特征提取模块后再与分类器相连,分类器的输出为文字识别结果;其中,矫正网络用于对输入的图像进行矫正,双层渐进卷积块用于将输入图像变成局部特征融合后的字符组件嵌入,位置编码模块用于添加可学习的绝对位置编码,多阶段的特征提取模块用于提取特征序列,分类器用于将特征序列转化为字符序列。
3.根据权利要求2所述的一种基于级联组注意力单视觉模型的场景文字识别方法,其特征在于,所述双层渐进卷积块包括卷积层、批归一化层和激活层,双层渐进卷积块的输入作为第一卷积层的输入,第一卷积层依次经第一批归一化层、激活层、第二卷积层和第二批归一化层后再与第二激活层相连,第二激活层的输出作为双层渐进卷积块的输出。
4.根据权利要求2所述的一种基于级联组注意力单视觉模型的场景文字识别方法,其特征在于,所述多阶段的特征提取模块中,每个阶段的特征提取模块包括至少一个基于级联组注意力和夹层布局的transformer块和与最后一个基于级联组注意力和夹层布局的transformer块相连的下采样层,其中最后一个阶段的特征提取模块中的下采样层用于将高度缩放到1,其他阶段的特征提取模块中的下采样层用于将高度缩放为1/2。
5.根据权利要求4所述的一种基于级联组注意力单视觉模型的场景文字识别方法,其特征在于,所述基于级联组注意力和...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。