基于改进Transformer网络的场景文本识别方法技术

技术编号：42616841 阅读：23 留言：0更新日期：2024-09-03 18:22

本发明专利技术公开了一种基于改进Transformer网络的场景文本识别方法，包括：利用骨干网络对输入图像进行特征提取，得到扁平化的多尺度特征；将扁平化的多尺度特征与位置编码相加，并输入到Transformer编码器，生成贝塞尔中心曲线及其分数；选取出得分最高的前K条曲线，并在每条曲线上均匀采样N个点；利用正弦位置编码和多层感知机将采样点的坐标编码成位置查询，并与内容查询同时输入到跨模态模块；将编码器的输出和跨模态模块的输出同时输入到Transformer解码器中；利用四个预测头进行并行预测，得到最终识别结果。本发明专利技术可以实现端到端的自然场景文本，可以提高自然场景文本识别准确率，对不规则文本实例具有较高的鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及场景文本识别的，尤其是指一种基于改进transformer网络的场景文本识别方法。

技术介绍

1、场景文本识别旨在同时检测和识别自然场景中的文本，由于其在自动驾驶、智能交通、文档分析和信息提取等场景的应用而备受关注。然而，由于以下原因，使得这项工作仍具有挑战性：1)自然场景下的文本实例在颜色、形状、方向、语言和布局方面表现出多种多样的形式；2)复杂的背景信息。一些文本可能会因为与背景具有相似的纹理信息而与背景融合，并且还可能会被不相关的物体遮挡，导致文本识别困难，甚至无法识别；3)较多的外部干扰因素。例如光照、拍摄角度和文本实例的位置等，都会增加场景文本识别的难度。

2、传统的场景文本识别方法分为两个不同的子任务：文本检测和文本识别。首先检测出文本实例的位置，然后将文本实例区域从原图像中裁剪出来，最后识别出裁剪区域的文本内容。虽然这些方法思路简单，实现容易，但存在以下局限性：1)误差积累。不准确的检测结果会严重降低文本识别的准确性；2)推理速度慢。两个子任务需要按照先检测后识别的顺序执行，会严重影响推理速度；3)两个子任务单独优化可能无法最大程度地提升文本识别的性能。

技术实现思路

1、本专利技术的目的在于克服现有技术的缺点与不足，提出了一种基于改进transformer网络的场景文本识别方法，能够从跨模态角度将视觉信息和语义信息的进行融合，加强了模态间的信息交互，提高了场景文本识别准确率，同时可进行端到端的场景文本识别。

2、为实现上述目的，

3、所述场景文本识别方法的具体实施包括以下步骤：

4、1)获取公开的场景文本数据集，将对应标签转换为coco数据集格式，并且将多个公开的场景文本数据集中的训练集整合成混合训练集，测试集不变；

5、2)把训练集中的数据送入改进transformer网络进行训练，通过改进transformer网络的骨干网络提取场景文本图像的特征信息，得到扁平化的多尺度特征；将扁平化的多尺度特征与位置编码相加，并输入到使用多尺度可变形注意力的transformer编码器，生成贝塞尔中心曲线及其分数；选取分数最高的前k条贝塞尔中心曲线，并在选取出的每条曲线上均匀采样n个点；依次使用正弦位置编码和多层感知机将采样点的坐标编码成位置查询，并将其与可学习的内容查询同时输入到设计的跨模态模块，得到复合查询；将transformer编码器的输出和复合查询同时输入到使用循环分解自注意力模块的transformer解码器，得到每张图像的解码信息；最后利用四个预测头对解码信息进行并行预测，得到最终的识别结果；其中，在反向传播中先使用匈牙利算法进行配对匹配，使得预测值和真实值一一对应，然后使用实例分类损失、字符识别损失、中心曲线点坐标预测损失和边界点预测损失的加权和作为总损失，经过多次迭代至损失值最小，最终得到最优网络；

6、3)将测试集中的数据输入到训练得到的最优网络中得到预测信息，接着将预测的检测框绘制在原始图片上，在检测框的左上角区域标出检测框内的字符识别信息，从而完成场景文本的识别。

7、进一步，所述步骤1)包括以下步骤：

8、1.1)获取公开的场景文本数据集；

9、1.2)将数据集中的标签格式全部转换为coco数据集格式；

10、1.3)将多个公开的场景文本数据集中的训练集整合成混合训练集，测试集不用整合。

11、进一步，在步骤2)，所述骨干网络为resnet、swin transformer和vitae中的一种。

12、进一步，在步骤2)，所述多尺度可变形注意力的具体情况如下：

13、给定一组l层的多尺度特征图每一层特征图为其中cl、hl和wl分别表示第l层特征图的通道数、高度和宽度，表示实数；并且为每个查询q的参考点的归一化坐标，则多尺度可变形注意力的表示如下：

14、

15、式中，h表示注意力头的总数；h、l和m分别表示注意力头、输入特征图层数和采样点的键值；m表示采样点的总数；ahlqm表示查询q的注意力权重；φl表示将归一化坐标映射到第l层特征图的比例；δphlqm表示为查询q生成适当的采样偏移量；wh和w′h分别为可训练权重矩阵。

16、进一步，在步骤2)，所述跨模态模块的具体情况如下：

17、得到位置查询和内容查询其中，k和n分别表示选取出的贝塞尔中心曲线的个数和每条曲线上采样点的个数，表示实数；

18、首先，将位置查询p输入到多层感知机，然后与内容查询c相加，得到语义特征

19、s′＝p+w2*softmax(w1c)

20、式中，和是可训练的权重，其中o表示字符类别的数量；

21、然后，将语义特征s′和位置查询p输入到多头缩放点积注意力中，得每个注意力权重其中n表示注意力头数，表示如下：

22、

23、式中，pe表示detr中的可学习的输出位置编码；d表示位置查询p的特征维度数；m′表示屏蔽注意力，能防止查询过度关注自身，表示如下：

24、

25、式中，r和s均表示中的第r个和第s个位置；

26、最后，将n个注意力权重进行拼接，并与语义特征s′相加，之后再依次输入到归一化层和全连接层，得到复合查询

27、q＝fc(bn(concat(a1,a2,…,an)))

28、式中，concat表示拼接操作；bn表示批归一化层；fc表示全连接层。

29、进一步，在步骤2)，所述循环分解自注意力模块的具体情况如下：

30、首先，将复合查询q输入到组内自注意力saintra分支，得到组内查询qintra：

31、qintra＝saintra(q)

32、然后，将复合查询q输入到循环卷积circonv分支，得到循环卷积查询qcir：

33、qcir＝relu(bn(circonv(q)))

34、式中，bn表示批归一化本文档来自技高网...

【技术保护点】

1.基于改进Transformer网络的场景文本识别方法，其特征在于，该改进Transformer网络是对原来Transformer网络的Transformer编码器、Transformer解码器、编码器与解码器之间的连接和预测模块都进行改进，其中，对编码器的改进是：使用多尺度可变形注意力替换原有的多头注意力，以提取更多的特征信息；对解码器的改进是：使用循环分解自注意力模块替换掩码多头注意力中原有的多头注意力，使得网络对文本轮廓特征具有更强的提取能力，从而增强网络的文本检测性能；对编码器与解码器之间的连接的改进是：加入Top-K贝塞尔中心曲线生成、正弦位置编码、多层感知机和跨模态模块，以增强文本检测和识别的交互和协同，从而提高场景文本识别准确率；对预测模块的改进是：设计四个并行的预测头分别进行实例分类、字符识别、中心曲线点预测和边界点预测，以实现更高的文本识别准确率；

2.根据权利要求1所述的基于改进Transformer网络的场景文本识别方法，其特征在于，所述步骤1)包括以下步骤：

3.根据权利要求1所述的基于改进Transformer网络的场景文本识别

4.根据权利要求1所述的基于改进Transformer网络的场景文本识别方法，其特征在于，在步骤2)，所述多尺度可变形注意力的具体情况如下：

5.根据权利要求1所述的基于改进Transformer网络的场景文本识别方法，其特征在于，在步骤2)，所述跨模态模块的具体情况如下：

6.根据权利要求1所述的基于改进Transformer网络的场景文本识别方法，其特征在于，在步骤2)，所述循环分解自注意力模块的具体情况如下：

7.根据权利要求1所述的基于改进Transformer网络的场景文本识别方法，其特征在于，在步骤2)，所述四个预测头的具体情况如下：

8.根据权利要求1所述的基于改进Transformer网络的场景文本识别方法，其特征在于，在步骤2)，所述反向传播的具体情况如下：

...

【技术特征摘要】

1.基于改进transformer网络的场景文本识别方法，其特征在于，该改进transformer网络是对原来transformer网络的transformer编码器、transformer解码器、编码器与解码器之间的连接和预测模块都进行改进，其中，对编码器的改进是：使用多尺度可变形注意力替换原有的多头注意力，以提取更多的特征信息；对解码器的改进是：使用循环分解自注意力模块替换掩码多头注意力中原有的多头注意力，使得网络对文本轮廓特征具有更强的提取能力，从而增强网络的文本检测性能；对编码器与解码器之间的连接的改进是：加入top-k贝塞尔中心曲线生成、正弦位置编码、多层感知机和跨模态模块，以增强文本检测和识别的交互和协同，从而提高场景文本识别准确率；对预测模块的改进是：设计四个并行的预测头分别进行实例分类、字符识别、中心曲线点预测和边界点预测，以实现更高的文本识别准确率；

2.根据权利要求1所述的基于改进transformer网络的场景文本识别方法，其特征在于，所述步骤1)包括以下步骤：

3....

【专利技术属性】
技术研发人员：徐诗康，刘俊峰，曾君，廖丁丁，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人