一种学习实例内部语义增强的场景文字检测器和方法技术

技术编号：40440890 阅读：5 留言：0更新日期：2024-02-22 23:03

一种学习实例内部语义增强的场景文字检测器和方法，属于场景文本识别技术领域，解决未考虑语义关系以及未考虑边框和中心的一致性而导致检测不准确问题。本发明专利技术的检测器包括：文本领域注意力机制TAM和边界融合模块BAG；所述文本领域注意力机制使用连通域分析的方法得到独立的文本区域，使用RoIAlign操作提取RoI特征，然后通过线性层压缩并投影为T<subgt;roi</subgt;∈R<supgt;N×C</supgt;，其中N是RoI的数量，是C通道数；将T<subgt;roi</subgt;和类别令牌T<subgt;cls</subgt;连接起来，添加位置嵌入以形成原始ViT编码器的输入标记；所述边界融合模块根据所述文本领域注意力机制输出的特征图生成高维嵌入的卷积层。本发明专利技术适用于自动驾驶、场景文本翻译和场景理解。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及场景文本识别，尤其涉及基于深度学习的场景文本检测。

技术介绍

1、作为场景文本识别的前提条件，场景文本检测由于其广泛应用，如自动驾驶、场景文本翻译和场景理解，近年来引起了越来越多的关注。在深度学习的研究支持下，针对规则形状的文本，许多文本检测方法已取得了显著的进展。

2、然而，由于文本表示的局限性，这些方法在处理极长和曲线形状的文本时往往表现不佳。此外，检测到的文本并不是直接可识别的，还需要进一步的分析和理解，因此场景文本检测的任务并不仅仅是简单的定位文本。

3、为了解决这个问题，最近的研究倾向于将一个文本实例分解为局部文本组件(例如边框和中心)。通过应用分割技术和编码边框-中心信息，取得了有希望的检测结果。然而，以前的方法只考虑了文本组件之间的几何信息连接，而没有考虑它们的语义关系，导致了很多不准确的断裂检测。

4、通常，相邻的文本通过将整个文本区域映射缩小为独立实例来分隔。li等人利用渐进式比例扩展算法扩大最小文本核，以解决此问题。使用引导嵌入图，wang将文本边界内的像素聚合到文本核中。另一种避免重叠问题的方法是将边框区域视为不同的分类。wu等人等人首次通过包含文本边框来简化推理处理。xue等人使用四种不同类型的文本边框片段更精确地定位文本。此外，xu等人和zhu等人通过编码方向场，以学习边框和文本中心之间的像素关系。

5、优点：以上大多数方法主要关注边框和中心之间的几何关系，以减轻文本重叠的问题。同时简化了推理过程，减少了相关推理事件。

6、缺点：它们

技术实现思路

1、本专利技术目的是为了解决现有技术未考虑语义关系以及未考虑边框和中心的一致性而导致检测不准确的问题，提供了一种学习实例内部语义增强的场景文字检测器和方法。

2、本专利技术是通过以下技术方案实现的，本专利技术一方面，提供一种学习实例内部语义增强的场景文字检测器，所述场景文字检测器包括：文本领域注意力机制tam和边界融合模块bag；

3、所述文本领域注意力机制使用连通域分析的方法得到独立的文本区域，使用roialign操作提取roi特征，然后通过线性层压缩并投影为troi∈rn×c，其中n是roi的数量，c是通道数；将troi和类别令牌tcls连接起来，添加位置嵌入以形成原始vit编码器的输入标记；

4、所述边界融合模块根据所述文本领域注意力机制输出的特征图生成高维嵌入的卷积层。

5、进一步地，所述场景文字检测器使用一个完全卷积神经网络resnet50-fpn作为骨干网络。

6、进一步地，所述resnet50-fpn的预测方法为使用一个1*1卷积核卷积特征图；

7、预测所述文本区域分割图的方式是通过真实的分割图监督得到。

8、进一步地，所述文本领域注意力机制的输入为从resnet50-fpn输出的特征图预测的文本区域分割图。

9、进一步地，所述vit编码器具有l个连续的编码层，每个编码层由一个多头注意力模块、一个mlp和两个layernorm层组成，在mha和mlp之前分别应用。

10、进一步地，所述边界融合模块根据所述文本领域注意力机制输出的特征图生成高维嵌入的卷积层，具体为：

11、使用d个1*1卷积核卷积tam输出的特征图得到，其中，h，w是特征图的尺寸，d是嵌入维度；对于图像中的第i个文本实例，tcmi和tbmi分别表示相应的中心区域和边框区域；

12、定义聚类中心，

13、

14、其中，p和|tcmi|分别是tcm内的像素和总像素数，f(p)是对于某个像素p，在高维空间上做投影就得到像素p对应的向量，它的维度是d，属于rd；

15、确定bag的损失函数，其中，正对组之间的距离应该接近，而负对组之间的距离应该远离；tcm和tbm属于同一个实例的对是正样本，设计lpos来使它们更接近：

16、lpos(p，ci)＝max(||f(p)-ci||-ε，0)2

17、其中，p是tcm中的像素，是同一文本实例中边框和中心之间的最大边距，ε是同一文本实例中边框和中心之间的最大边距，是超参数，lpos和lneg是中间结果；

18、同时，为使负对组尽可能远离，采用以下lneg：

19、lneg(ci，cj)＝max(δ-||ci-cj||，0)2

20、其中，δ是不同文本中心之间的最小边距；

21、bag的总损失计算为：

22、

23、其中，n是图像中文本实例的数量。

24、进一步地，p设置为0.5。

25、进一步地，所述场景文字检测器通过训练ltpc，ltclr和lcri来实现定义的多个任务，

26、l＝ltpc+ω1ltclr+ω2lcri

27、其中，ltpc采用语义分割中的dice损失函数实现，ltclr则采用像素级的smooth_l1损失函数实现，ω1和ω2设置0-1之间的数值。

28、进一步地，将ω1设置为1，将ω2设置为0.8。

29、第二方面，本专利技术提供一种学习实例内部语义增强的场景文字检测方法，所述方法包括：

30、将待检测数据输入如上文所述的场景文字检测器，获取检测结果。

31、本专利技术的有益效果：

32、针对已有方法的由于文本的表示的局限性，这些方法在处理极长和曲线形状的文本时往往表现不佳。此外，检测到的文本并不是直接可识别的，还需要进一步的分析和理解。本申请提出了一种新颖的网络来学习增强的内部实例语义关系，其网络命名为ei2sr。

33、更具体地说，受视觉transformer(vit)的启发，提出了文本领域注意力机制(tam)，以建模不同文本实例之间的全局粗粒度语义依赖关系，指导文本实例内文本边框和中心的局部细粒度学习。

34、针对已有方法对于没有明确考虑边框和中心的一致性，本申请提出了一种新颖的边界融合手段(bag)，旨在提高文本边框和中心之间的语义相关性。如图4所示，与先前独立预测文本中心和边框，并通过文本中心线将它们链接起来的方法相比，ei2sr可以更好地借助tam生成的语义知识学习文本边框和文本中心。同时，bag通过将两端的边框吸引并分组到相应的中心位置，以实现文本边框和中心的有效匹配。

35、本专利技术适用于自动驾驶、场景文本翻译和场景理解。

本文档来自技高网...

【技术保护点】

1.一种学习实例内部语义增强的场景文字检测器，其特征在于，所述场景文字检测器包括：文本领域注意力机制TAM和边界融合模块BAG；

2.根据权利要求1所述的一种学习实例内部语义增强的场景文字检测器，其特征在于，所述场景文字检测器使用一个完全卷积神经网络ResNet50-FPN作为骨干网络。

3.根据权利要求2所述的一种学习实例内部语义增强的场景文字检测器，其特征在于，所述ResNet50-FPN的预测方法为使用一个1*1卷积核卷积特征图；

4.根据权利要求3所述的一种学习实例内部语义增强的场景文字检测器，其特征在于，所述文本领域注意力机制的输入为从ResNet50-FPN输出的特征图预测的文本区域分割图。

5.根据权利要求4所述的一种学习实例内部语义增强的场景文字检测器，其特征在于，所述ViT编码器具有L个连续的编码层，每个编码层由一个多头注意力模块、一个MLP和两个LayerNorm层组成，在MHA和MLP之前分别应用。

6.根据权利要求1-5任一项所述的一种学习实例内部语义增强的场景文字检测器，其特征在于，所述边界融合

7.根据权利要求6所述的一种学习实例内部语义增强的场景文字检测器，其特征在于，p设置为0.5。

8.根据权利要求7所述的一种学习实例内部语义增强的场景文字检测器，其特征在于，所述场景文字检测器通过训练Ltpc，Ltclr和Lcri来实现定义的多个任务，

9.根据权利要求8所述的一种学习实例内部语义增强的场景文字检测器，其特征在于，将ω1设置为1，将ω2设置为0.8。

10.一种学习实例内部语义增强的场景文字检测方法，其特征在于，所述方法包括：

...

【技术特征摘要】

1.一种学习实例内部语义增强的场景文字检测器，其特征在于，所述场景文字检测器包括：文本领域注意力机制tam和边界融合模块bag；

2.根据权利要求1所述的一种学习实例内部语义增强的场景文字检测器，其特征在于，所述场景文字检测器使用一个完全卷积神经网络resnet50-fpn作为骨干网络。

3.根据权利要求2所述的一种学习实例内部语义增强的场景文字检测器，其特征在于，所述resnet50-fpn的预测方法为使用一个1*1卷积核卷积特征图；

4.根据权利要求3所述的一种学习实例内部语义增强的场景文字检测器，其特征在于，所述文本领域注意力机制的输入为从resnet50-fpn输出的特征图预测的文本区域分割图。

5.根据权利要求4所述的一种学习实例内部语义增强的场景文字检测器，其特征在于，所述vit编码器具有l个连续的编码层，每个编...

【专利技术属性】
技术研发人员：刘绍辉，舒言，李宇，姜峰，
申请(专利权)人：哈尔滨工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人