基于SAM的多层级文本检测方法及相关设备技术

技术编号：41870439 阅读：5 留言：0更新日期：2024-07-02 00:20

一种基于SAM的多层级文本检测方法及相关设备。该方法包括：图像编码器对图像进行编码，得到图像特征，其中，图像编码器为在ViT编码器的基础上插入adapter模块得到；提示编码器将文本前景点位置编码为提示令牌；掩膜解码器以图像特征和提示令牌为输入，掩膜解码器中的三个输出令牌融合提示令牌中的位置提示信息并与图像特征进行注意力交互，三个输出令牌分别对每一文本前景点位置预测其对应的单词层级掩膜、文本行层级掩膜以及段落层级掩膜。通过本申请，利用SAM以较小的训练代价完成统一的层级文本检测，很好地解决了经典模型无法获得全面的层级化信息的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及图像处理，具体涉及一种基于sam的多层级文本检测方法、装置、设备及计算机可读存储介质。

技术介绍

1、在计算机视觉领域中，文本检测是众多与文本相关任务的基础，例如在一般的场景理解中需要检测提取文本区域以供识别理解。随着深度学习的提出和快速发展，其在文本检测中被广泛运用。文本包含了多个层级，例如单词层级、文本行层级以及段落层级，这些层级的文本信息传递了丰富而准确的高层语义信息，在智能理解系统中，获取这些全面的信息变得愈发重要。然而，大多数现有文本检测方法得到的模型往往只能检测单词层级的结果或只能检测文本行层级的结果，无法在一个统一的模型中同时完成单词、文本行以及段落文本的检测。

技术实现思路

1、本申请提供一种基于sam的多层级文本检测方法、装置、设备及计算机可读存储介质，可以解决现有技术中存在的无法在一个统一的模型中同时完成单词、文本行以及段落文本的检测的技术问题。

2、第一方面，本申请实施例提供一种基于sam的多层级文本检测方法，所述基于sam的多层级文本检测方法包括：

3、图像编码器对图像进行编码，得到图像特征，其中，图像编码器为在vit编码器的基础上插入adapter模块得到；

4、提示编码器将文本前景点位置编码为提示令牌；

5、掩膜解码器以图像特征和提示令牌为输入，掩膜解码器中的三个输出令牌融合提示令牌中的位置提示信息并与图像特征进行注意力交互，三个输出令牌分别对每一文本前景点位置预测其对应的单词层级掩膜、文本行层级掩膜以及段落层级掩膜。

6、第二方面，本申请实施例提供了一种基于sam的多层级文本检测装置，所述基于sam的多层级文本检测装置包括：

7、图像编码器，用于对图像进行编码，得到图像特征，其中，图像编码器为在vit编码器的基础上插入adapter模块得到；

8、提示编码器，用于将文本前景点位置编码为提示令牌；

9、掩膜解码器，用于以图像特征和提示令牌为输入，掩膜解码器中的三个输出令牌融合提示令牌中的位置提示信息并与图像特征进行注意力交互，三个输出令牌分别对每一文本前景点位置预测其对应的单词层级掩膜、文本行层级掩膜以及段落层级掩膜。

10、第三方面，本申请实施例提供了一种基于sam的多层级文本检测设备，所述基于sam的多层级文本检测设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的基于sam的多层级文本检测程序，其中所述基于sam的多层级文本检测程序被所述处理器执行时，实现如第一方面所述的基于sam的多层级文本检测方法的步骤。

11、第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有基于sam的多层级文本检测程序，其中所述基于sam的多层级文本检测程序被处理器执行时，实现如第一方面所述的基于sam的多层级文本检测方法的步骤。

12、本申请实施例提供的技术方案带来的有益效果包括：

13、本申请实施例中，图像编码器对图像进行编码，得到图像特征，其中，图像编码器为在vit编码器的基础上插入adapter模块得到；提示编码器将文本前景点位置编码为提示令牌；掩膜解码器以图像特征和提示令牌为输入，掩膜解码器中的三个输出令牌融合提示令牌中的位置提示信息并与图像特征进行注意力交互，三个输出令牌分别对每一文本前景点位置预测其对应的单词层级掩膜、文本行层级掩膜以及段落层级掩膜。通过本申请实施例，利用sam以较小的训练代价完成统一的层级文本检测，很好地解决了经典模型无法获得全面的层级化信息的问题。

本文档来自技高网...

【技术保护点】

1.一种基于SAM的多层级文本检测方法，其特征在于，所述基于SAM的多层级文本检测方法包括：

2.如权利要求1所述的基于SAM的多层级文本检测方法，其特征在于，在交互式模式下，文本前景点位置基于点击操作确定。

3.如权利要求1所述的基于SAM的多层级文本检测方法，其特征在于，在自动分割推理模式下，从文本前景分割模型根据所述图像提供的文本前景的掩膜中随机选取若干文本前景点位置。

4.如权利要求3所述的基于SAM的多层级文本检测方法，其特征在于，在所述掩膜解码器以图像特征和提示令牌为输入，掩膜解码器中的三个输出令牌融合提示令牌中的位置提示信息并与图像特征进行注意力交互，三个输出令牌分别对每一文本前景点位置预测其对应的单词层级掩膜、文本行层级掩膜以及段落层级掩膜的步骤之后，还包括：

5.如权利要求1所述的基于SAM的多层级文本检测方法，其特征在于：

6.如权利要求5所述的基于SAM的多层级文本检测方法，其特征在于，在所述图像编码器对图像进行编码，得到图像特征的步骤之前，还包括：

7.如权利要求1至6中任一项所述的基

8.一种基于SAM的多层级文本检测装置，其特征在于，所述基于SAM的多层级文本检测装置包括：

9.一种基于SAM的多层级文本检测设备，其特征在于，所述基于SAM的多层级文本检测设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的基于SAM的多层级文本检测程序，其中所述基于SAM的多层级文本检测程序被所述处理器执行时，实现如权利要求1至7中任一项所述的基于SAM的多层级文本检测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有基于SAM的多层级文本检测程序，其中所述基于SAM的多层级文本检测程序被处理器执行时，实现如权利要求1至7中任一项所述的基于SAM的多层级文本检测方法的步骤。

...

【技术特征摘要】

1.一种基于sam的多层级文本检测方法，其特征在于，所述基于sam的多层级文本检测方法包括：

2.如权利要求1所述的基于sam的多层级文本检测方法，其特征在于，在交互式模式下，文本前景点位置基于点击操作确定。

3.如权利要求1所述的基于sam的多层级文本检测方法，其特征在于，在自动分割推理模式下，从文本前景分割模型根据所述图像提供的文本前景的掩膜中随机选取若干文本前景点位置。

4.如权利要求3所述的基于sam的多层级文本检测方法，其特征在于，在所述掩膜解码器以图像特征和提示令牌为输入，掩膜解码器中的三个输出令牌融合提示令牌中的位置提示信息并与图像特征进行注意力交互，三个输出令牌分别对每一文本前景点位置预测其对应的单词层级掩膜、文本行层级掩膜以及段落层级掩膜的步骤之后，还包括：

5.如权利要求1所述的基于sam的多层级文本检测方法，其特征在于：

6.如权利要求5所述的基于sam的多层级文本检测方法，其特征在于，在所述图像编码器对图像进行编码，得到图像特征的步骤之前，还包括：

7.如权利要求1至...

【专利技术属性】
技术研发人员：刘菊华，叶茂源，李海韵，
申请(专利权)人：武汉大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人