文本检测及文本检测模型训练方法、装置和设备制造方法及图纸

技术编号：43131047 阅读：20 留言：0更新日期：2024-10-29 17:38

本公开提供了一种文本检测及文本检测模型训练方法、装置和设备，涉及人工智能技术领域，尤其涉及计算机视觉、深度学习、大模型等技术领域，可应用于OCR等场景。文本预测方法包括：对目标图像进行特征提取，以获得所述目标图像的图像特征；所述目标图像中包含待检测文本；基于所述图像特征进行多个文本粒度的检测处理，以获得多种候选检测结果；所述多种候选检测结果与所述多个文本粒度一一对应；基于所述多种候选检测结果获取目标粒度的待处理检测结果；基于所述图像特征和所述待处理检测结果的目标位置特征进行分割处理，以获得所述待检测文本的所述目标粒度的目标检测结果。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及人工智能，具体涉及计算机视觉、深度学习、大模型等，可应用于ocr等场景，尤其涉及一种文本检测及文本检测模型训练方法、装置和设备。

技术介绍

1、文本检测在解析和理解自然场景和电子文档中的文本内容方面起着关键作用。

2、文本检测任务涉及的文本粒度包括多种，例如，包括单字、文本行、段落和页面级别的文本检测任务。

技术实现思路

1、本公开提供了一种文本检测及文本检测模型训练方法、装置和设备。

2、根据本公开的一方面，提供了一种文本检测方法，包括：对目标图像进行特征提取，以获得所述目标图像的图像特征；所述目标图像中包含待检测文本；基于所述图像特征进行多个文本粒度的检测处理，以获得多种候选检测结果；所述多种候选检测结果与所述多个文本粒度一一对应；基于所述多种候选检测结果获取目标粒度的待处理检测结果；基于所述图像特征和所述待处理检测结果的目标位置特征进行分割处理，以获得所述待检测文本的所述目标粒度的目标检测结果。

3、根据本公开的另一方面，提供了一种文本检测模型训练方法，所述文本检测模型包括：特征提取网络、检测网络和分割网络，所述方法包括：采用所述特征提取网络，对目标图像样本进行特征提取，以获得所述目标图像样本的图像特征；所述目标图像中包含目标粒度的待检测文本；

4、采用所述检测网络，基于所述图像特征进行多个文本粒度的检测处理，以获得多种候选检测结果；所述多种候选检测结果与所述多个文本粒度一一对应；基于所述多种候选检测结果，获取所述目标

5、根据本公开的另一方面，提供了一种文本检测装置，包括：特征提取模块，用于对目标图像进行特征提取，以获得所述目标图像的图像特征；所述目标图像中包含待检测文本；检测模块，用于基于所述图像特征进行多个文本粒度的检测处理，以获得多种候选检测结果；所述多种候选检测结果与所述多个文本粒度一一对应；获取模块，用于基于所述多种候选检测结果获取目标粒度的待处理检测结果；分割模块，用于基于所述图像特征和所述待处理检测结果的目标位置特征进行分割处理，以获得所述待检测文本的所述目标粒度的目标检测结果。

6、根据本公开的另一方面，提供了一种文本检测模型训练装置，所述文本检测模型包括：特征提取网络、检测网络和分割网络，所述装置包括：特征提取模块，用于采用所述特征提取网络，对目标图像样本进行特征提取，以获得所述目标图像样本的图像特征；所述目标图像中包含目标粒度的待检测文本；检测模块，用于采用所述检测网络，基于所述图像特征进行多个文本粒度的检测处理，以获得多种候选检测结果；所述多种候选检测结果与所述多个文本粒度一一对应；获取模块，用于基于所述多种候选检测结果，获取所述目标粒度的待处理检测结果；分割模块，用于采用所述分割网络，基于所述图像特征和所述待处理检测结果的目标位置特征进行分割处理，以获得预测检测结果；构建模块，用于基于所述预测检测结果和所述待检测文本对应的真实检测结果，构建损失函数；调整模块，用于基于所述损失函数，调整所述特征提取网络、所述检测网络和所述分割网络的模型参数。

7、根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述任一方面的任一项所述的方法。

8、根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据上述任一方面的任一项所述的方法。

9、根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据上述任一方面的任一项所述的方法。

10、根据本公开的技术方案，可以提高文本检测效果。

11、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种文本检测方法，包括：

2.根据权利要求1所述的方法，其中，所述基于所述图像特征进行多个文本粒度的检测处理，以获得所述待检测文本的多种候选检测结果，包括：

3.根据权利要求2所述的方法，其中，

4.根据权利要求3所述的方法，其中，所述基于预设的交互因子对所述拼接后特征进行跨粒度特征交互处理，以获得交互后特征，包括：

5.根据权利要求1所述的方法，其中，

6.根据权利要求5所述的方法，其中，所述基于所述位置特征和预训练的提示特征进行提示学习处理，以获得所述目标位置特征，包括：

7.根据权利要求5所述的方法，其中，所述对所述图像特征和所述目标位置特征进行分割处理，以获得所述目标检测结果，包括：

8.一种文本检测模型训练方法，所述文本检测模型包括：特征提取网络、检测网络和分割网络，所述方法包括：

9.根据权利要求8所述的方法，其中，

10.根据权利要求9所述的方法，其中，

11.根据权利要求10所述的方法，其中，所述基于预设的交互因子对所述拼接后特征进行跨粒度特

12.根据权利要求8所述的方法，其中，

13.根据权利要求12所述的方法，其中，所述采用所述提示编码器，基于所述位置特征和预训练的提示特征进行提示学习处理，以获得所述目标位置特征，包括：

14.根据权利要求12所述的方法，其中，若所述图像特征是多尺度图像特征，所述分割网络还包括：融合网络；

15.一种文本检测装置，包括：

16.根据权利要求15所述的装置，其中，所述检测模块进一步用于：

17.根据权利要求16所述的装置，其中，

18.根据权利要求17所述的装置，其中，所述检测模块进一步用于：

19.根据权利要求15所述的装置，其中，

20.根据权利要求19所述的装置，其中，所述分割模块进一步用于：

21.根据权利要求19所述的装置，其中，所述分割模块进一步用于：

22.一种文本检测模型训练装置，所述文本检测模型包括：特征提取网络、检测网络和分割网络，所述装置包括：

23.根据权利要求22所述的装置，其中，

24.根据权利要求23所述的装置，其中，

25.根据权利要求24所述的装置，其中，所述检测模块进一步用于：

26.根据权利要求22所述的装置，其中，

27.根据权利要求26所述的装置，其中，所述分割模块进一步用于：

28.根据权利要求26所述的装置，其中，若所述图像特征是多尺度图像特征，所述分割网络还包括：融合网络；

29.一种电子设备，包括：

30.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-14中任一项所述的方法。

31.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-14中任一项所述的方法。

...

【技术特征摘要】