文本检测方法、装置、电子设备及存储介质制造方法及图纸

技术编号：42790403 阅读：27 留言：0更新日期：2024-09-21 00:47

本发明专利技术提供一种文本检测方法、装置、电子设备及存储介质，所述方法包括：对待处理文本图像进行文本密集程度检测，得到至少两个文本区域图像，所述至少两个文本区域图像中每个文本区域图像设有对应的图像类别，所述图像类别用于表征文本区域图像中文本行的密集程度，所述至少两个文本区域图像对应至少两种图像类别；根据所述每个文本区域图像对应的图像类别，采用对应的文本检测算法进行文本检测，得到所述每个文本区域图像对应的文本检测结果；根据所述至少两个文本区域图像中每个文本区域图像对应的文本检测结果，确定目标检测结果。所述方法提升了针对文本图像的文本检测精度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像识别，尤其涉及一种文本检测方法、装置、电子设备及存储介质。

技术介绍

1、目前文本检测算法主要包含两种，一种是基于回归的文本检测方法(textboxes)，对于疏松文本通常能够较快地定位文本区域，通过回归直接预测文本边界框的位置和形状。另一种是基于分割文本的检测算法(pixellink，dbnet)，通过对图像中的每个像素进行分类，可以更好地处理密集文本，能够识别并分割出相互粘连的文本区域。

2、在文本同时包含密集文本和大字体文本时，采用现有的文本检测算法会出现文本漏检或粘连问题，文本检测精度较低。

技术实现思路

1、本专利技术提供一种文本检测方法、装置、电子设备及存储介质，用以解决现有技术中针对文本图像的文本检测精度较低的缺陷，通过将待处理文本图像按照文本行的文本密集程度分为至少两个文本区域图像，根据至少两个文本区域图像对应的至少两个文本检测结果确定待处理文本图像的文本检测结果，提升了针对文本图像的文本检测精度。

2、本专利技术提供一种文本检测方法，包括如下步骤：

3、对待处理文本图像进行文本密集程度检测，得到至少两个文本区域图像，所述至少两个文本区域图像中每个文本区域图像设有对应的图像类别，所述图像类别用于表征文本区域图像中文本行的密集程度，所述至少两个文本区域图像对应至少两种图像类别，所述至少两个文本区域图像组成所述待处理文本图像中的部分图像或者全部图像；

4、根据所述每个文本区域图像对应的图像类别，采用对应的

5、根据所述至少两个文本区域图像中每个文本区域图像对应的文本检测结果，确定目标检测结果，所述目标检测结果用于表征所述待处理文本图像中的所有文本位置。

6、根据本专利技术提供的一种文本检测方法，所述对待处理文本图像进行文本密集程度检测，得到至少两个文本区域图像，包括：

7、将所述待处理文本图像输入训练好的文本密集选择模型，得到多个文本图像块以及所述多个文本图像块对应的图像类别，所述训练好的文本密集选择模型是通过标注有图像类别的多个训练图像块对初始的文本密集选择模型进行训练得到的；

8、根据所述多个文本图像块对应的图像类别对所述多个文本图像块进行图像融合，得到所述至少两个文本区域图像。

9、根据本专利技术提供的一种文本检测方法，所述多个训练图像块的图像类别是根据所述多个训练图像块中每个训练图像块中文本行的密集程度值与预设的密集程度阈值之间的大小关系确定的，所述每个训练图像块中文本行的密集程度值是根据所述每个训练图像块中的每个文本行高度相对于训练图像块的图像高度的占比确定的。

10、根据本专利技术提供的一种文本检测方法，所述多个文本图像块包括至少两种尺寸的多个文本图像块，所述根据所述多个文本图像块对应的图像类别对所述多个文本图像块进行图像融合，得到所述至少两个文本区域图像，包括：

11、将所述至少两种尺寸的多个文本图像块中每种尺寸的多个文本图像块融合为目标尺寸的多个文本图像块，所述目标尺寸的多个文本图像块中每个文本图像块对应的图像类别为被融合的多个文本图像块对应的图像类别中所指示的文本密集程度最高的图像类别；

12、将所述目标尺寸的多个文本图像块中相邻的且图像类别相同的至少两个文本图像块合并，得到至少两个文本区域图像。

13、根据本专利技术提供的一种文本检测方法，所述训练好的文本密集选择模型是通过标注有图像类别的多个训练图像块对初始的文本密集选择模型进行训练得到的，包括：

14、获取多个训练图像数据进行文本行框标注，再将标注好的多个训练图像数据缩放为多个预设尺寸的训练图像块，并根据预设的密集程度阈值标注每个预设尺寸的训练图像块的图像类别；获取多个预设尺寸的训练图像块对应的类别金字塔，所述类别金字塔是将多个预设尺寸的训练图像块中每个训练图像块生成至少两种更小尺寸的图像块，并标注至少两种更小尺寸的图像块中每个更小尺寸的图像块的图像类别形成的；

15、将所述类别金字塔输入所述初始的文本密集选择模型中，提取不同尺寸图像块的特征得到至少两种尺寸的图像块对应的图像特征，对所述至少两种图像快对应的图像特征分别计算交叉熵损失得到至少两种交叉熵损失，根据所述至少两种交叉熵损失进行反向传播训练。

16、根据本专利技术提供的一种文本检测方法，所述每个文本区域图像包括目标文本区域图像，在所述目标文本区域图像对应的图像类别所指示的密集程度值大于预设的密集程度阈值的情况下，所述对应的文本检测模型中特征金字塔网络采用高分辨率特征进行高斯滤波，引导低分辨率特征进行上采样的方式提取特征。

17、本专利技术还提供一种文本检测装置，包括如下模块：

18、图像检测模块，对待处理文本图像进行文本密集程度检测，得到至少两个文本区域图像，所述至少两个文本区域图像中每个文本区域图像设有对应的图像类别，所述图像类别用于表征文本区域图像中文本行的密集程度，所述至少两个文本区域图像对应至少两种图像类别，所述至少两个文本区域图像组成所述待处理文本图像中的部分图像或者全部图像；

19、结果获取模块，用于根据所述每个文本区域图像对应的图像类别，采用对应的文本检测算法进行文本检测，得到所述每个文本区域图像对应的文本检测结果；

20、结果合并模块，用于根据所述至少两个文本区域图像中每个文本区域图像对应的文本检测结果，确定目标检测结果，所述目标检测结果用于表征所述待处理文本图像中的所有文本位置。

21、本专利技术还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述文本检测方法的步骤。

22、本专利技术还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述文本检测方法的步骤。

23、本专利技术还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述文本检测方法的步骤。

24、本专利技术提供的文本检测方法、装置、电子设备及存储介质，通过对待处理文本图像进行文本密集程度检测，得到至少两个文本区域图像，根据所述每个文本区域图像对应的图像类别，采用对应的文本检测算法进行文本检测，得到所述每个文本区域图像对应的文本检测结果；根据所述至少两个文本区域图像中每个文本区域图像对应的文本检测结果，确定目标检测结果的方法，提升了针对文本图像的文本检测精度。

本文档来自技高网...

【技术保护点】

1.一种文本检测方法，其特征在于，包括：

2.根据权利要求1所述的文本检测方法，其特征在于，所述对待处理文本图像进行文本密集程度检测，得到至少两个文本区域图像，包括：

3.根据权利要求2所述的文本检测方法，其特征在于，所述多个训练图像块的图像类别是根据所述多个训练图像块中每个训练图像块中文本行的密集程度值与预设的密集程度阈值之间的大小关系确定的，所述每个训练图像块中文本行的密集程度值是根据所述每个训练图像块中的每个文本行高度相对于训练图像块的图像高度的占比确定的。

4.根据权利要求2所述的文本检测方法，其特征在于，所述多个文本图像块包括至少两种尺寸的多个文本图像块，所述根据所述多个文本图像块对应的图像类别对所述多个文本图像块进行图像融合，得到所述至少两个文本区域图像，包括：

5.根据权利要求2所述的文本检测方法，其特征在于，所述训练好的文本密集选择模型是通过标注有图像类别的多个训练图像块对初始的文本密集选择模型进行训练得到的，包括：获取多个训练图像数据进行文本行框标注，再将标注好的多个训练图像数据缩放为多个预设尺寸的训练图像块，并根

6.根据权利要求1所述的文本检测方法，其特征在于，所述每个文本区域图像包括目标文本区域图像，在所述目标文本区域图像对应的图像类别所指示的密集程度值大于预设的密集程度阈值的情况下，所述对应的文本检测模型中特征金字塔网络采用高分辨率特征进行高斯滤波，引导低分辨率特征进行上采样的方式提取特征。

7.一种文本检测装置，其特征在于，包括：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述文本检测方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述文本检测方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述文本检测方法的步骤。

...

【技术特征摘要】

1.一种文本检测方法，其特征在于，包括：

2.根据权利要求1所述的文本检测方法，其特征在于，所述对待处理文本图像进行文本密集程度检测，得到至少两个文本区域图像，包括：

5.根据权利要求2所述的文本检测方法，其特征在于，所述训练好的文本密集选择模型是通过标注有图像类别的多个训练图像块对初始的文本密集选择模型进行训练得到的，包括：获取多个训练图像数据进行文本行框标注，再将标注好的多个训练图像数据缩放为多个预设尺寸的训练图像块，并根据预设的密集程度阈值标注每个预设尺寸的训练图像块的图像类别；获取多...

【专利技术属性】
技术研发人员：彭明莎，王贤良，孟凡军，
申请(专利权)人：北京海鑫智圣技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人