当前位置: 首页 > 专利查询>福州大学专利>正文

一种基于选择性特征融合金字塔的场景文本检测方法技术

技术编号:33039779 阅读:13 留言:0更新日期:2022-04-15 09:19
一种基于选择性特征融合金字塔的场景文本检测方法,包括基于选择性特征融合金字塔的场景文本检测网络,场景文本的检测包括以下步骤:步骤S1:获取不同场景中的包含文本的图像生成数据集,其中包含任意形状文本;步骤S2:对数据集进行处理,得到用于训练数据集A与测试数据集B;步骤S3:构建用于特征提取的深度神经网络;应用本方案可实现有效检测自然场景中的长直,多方向文本,也可以有效检测自然场景下的任意形状文本。的任意形状文本。的任意形状文本。

【技术实现步骤摘要】
一种基于选择性特征融合金字塔的场景文本检测方法


[0001]本专利技术涉及计算机视觉
,特别是一种基于选择性特征融合金字塔的场景文本检测方法。

技术介绍

[0002]近年来,自然场景文本识别一直是一个活跃的研究领域。自然场景文本检测是自然场景文本识别的关键步骤。自然场景文本检测因其众多的应用,如场景理解,产品识别,自动驾驶和目标地理定位等,引起了广泛的关注。其目的在于定位场景图像中的文本实例。这仍然是一个具有挑战性的任务,因为场景文本通常具有各种比例形状和干扰,包括水平,多方向和弯曲以及背景与纹理干扰文本。
[0003]目前,深度学习方法在计算机视觉领域中得到广泛应用,在自然场景文本检测上已经取得了巨大的进步。从基于包围盒回归来成功定位具有特定方向或四边形形式的文本目标,到基于分割的算法来处理弯曲文本的检测问题。
[0004]然而,利用像素分割的方法虽然可以提取任意形状文本实例的区域,但当两个文本实例相对接近时,分割结果会重叠或者连接在一起,造成错误检测的问题。随着研究的不断深入,文本中心区域分割图被用于分离文本实例并取得了不错的性能。但文本中心区域分割图容易受到卷积神经网络特征提取能力的影响而导致分割性能差的问题。

技术实现思路

[0005]有鉴于此,本专利技术的目的在于提供一种基于选择性特征融合金字塔的场景文本检测方法,将通过数据增强手段处理后的数据集送入深度神经网络获得五种尺度的特征层,紧接着,经过选择性特征融合金字塔筛选后的特征层被送入多卷积分割头获得文本分割图,最后通过opencv下的连通域与轮廓检测算法获得文本检测结果。本专利技术在四个场景文本基准数据集上都展现出优秀的性能,证明我们所专利技术的网络结构能够有效检测自然场景文本。其中在任意形状文本数据集CTW

1500和Totaltext数据集上取得F 均值85%;在长直多方向文本数据集MSTA

TD500和ICDAR2015数据集上分别取得F均值84%和85%。
[0006]为实现上述目的,本专利技术采用如下技术方案:一种基于选择性特征融合金字塔的场景文本检测方法,包括基于选择性特征融合金字塔的场景文本检测网络,
[0007]场景文本的检测包括以下步骤:
[0008]步骤S1:获取不同场景中的包含文本的图像生成数据集,其中包含任意形状文本;
[0009]步骤S2:对数据集进行处理,得到用于训练数据集A与测试数据集B;
[0010]步骤S3:构建用于特征提取的深度神经网络;
[0011]步骤S4:训练阶段将训练数据集A送入深度神经网络中训练以及在测试阶段将测试数据集B送入深度神经网络中测试从而分别获得五种尺度的特征层;
[0012]步骤S5:构造选择性特征融合金字塔;
[0013]步骤S6:训练阶段将训练数据集A所获得的五种尺度特征层送入选择性特征融合
金字塔训练以及在测试阶段将测试数据集B所获得的五种尺度特征层送入选择性特征融合金字塔测试从而获得输出特征层;
[0014]步骤S7:训练阶段将输出特征层送入多卷积分割头训练输出文本分割图以及在测试阶段将输出特征层送入多卷积分割头输出文本分割图;
[0015]步骤S8:文本分割图生成候选框获得文本检测结果。
[0016]在一较佳的实施例中:步骤S1所采用的数据集为CTW1500、Totaltext、 MSRA

TD500、ICDAR2015四个数据集。
[0017]在一较佳的实施例中:步骤S2中数据处理部分,主要对训练数据集A 进行数据增强,包括旋转,放缩,随机剪裁镜像。
[0018]在一较佳的实施例中:步骤S3构建用于特征提取的深度神经网络,具体采用VGG16作为用于特征提取的深度神经网络;截断了模型的最后三层全连接层,得到一个全卷积网络,选取vgg16中5个阶段的特征层,分别为(1/2,1/4,1/8,1/16,1/32)尺度特征层作为本阶段的输出。
[0019]在一较佳的实施例中:步骤S5构建选择性特征融合金字塔,将其分为三个阶段,具体包括以下步骤:
[0020]步骤S51:第一阶段用于一次特征筛选,通过三个二维权重对五种不同尺度的特征层进行第一轮特征筛选;
[0021]二维权重计算公式如下所示:
[0022][0023]其中w
i
是二维权重,i=0,1,2,3;f
x
和f
y
代表四组相邻的特征层组;conv
n
×
n
是一个卷积核大小为n
×
n深度可分离卷积;H
j
是第一轮筛选得到的特征层,j=1,2,3;
[0024]步骤S52:第二阶段用于二次特征筛选,通过三组三维权重和一组二维权重对一次特征筛选结果和五种不同尺度特征层进行第二轮特征筛选;
[0025]三维权重计算公式如下所示:
[0026][0027]其中是三维权重,i=0,1,2,3;f
q
,f
p
,f
z
代表四组相邻的特征层组;F
k
是第二轮筛选后的特征层,k=1,2,3,4,5;
[0028]步骤S53:第三阶段构建金字塔特征融合结构,将二轮筛选后的特征层 F
k
上采样之后concat在一起得到最终的特征层F
final

[0029]在一较佳的实施例中:步骤S6训练阶段将训练数据集A所获得的五种尺度特征层送入选择性特征融合金字塔训练以及在测试阶段将测试数据集 B所获得的五种尺度特征层送入选择性特征融合金字塔测试从而获得输出特征层,步骤S4中深度神经网络产生的5种尺度的特征层被送入步骤S5 所建立的选择性特征融合金字塔中获得最终的输出特征层F
final
;步骤S5的前两个阶段为可循环阶段。
[0030]在一较佳的实施例中:步骤S7训练阶段将输出特征层送入多卷积分割头训练输出文本分割图以及在测试阶段将输出特征层送入多卷积分割头输出文本分割图,文本分割图
包括文本区域分割图和文本中心区域分割图两部分;步骤S6生成的输出特征层F
final
被送入多卷积分割头中进行降维,获得最终文本分割图;多卷积分割头由conv3×3,正则化BN层,激活函数ReLU, conv1×1,conv1×1构成;具体包括以下步骤:
[0031]步骤S71:步骤S6生成的输出特征层F
final
经过conv3×3,正则化BN层,激活函数ReLU,conv1×1得到维度为32的共享特征层F
s
,F
s
∈R
h
×
w
×
32
,其中R表示实数,h为高度,w为宽度;
[0032]步骤S72:将共享特征层F
s
经过conv1×1得到最终分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于选择性特征融合金字塔的场景文本检测方法,包括基于选择性特征融合金字塔的场景文本检测网络,其特征在于:场景文本的检测包括以下步骤:步骤S1:获取不同场景中的包含文本的图像生成数据集,其中包含任意形状文本;步骤S2:对数据集进行处理,得到用于训练数据集A与测试数据集B;步骤S3:构建用于特征提取的深度神经网络;步骤S4:训练阶段将训练数据集A送入深度神经网络中训练以及在测试阶段将测试数据集B送入深度神经网络中测试从而分别获得五种尺度的特征层;步骤S5:构造选择性特征融合金字塔;步骤S6:训练阶段将训练数据集A所获得的五种尺度特征层送入选择性特征融合金字塔训练以及在测试阶段将测试数据集B所获得的五种尺度特征层送入选择性特征融合金字塔测试从而获得输出特征层;步骤S7:训练阶段将输出特征层送入多卷积分割头训练输出文本分割图以及在测试阶段将输出特征层送入多卷积分割头输出文本分割图;步骤S8:文本分割图生成候选框获得文本检测结果。2.根据权利要求1所述的一种基于选择性特征融合金字塔的场景文本检测方法,其特征在于:步骤S1所采用的数据集为CTW1500、Totaltext、MSRA

TD500、ICDAR2015四个数据集。3.根据权利要求1所述的一种基于选择性特征融合金字塔的场景文本检测方法,其特征在于:步骤S2中数据处理部分,主要对训练数据集A进行数据增强,包括旋转,放缩,随机剪裁镜像。4.根据权利要求1所述的一种基于选择性特征融合金字塔的场景文本检测方法,其特征在于:步骤S3构建用于特征提取的深度神经网络,具体采用VGG16作为用于特征提取的深度神经网络;截断了模型的最后三层全连接层,得到一个全卷积网络,选取vgg16中5个阶段的特征层,分别为(1/2,1/4,1/8,1/16,1/32)尺度特征层作为本阶段的输出。5.根据权利要求1所述的一种基于选择性特征融合金字塔的场景文本检测方法,其特征在于:步骤S5构建选择性特征融合金字塔,将其分为三个阶段,具体包括以下步骤:步骤S51:第一阶段用于一次特征筛选,通过三个二维权重对五种不同尺度的特征层进行第一轮特征筛选;二维权重计算公式如下所示:其中w
i
是二维权重,i=0,1,2,3;f
x
和f
y
代表四组相邻的特征层组;conv
n
×
n
是一个卷积核大小为n
×
n深度可分离卷积;H
j
是第一轮筛选得到的特征层,j=1,2,3;步骤S52:第二阶段用于二次特征筛选,通过三组三维权重和一组二维权重对一次特征筛选结果和五种不同尺度特征层进行第二轮特征筛选;三维权重计算公式如下所示:
其中是三维权重,i=0,1,2,3;f
q
,f
p
,f
z
代表四组相邻的特征层...

【专利技术属性】
技术研发人员:陈平平陈宏辉游索
申请(专利权)人:福州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1