【技术实现步骤摘要】
一种基于选择性特征融合金字塔的场景文本检测方法
[0001]本专利技术涉及计算机视觉
,特别是一种基于选择性特征融合金字塔的场景文本检测方法。
技术介绍
[0002]近年来,自然场景文本识别一直是一个活跃的研究领域。自然场景文本检测是自然场景文本识别的关键步骤。自然场景文本检测因其众多的应用,如场景理解,产品识别,自动驾驶和目标地理定位等,引起了广泛的关注。其目的在于定位场景图像中的文本实例。这仍然是一个具有挑战性的任务,因为场景文本通常具有各种比例形状和干扰,包括水平,多方向和弯曲以及背景与纹理干扰文本。
[0003]目前,深度学习方法在计算机视觉领域中得到广泛应用,在自然场景文本检测上已经取得了巨大的进步。从基于包围盒回归来成功定位具有特定方向或四边形形式的文本目标,到基于分割的算法来处理弯曲文本的检测问题。
[0004]然而,利用像素分割的方法虽然可以提取任意形状文本实例的区域,但当两个文本实例相对接近时,分割结果会重叠或者连接在一起,造成错误检测的问题。随着研究的不断深入,文本中心区域分割图被用于分离文本实例并取得了不错的性能。但文本中心区域分割图容易受到卷积神经网络特征提取能力的影响而导致分割性能差的问题。
技术实现思路
[0005]有鉴于此,本专利技术的目的在于提供一种基于选择性特征融合金字塔的场景文本检测方法,将通过数据增强手段处理后的数据集送入深度神经网络获得五种尺度的特征层,紧接着,经过选择性特征融合金字塔筛选后的特征层被送入多卷积分割头获得文本分割图,最后通过 ...
【技术保护点】
【技术特征摘要】
1.一种基于选择性特征融合金字塔的场景文本检测方法,包括基于选择性特征融合金字塔的场景文本检测网络,其特征在于:场景文本的检测包括以下步骤:步骤S1:获取不同场景中的包含文本的图像生成数据集,其中包含任意形状文本;步骤S2:对数据集进行处理,得到用于训练数据集A与测试数据集B;步骤S3:构建用于特征提取的深度神经网络;步骤S4:训练阶段将训练数据集A送入深度神经网络中训练以及在测试阶段将测试数据集B送入深度神经网络中测试从而分别获得五种尺度的特征层;步骤S5:构造选择性特征融合金字塔;步骤S6:训练阶段将训练数据集A所获得的五种尺度特征层送入选择性特征融合金字塔训练以及在测试阶段将测试数据集B所获得的五种尺度特征层送入选择性特征融合金字塔测试从而获得输出特征层;步骤S7:训练阶段将输出特征层送入多卷积分割头训练输出文本分割图以及在测试阶段将输出特征层送入多卷积分割头输出文本分割图;步骤S8:文本分割图生成候选框获得文本检测结果。2.根据权利要求1所述的一种基于选择性特征融合金字塔的场景文本检测方法,其特征在于:步骤S1所采用的数据集为CTW1500、Totaltext、MSRA
‑
TD500、ICDAR2015四个数据集。3.根据权利要求1所述的一种基于选择性特征融合金字塔的场景文本检测方法,其特征在于:步骤S2中数据处理部分,主要对训练数据集A进行数据增强,包括旋转,放缩,随机剪裁镜像。4.根据权利要求1所述的一种基于选择性特征融合金字塔的场景文本检测方法,其特征在于:步骤S3构建用于特征提取的深度神经网络,具体采用VGG16作为用于特征提取的深度神经网络;截断了模型的最后三层全连接层,得到一个全卷积网络,选取vgg16中5个阶段的特征层,分别为(1/2,1/4,1/8,1/16,1/32)尺度特征层作为本阶段的输出。5.根据权利要求1所述的一种基于选择性特征融合金字塔的场景文本检测方法,其特征在于:步骤S5构建选择性特征融合金字塔,将其分为三个阶段,具体包括以下步骤:步骤S51:第一阶段用于一次特征筛选,通过三个二维权重对五种不同尺度的特征层进行第一轮特征筛选;二维权重计算公式如下所示:其中w
i
是二维权重,i=0,1,2,3;f
x
和f
y
代表四组相邻的特征层组;conv
n
×
n
是一个卷积核大小为n
×
n深度可分离卷积;H
j
是第一轮筛选得到的特征层,j=1,2,3;步骤S52:第二阶段用于二次特征筛选,通过三组三维权重和一组二维权重对一次特征筛选结果和五种不同尺度特征层进行第二轮特征筛选;三维权重计算公式如下所示:
其中是三维权重,i=0,1,2,3;f
q
,f
p
,f
z
代表四组相邻的特征层...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。