一种基于文本中心区域扩增的藏汉双语场景文本检测方法技术

技术编号:27744224 阅读:44 留言:0更新日期:2021-03-19 13:38
本发明专利技术公开了一种基于文本中心区域扩增的藏汉双语场景文本检测方法,该方法包括:采用可视化工具对数据进行标注,基于改进人工合成图像的方法生成藏汉双语场景文本图像,构建藏汉双语场景文本检测数据库;对生成的藏汉双语场景文本图像进行检测,确定文本区域在场景图像中的具体位置;通过预测文本区域、文本中心区域以及文本中心区域边界到完整文本实例边界的距离,从文本中心区域开始扩增,最终获取文本实例。实验结果表明,本发明专利技术提出的模型能够以75.47%的准确率检测出测试集中的双语文本,获得较好的检测性能,为藏汉双语场景文本检测与识别奠定了基础。

【技术实现步骤摘要】
一种基于文本中心区域扩增的藏汉双语场景文本检测方法
本专利技术涉及图像处理
,特别是涉及一种基于文本中心区域扩增的藏汉双语场景文本检测方法。
技术介绍
自然场景是指我们日常生活的环境,包括室内和户外环境。很多场景中含有丰富的文字信息,这对理解自然场景图像有着十分重要的作用。随着智能科技的飞速发展,许多应用场合都需要利用场景中丰富的文字信息,例如自动驾驶、交通监控和智慧城市建设等。而对于场景中的文字,其文字类型不一、光照不同、背景复杂、形状多样、尺度多变、容易受物理因素的影响,使得检测和识别难度远大于传统的扫描文档图像。场景文字检测是判断拍摄的图像中是否有文本实例的过程,是场景文本分析与处理的基石。在中国藏区,日常文字信息几乎都包含藏文和汉文,比如广告牌、宣传栏、路牌、商店名称等。目前还没有藏汉双语场景文本检测的研究成果。传统方法主要是基于连通域和纹理信息,最典型的方法有基于笔画宽度变换(SWT)的方法,该方法把有着相似笔画宽度的位置都被聚合成文本行,再将文本行切分成一个个字符;基于最大稳定极值区域(MSER)的方法,该方法首先提取最大稳定极值区域,然后对每个MSER的形状和颜色特征使用SVM进行分类获得检测字符。这些方法依赖所设计的特征,只适应较简单的场景,其准确性和鲁棒性等方面无法与基于深度学习的方法相比。因此为了适应藏汉双语场景文本检测任务,亟需一种双语场景文本检测方法。
技术实现思路
为了适应藏汉双语场景文本检测任务,本专利技术利用人工标注和自动合成的方法构建藏汉双语场景文本检测数据库,用来训练网络并评估我们的方法对藏汉双语场景文本检测的性能。为实现上述目的,本专利技术提供了如下方案:一种基于文本中心区域扩增的藏汉双语场景文本检测方法,包括以下步骤:S1、构建数据集,采用可视化工具对数据进行标注,基于改进人工合成图像的方法生成藏汉双语场景文本图像,构建藏汉双语场景文本检测数据库;S2、对生成的藏汉双语场景文本图像进行检测,确定文本区域在场景图像中的具体位置;S3、通过预测文本区域、文本中心区域以及文本中心区域边界到完整文本实例边界的距离,从文本中心区域开始扩增,最终获取文本实例。优选地,所述步骤S1中构建数据集的具体步骤为:将从藏区拍摄到的真实样本,采用可视化标注工具,对所述样本进行文本行标注,并改进现有合成图像的算法合成带有文本标注信息的场景文本图像,构建藏汉双语场景文本检测数据库。优选地,对文本行进行标注的方法为四边形标注,包括以下步骤:S1.1、用四边形框选出图像中的文本实例,使所框选区域的背景减少;S1.2、记录每个框内文本行的内容;S1.3、为每张已标记的图像生成json格式的标签文件,将其转成txt文件。优选地,采用改进的人工合成图像的方法,对所述生成的带有标注信息的藏汉场景文本图像进行合成,合成方法包括以下步骤:S1.11、收集不含文字的自然场景作为背景图像,利用若干个藏汉双语词条作为文本语料,将常用的藏、汉字体作为渲染文字的字体;S1.12、使用CNN模型获得图像的像素级深度图像,提取深度信息;结合局部颜色和纹理特征,将所述背景图像分割成多个连续区域,获得区域分割图像;将所述背景图像、区域分割图像、深度图像及其信息集于一体,获得图像综合数据;S1.13、根据图像分割区域的长宽、面积、纵横比,过滤掉不满足放文本的区域,在过滤后的区域找到处于同一平面数据点,如果各个区域中处于同一平面的数据点的数量不满足给定的阈值,则滤除该区域;再利用剩下区域的深度信息,使用RANSAC算法获得每个区域的表面法向量,根据表面法向量将每个区域拟合成若干个矩形区域蒙版,放置文本的二进制掩码;S1.14、随机选择渲染文本的字体,根据字体大小和纵横比选择适合嵌入文本的矩形区域;S1.15、从语料库中随机选择文本放入所述矩形区域,根据矩形区域的法线方向、纹理颜色分别为文本指定方向和颜色,渲染得到含有文本的矩形区域,最终使用泊松编辑将渲染后的文本矩形区域转换回原始状态。优选地,所述步骤S2中对生成的藏汉双语场景文本图像进行检测,包括以下步骤:S2.1、特征提取:使用ResNet作为骨干网络提取输入图像的特征图作为特征金字塔FP1;S2.2、特征增强:将所述特征金字塔FP1连接到特征金字塔增强模块FPEM,增强不同尺度的特征;S2.3、特征融合:将不同网络层的特征进行融合获得特征金字塔FP4,再将特征金字塔FP4中不同大小的特征图进行上采样,连接成特征图F;S2.4、目标预测:在特征图F上分别预测矩形文本区域、文本中心区域、以及文本中心区域向外扩增的距离。优选地,所述步骤S3中通过预测的文本区域和文本中心区域可分别获得每个文本实例i的文字分类得分BSi和CSi:其中,表示预测的矩形文本区域分割图fb(x,y)第i个文本实例区域内的像素值;表示预测的文本中心区域分割图fc(x,y)第i个文本实例区域内的像素值,sigmoid(·)指sigmoid函数。优选地,融合所述文本区域和文本中心区域的分类得分,融合后的文本区域最终得分表示为TS,第i个文本实例的融合得分为:然后将阈值Smin应用于每个融合后的得分区域,用于过滤一些文字得分较低以及文字得分不平衡的文本实例。优选地,利用网络学习到的文本中心区域边界到完整文本实例边界的距离,按照Vatti裁剪算法从过滤后的文本中心区域开始扩增,从而获得完整的文本检测区域,扩增的距离d′的计算公式为:其中,f(x,y)指扩增距离预测图中文本区域R内的像素值。本专利技术的有益效果为:(1)本专利技术基于分割的算法,不受文本形状的限制,能够检测各种形状的文本,经过训练获得后处理参数,大大减少了时间损耗;(2)本专利技术用ResNet作为骨干网络,后接FPEM模块用于增强输入的特征金字塔,对FPEM输出的特征金字塔用FPN将所有尺度的特征再次连接,最后在组合不同尺度的特征图上预测矩形文本区域、文本中心区域以及文本中心区域边界到完整文本实例边界的距离,以便从文本中心区域扩增到完整的文本实例,完成对任意方向、形状的文本检测。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术方法流程图;图2为本专利技术合成图像方案示意图;图3为本专利技术实施例中藏汉双语文字图像合成示意图;图4为本专利技术文本检测网络结构示意图,其中“+”,“x2”,“DWConv”,“Conv”,“BN”,“ReLU”和“C”分别表示对应位置像素值相加、2倍线性上采样、深度可分离卷积、普通卷积、批量归一化、ReLU激活和拼接(c本文档来自技高网...

【技术保护点】
1.一种基于文本中心区域扩增的藏汉双语场景文本检测方法,其特征在于,包括以下步骤:/nS1、构建数据集,采用可视化工具对数据进行标注,基于改进人工合成图像的方法生成藏汉双语场景文本图像,构建藏汉双语场景文本检测数据库;/nS2、对生成的藏汉双语场景文本图像进行检测,确定文本区域在场景图像中的具体位置;/nS3、通过预测文本区域、文本中心区域以及文本中心区域边界到完整文本实例边界的距离,从文本中心区域开始扩增,最终获取文本实例。/n

【技术特征摘要】
1.一种基于文本中心区域扩增的藏汉双语场景文本检测方法,其特征在于,包括以下步骤:
S1、构建数据集,采用可视化工具对数据进行标注,基于改进人工合成图像的方法生成藏汉双语场景文本图像,构建藏汉双语场景文本检测数据库;
S2、对生成的藏汉双语场景文本图像进行检测,确定文本区域在场景图像中的具体位置;
S3、通过预测文本区域、文本中心区域以及文本中心区域边界到完整文本实例边界的距离,从文本中心区域开始扩增,最终获取文本实例。


2.根据权利要求1所述的基于文本中心区域扩增的藏汉双语场景文本检测方法,其特征在于,所述步骤S1中构建数据集的具体步骤为:将从藏区拍摄到的真实样本,采用可视化标注工具,对所述样本进行文本行标注,并改进现有合成图像的算法合成带有文本标注信息的场景文本图像,构建藏汉双语场景文本检测数据库。


3.根据权利要求2所述的基于文本中心区域扩增的藏汉双语场景文本检测方法,其特征在于,对文本行进行标注的方法为四边形标注,包括以下步骤:
S1.1、用四边形框选出图像中的文本实例,使所框选区域的背景减少;
S1.2、记录每个框内文本行的内容;
S1.3、为每张已标记的图像生成json格式的标签文件,将其转成txt文件。


4.根据权利要求3所述的基于文本中心区域扩增的藏汉双语场景文本检测方法,其特征在于,采用改进的人工合成图像的方法,对所述生成的带有标注信息的藏汉场景文本图像进行合成,合成方法包括以下步骤:
S1.11、收集不含文字的自然场景作为背景图像,利用若干个藏汉双语词条作为文本语料,将常用的藏、汉字体作为渲染文字的字体;
S1.12、使用CNN模型获得图像的像素级深度图像,提取深度信息;结合局部颜色和纹理特征,将所述背景图像分割成多个连续区域,获得区域分割图像;将所述背景图像、区域分割图像、深度图像及其信息集于一体,获得图像综合数据;
S1.13、根据图像分割区域的长宽、面积、纵横比,过滤掉不满足放文本的区域,在过滤后的区域找到处于同一平面数据点,如果各个区域中处于同一平面的数据点的数量不满足给定的阈值,则滤除该区域;再利用剩下区域的深度信息,使用RANSAC算法获得每个区域的表面法向量,根据表面法向量将每个区域拟合成若干个矩形区域蒙版,放置文本的二进制掩码;
S1.14、随机选择渲染文本的字体,根据字体大小和纵横比选择适合嵌入文本的...

【专利技术属性】
技术研发人员:王维兰李金成郝玉胜王铁君李巧巧
申请(专利权)人:西北民族大学
类型:发明
国别省市:甘肃;62

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1