一种基于文本中心区域扩增的藏汉双语场景文本检测方法技术

技术编号：27744224 阅读：44 留言：0更新日期：2021-03-19 13:38

本发明专利技术公开了一种基于文本中心区域扩增的藏汉双语场景文本检测方法，该方法包括：采用可视化工具对数据进行标注，基于改进人工合成图像的方法生成藏汉双语场景文本图像，构建藏汉双语场景文本检测数据库；对生成的藏汉双语场景文本图像进行检测，确定文本区域在场景图像中的具体位置；通过预测文本区域、文本中心区域以及文本中心区域边界到完整文本实例边界的距离，从文本中心区域开始扩增，最终获取文本实例。实验结果表明，本发明专利技术提出的模型能够以75.47％的准确率检测出测试集中的双语文本，获得较好的检测性能，为藏汉双语场景文本检测与识别奠定了基础。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于文本中心区域扩增的藏汉双语场景文本检测方法
本专利技术涉及图像处理
，特别是涉及一种基于文本中心区域扩增的藏汉双语场景文本检测方法。
技术介绍
自然场景是指我们日常生活的环境，包括室内和户外环境。很多场景中含有丰富的文字信息，这对理解自然场景图像有着十分重要的作用。随着智能科技的飞速发展，许多应用场合都需要利用场景中丰富的文字信息，例如自动驾驶、交通监控和智慧城市建设等。而对于场景中的文字，其文字类型不一、光照不同、背景复杂、形状多样、尺度多变、容易受物理因素的影响，使得检测和识别难度远大于传统的扫描文档图像。场景文字检测是判断拍摄的图像中是否有文本实例的过程，是场景文本分析与处理的基石。在中国藏区，日常文字信息几乎都包含藏文和汉文，比如广告牌、宣传栏、路牌、商店名称等。目前还没有藏汉双语场景文本检测的研究成果。传统方法主要是基于连通域和纹理信息，最典型的方法有基于笔画宽度变换(SWT)的方法，该方法把有着相似笔画宽度的位置都被聚合成文本行，再将文本行切分成一个个字符；基于最大稳定极值区域(MSER)的方法，该方法首先提取最大稳定极值区域，然后对每个MSER的形状和颜色特征使用SVM进行分类获得检测字符。这些方法依赖所设计的特征，只适应较简单的场景，其准确性和鲁棒性等方面无法与基于深度学习的方法相比。因此为了适应藏汉双语场景文本检测任务，亟需一种双语场景文本检测方法。
技术实现思路
为了适应藏汉双语场景文本检测任务，本专利技术利用人工标注和自动合成的方法构建藏汉双语场...

【技术保护点】
1.一种基于文本中心区域扩增的藏汉双语场景文本检测方法，其特征在于，包括以下步骤：/nS1、构建数据集，采用可视化工具对数据进行标注，基于改进人工合成图像的方法生成藏汉双语场景文本图像，构建藏汉双语场景文本检测数据库；/nS2、对生成的藏汉双语场景文本图像进行检测，确定文本区域在场景图像中的具体位置；/nS3、通过预测文本区域、文本中心区域以及文本中心区域边界到完整文本实例边界的距离，从文本中心区域开始扩增，最终获取文本实例。/n

【技术特征摘要】
1.一种基于文本中心区域扩增的藏汉双语场景文本检测方法，其特征在于，包括以下步骤：
S1、构建数据集，采用可视化工具对数据进行标注，基于改进人工合成图像的方法生成藏汉双语场景文本图像，构建藏汉双语场景文本检测数据库；
S2、对生成的藏汉双语场景文本图像进行检测，确定文本区域在场景图像中的具体位置；
S3、通过预测文本区域、文本中心区域以及文本中心区域边界到完整文本实例边界的距离，从文本中心区域开始扩增，最终获取文本实例。

2.根据权利要求1所述的基于文本中心区域扩增的藏汉双语场景文本检测方法，其特征在于，所述步骤S1中构建数据集的具体步骤为：将从藏区拍摄到的真实样本，采用可视化标注工具，对所述样本进行文本行标注，并改进现有合成图像的算法合成带有文本标注信息的场景文本图像，构建藏汉双语场景文本检测数据库。

3.根据权利要求2所述的基于文本中心区域扩增的藏汉双语场景文本检测方法，其特征在于，对文本行进行标注的方法为四边形标注，包括以下步骤：
S1.1、用四边形框选出图像中的文本实例，使所框选区域的背景减少；
S1.2、记录每个框内文本行的内容；
S1.3、为每张已标记的图像生成json格式的标签文件，将其转成txt文件。

4.根据权利要求3所述的基于文本中心区域扩增的藏汉双语场景文本检测方法，其特征在于，采用改进的人工合成图像的方法，对所述生成的带有标注信息的藏汉场景文本图像进行合成，合成方法包括以下步骤：
S1.11、收集不含文字的自然场景作为背景图像，利用若干个藏汉双语词条作为文本语料，将常用的藏、汉字体作为渲染文字的字体；
S1.12、使用CNN模型获得图像的像素级深度图像，提取深度信息；结合局部颜色和纹理特征，将所述背景图像分割成多个连续区域，获得区域分割图像；将所述背景图像、区域分割图像、深度图像及其信息集于一体，获得图像综合数据；
S1.13、根据图像分割区域的长宽、面积、纵横比，过滤掉不满足放文本的区域，在过滤后的区域找到处于同一平面数据点，如果各个区域中处于同一平面的数据点的数量不满足给定的阈值，则滤除该区域；再利用剩下区域的深度信息，使用RANSAC算法获得每个区域的表面法向量，根据表面法向量将每个区域拟合成若干个矩形区域蒙版，放置文本的二进制掩码；
S1.14、随机选择渲染文本的字体，根据字体大小和纵横比选择适合嵌入文本的...

【专利技术属性】
技术研发人员：王维兰，李金成，郝玉胜，王铁君，李巧巧，
申请(专利权)人：西北民族大学，
类型：发明
国别省市：甘肃;62

全部详细技术资料下载我是这个专利的主人