场景文本检测系统和方法技术方案

技术编号:15529775 阅读:82 留言:0更新日期:2017-06-04 17:03
公开一种场景文本检测系统。该系统可包括最大稳定极值区域(MSER)检测器、经过训练的卷积神经网络(CNN)分类器、选择器和构造器。最大稳定极值区域(MSER)检测器可被配置成从图像中生成文本成分的集合,其中生成的文本成分排列成MSER树形结构。经过训练的卷积神经网络(CNN)分类器可被配置成将成分置信分数分配到文本成分的集合中的每个文本成分。选择器可被配置成从文本成分集合中选择具有所分配的成分置信分数中的较高成分置信分数的文本成分。构造器可被配置成使用所选择的文本成分来构造最终文本。也公开一种场景文本检测方法。

Scene text detection system and method

A scene text detection system is disclosed. The system can include maximum stable extremal region (MSER) detectors, trained convolutional neural network (CNN) classifiers, selectors, and constructors. The maximum stable extremum region (MSER) detector can be configured to generate a collection of text components from the image, where the generated text components are arranged into a MSER tree structure. The trained convolutional neural network (CNN) classifier can be configured to assign component confidence scores to each text component in a collection of text components. A selector can be configured to select a text component from a text component set with a confidence score of the higher component confidence in the assigned component confidence score. The constructor can be configured to construct the final text using the selected text component. A method of scene text detection is also disclosed.

【技术实现步骤摘要】
【国外来华专利技术】场景文本检测系统和方法
本申请总体涉及图像处理的领域,更具体地说,涉及场景文本检测系统和场景文本检测方法。
技术介绍
近年来,随着高性能移动和可穿戴装置的快速发展和普及,场景文本检测和定位因其大量的潜在应用而受到越来越多的关注。图像中的文本通常含有重要的语义信息,所以文本的检测和识别对充分理解图像而言非常重要。场景文本检测的挑战来自极端多样性的文本模式、高度复杂的背景信息和严重的现实世界影响。例如,出现在自然图像中的文本可以是非常小的尺寸或者相对于背景颜色的较低对比度,甚至常规文本都可因强烈照明、遮蔽或模糊而失真。此外,大量噪声和类文本异常(诸如,窗户、树叶和砖块)可被包括在图像背景中,并且经常导致检测处理中出现很多假警报。近来,用于场景文本检测的方法主要有两组:基于滑动窗口的方法和基于连通成分的方法。基于滑动窗口的方法通过以多个尺度在图像的所有位置滑动子窗口来检测文本信息。文本和非文本信息随后由经过训练的分类器区分,该经过训练的分类器通常使用从窗口中提取的手动设计的低级特征,诸如,SIFT和方向梯度直方图。主要挑战在于用来处理文本的较大差异的局部特征的设计和用于扫描大量窗口的高度计算需求,该计算需求针对具有N个像素的图像可增加到N2。基于连通成分的方法首先通过运行快速低级滤波器来将文本和非文本像素分开,随后将具有类似性质(例如,强度、笔画宽度或颜色)的文本像素分组,以构造文本成分候选。笔画宽度变换(SWT)和最大稳定极值区域(MSER)是近来取得巨大成功的适于场景文本检测的两个代表性底层滤波器。MSER通常生成大量的非文本成分,导致MSER成分中的文本与非文本之间的模糊性较高。稳健地分开它们已经成为提高基于MSER的方法的性能的关键问题。尽管已经致力于处理这个问题,但目前多数用于MSER过滤的方法多集中在开发底层特征(诸如,启发特性或几何性质),以过滤掉非文本成分。这些底层特征不够稳健或不够有辨别力,无法区分真正的文本和经常与真正的文本具有类似启发或几何性质的类文本异常。
技术实现思路
根据本申请的实施例,公开了场景文本检测系统。该系统可包括最大稳定极值区域(MSER)检测器、卷积神经网络(CNN)分类器、选择器和构造器。最大稳定极值区域(MSER)检测器可被配置成从图像中生成文本成分集合,其中生成的文本成分排序成MSER树形结构。卷积神经网络(CNN)分类器可被配置成将成分置信分数分配到文本成分集合中的每个文本成分。过虑选择器可被配置成从文本成分集合中选择具有所分配的成分置信分数中的较高成分置信分数的文本成分。构造器可被配置成使用所选择的文本成分来构造最终文本。根据本申请的实施例,公开场景文本检测方法,并且该方法可包括:从图像中生成文本成分集合,其中生成的文本成分排序成树形结构;将成分置信分数分配到文本成分集合中的每个文本成分;从文本成分集合中选择具有所分配的成分置信分数中的较高的文本成分;以及使用所选择的文本成分来构造最终文本。附图说明下文参考附图描述本专利技术的示例性非限制实施例。附图是说明性的,并且一般不按确切比例。不同图上的相同或类似元件引用相同的参考编号。图1是示出符合本申请的实施例的场景文本检测系统的示意图。图2是示出符合一些公开实施例的场景文本检测系统在软件中实施时的示意图。图3是示出符合一些公开实施例的卷积神经网络分类器的示意图。图4是示出符合一些公开实施例的场景文本检测系统的选择器的示意图。图5是示出符合一些公开实施例的选择器的分割装置的示意图。图6是示出符合一些公开实施例的场景文本检测方法的示意流程图。图7是示出符合一些公开实施例的选择文本成分的过程的示意流程图。具体实施方式现在将详细参考示例性实施例,这些实施例的示例将在附图中说明。在适当的时候,附图中相同的参考编号始终指代相同或相似部分。图1是示出符合一些公开实施例的示例性场景文本检测系统1000的示意图。参考图1,在系统1000由硬件实施的情况下,它可包括最大稳定极值区域(MSER)检测器100、卷积神经网络(CNN)分类器200、选择器300和构造器400。应了解,系统1000可使用某一硬件、软件或它们的组合来实施。此外,本专利技术的实施例可适于计算机程序产品,所述计算机程序产品体现在含有计算机程序代码的一个或多个计算机可读存储介质上(包括但不限于,磁盘存储器、CD-ROM、光学存储器等)。图2是示出符合一些公开实施例的场景文本检测系统1000在软件中实施时的示意图。在用软件实施系统1000的情况下,系统1000可包括通用计算机、计算机集群、主流计算机、专用于提供在线内容的计算装置,或者计算机网络,所述计算机网络包括一组以集中或分布方式操作的计算机。如图2所示,系统1000可包括一个或多个处理器(处理器102、104、106等)、存储器112、存储装置116以及促进系统1000的各种装置之间的信息交换的总线。处理器102到106可包括中央处理单元(“CPU”)、图形处理单元(“GPU”)或者其他合适的信息处理装置。根据所使用的硬件的类型,处理器102到106可包括一个或多个印刷电路板和/或一个或多个微处理器芯片。处理器102到106可执行计算机程序指令的序列,以执行将在下文更详细地说明的各种方法。存储器112可尤其包括随机存取存储器(“RAM”)和只读存储器(“ROM”)。计算机程序指令可由存储器112存储、访问和从该存储器中读取,以便由处理器102到106中的一个或多个处理器执行。例如,存储器112可存储一个或多个软件应用。此外,存储器112可存储整个软件应用或者只存储可由处理器102到106中的一个或多个处理器执行的软件应用的一部分。应注意,尽管图2中只示出一个框,但存储器112可包括安装在中央处理装置或不同计算装置上的多个物理装置。在图1所示的实施例中,MSER检测器可被配置成从图像中生成文本成分集合,并且生成的文本成分排序成MSER树形结构。MSER将极值区域限定为这样一种图像的连通成分,即,该图像的像素相对于边界像素具有强度对比度。强度对比度通过增加强度值来测量,并且控制区域面积。低对比度值将生成大量的低级区域,所述低级区域通过像素之间的小的强度差被分开。当对比度值增加时,低级区域可以与当前级像素累积或者与其他更低级区域合并,以构造更高级区域。因此,当达到最大对比度时可构造极值区域树。如果极值区域的变化低于它的父节点和子节点,那么极值区域被限定为MSER。因此,MSER可被视作尺寸在一定范围的阈值上保持不变的特殊极值区域。在实施例中,图像中的文本的每个单独字符可被MSER检测器检测为极值区域或MSER。两个显著的优点使MSER检测器在场景文本检测中取得巨大成功。第一,MSER检测器是快速检测器并且可在线性时间内计算图像中的像素数量。第二,它是有很强能力来处理低质量文本(诸如,低对比度、低分辨率和模糊)的强大检测器。通过这个能力,MSER能够检测自然图像中的绝大多数场景文本。根据实施例,CNN分类器200可被配置成将成分置信分数分配到文本成分集合中的每个文本成分。如图3所示,CNN分类器200可包括至少一个卷积层、至少一个平均池化层、和支持向量机(SVM)分类器。每个卷积层之后是平均池化层,并且具有多个滤波器。本文档来自技高网
...
场景文本检测系统和方法

【技术保护点】
一种场景文本检测系统,其包括:最大稳定极值区域(MSER)检测器,其被配置成从图像中生成文本成分集合,其中生成的文本成分排序成MSER树形结构;卷积神经网络(CNN)分类器,其被配置成将成分置信分数分配到所述文本成分集合中的每个文本成分;选择器,其被配置成从所述文本成分集合中选择具有分配的成分置信分数中的较高成分置信分数的文本成分;以及构造器,其被配置成使用选择的文本成分来构造最终文本。

【技术特征摘要】
【国外来华专利技术】1.一种场景文本检测系统,其包括:最大稳定极值区域(MSER)检测器,其被配置成从图像中生成文本成分集合,其中生成的文本成分排序成MSER树形结构;卷积神经网络(CNN)分类器,其被配置成将成分置信分数分配到所述文本成分集合中的每个文本成分;选择器,其被配置成从所述文本成分集合中选择具有分配的成分置信分数中的较高成分置信分数的文本成分;以及构造器,其被配置成使用选择的文本成分来构造最终文本。2.根据权利要求1所述的场景文本检测系统,其中所述CNN分类器使用预定训练集进行训练,以分配所述置信分数。3.根据权利要求1所述的场景文本检测系统,其中所述CNN分类器包括至少一个卷积层、至少一个平均池化层、和支持向量机(SVM)分类器,以及其中,所述每个卷积层之后是平均池化层和多个滤波器。4.根据权利要求3所述的场景文本检测系统,其中所述至少一个卷积层包括两个卷积层。5.根据权利要求4所述的场景文本检测系统,其中所述两个卷积层的第一卷积层的滤波器被配置成通过使用非监督K均值来根据从所述预定训练集中提取的图像块集合进行学习以生成响应,并且所述两个卷积层的第二卷积层的滤波器被配置成通过反向传播从所述SVM分类器中生成的SVM分类误差来基于生成的所述响应进行学习以获取所述文本成分的所述成分置信分数。6.根据权利要求1所述的场景文本检测系统,其中所述选择器还包括:标定装置,其被配置成基于所述分配的成分置信分数和所述MSER树形结构,从所述选择的文本成分中标定出错误连接的文本成分;以及分割装置,其被配置成将所述错误连接的文本成分分割为具有较高成分置信分数的文本成分。7.根据权利要求6所述的场景文本检测系统,其中所述分割装置还包括:调整尺寸单元,其被配置成将所标定出的错误连接的文本成分调整到预定尺寸;扫描仪,其被配置成扫描调整尺寸后的文本成分,以通过滑动窗口来获取成分置信分数的一维阵列;以及识别单元,其被配置成基于所述一维阵列来识别所述错误连接的文本成分的峰位置,以将所述错误连接的文本成分分割为具有较高成分置信分数的文本成分。8.根据权利要求6所述的场景文本检测系统,其中用于标定错误连接的文本成分的条件包括:所述文本成分的宽度/高度的纵横比大于2;所述文本成分具有正置信分数;以及所述文本成分在所述MSER树形结构的端节点,或者具有比所述MSER树形结构中的所有子辈节点大的置信分数。9.根据权利要求1所述的场景文本检测系统,其中所述构造器还包括:配对单元,其被配置成将所述选择的文本成分中的具有类似几何和启发性质的两个文本成分配对;以及合并单元,其被配置成按顺序将具有相同成分和类似方向的配对合并,以构造所述最终文本。10.一种场景文本检测方法,其包括:从图像中生成文本成分集合,其中生成的文本成分排序成树形结构;将成分置信分数分配到所述文本成分集合中的每个文本成分;从所述文本成分...

【专利技术属性】
技术研发人员:汤晓鸥黄韡林乔宇
申请(专利权)人:北京市商汤科技开发有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1