A scene text detection system is disclosed. The system can include maximum stable extremal region (MSER) detectors, trained convolutional neural network (CNN) classifiers, selectors, and constructors. The maximum stable extremum region (MSER) detector can be configured to generate a collection of text components from the image, where the generated text components are arranged into a MSER tree structure. The trained convolutional neural network (CNN) classifier can be configured to assign component confidence scores to each text component in a collection of text components. A selector can be configured to select a text component from a text component set with a confidence score of the higher component confidence in the assigned component confidence score. The constructor can be configured to construct the final text using the selected text component. A method of scene text detection is also disclosed.
【技术实现步骤摘要】
【国外来华专利技术】场景文本检测系统和方法
本申请总体涉及图像处理的领域,更具体地说,涉及场景文本检测系统和场景文本检测方法。
技术介绍
近年来,随着高性能移动和可穿戴装置的快速发展和普及,场景文本检测和定位因其大量的潜在应用而受到越来越多的关注。图像中的文本通常含有重要的语义信息,所以文本的检测和识别对充分理解图像而言非常重要。场景文本检测的挑战来自极端多样性的文本模式、高度复杂的背景信息和严重的现实世界影响。例如,出现在自然图像中的文本可以是非常小的尺寸或者相对于背景颜色的较低对比度,甚至常规文本都可因强烈照明、遮蔽或模糊而失真。此外,大量噪声和类文本异常(诸如,窗户、树叶和砖块)可被包括在图像背景中,并且经常导致检测处理中出现很多假警报。近来,用于场景文本检测的方法主要有两组:基于滑动窗口的方法和基于连通成分的方法。基于滑动窗口的方法通过以多个尺度在图像的所有位置滑动子窗口来检测文本信息。文本和非文本信息随后由经过训练的分类器区分,该经过训练的分类器通常使用从窗口中提取的手动设计的低级特征,诸如,SIFT和方向梯度直方图。主要挑战在于用来处理文本的较大差异的局部特征的设计和用于扫描大量窗口的高度计算需求,该计算需求针对具有N个像素的图像可增加到N2。基于连通成分的方法首先通过运行快速低级滤波器来将文本和非文本像素分开,随后将具有类似性质(例如,强度、笔画宽度或颜色)的文本像素分组,以构造文本成分候选。笔画宽度变换(SWT)和最大稳定极值区域(MSER)是近来取得巨大成功的适于场景文本检测的两个代表性底层滤波器。MSER通常生成大量的非文本成分,导致MSER成分中的文本与 ...
【技术保护点】
一种场景文本检测系统,其包括:最大稳定极值区域(MSER)检测器,其被配置成从图像中生成文本成分集合,其中生成的文本成分排序成MSER树形结构;卷积神经网络(CNN)分类器,其被配置成将成分置信分数分配到所述文本成分集合中的每个文本成分;选择器,其被配置成从所述文本成分集合中选择具有分配的成分置信分数中的较高成分置信分数的文本成分;以及构造器,其被配置成使用选择的文本成分来构造最终文本。
【技术特征摘要】
【国外来华专利技术】1.一种场景文本检测系统,其包括:最大稳定极值区域(MSER)检测器,其被配置成从图像中生成文本成分集合,其中生成的文本成分排序成MSER树形结构;卷积神经网络(CNN)分类器,其被配置成将成分置信分数分配到所述文本成分集合中的每个文本成分;选择器,其被配置成从所述文本成分集合中选择具有分配的成分置信分数中的较高成分置信分数的文本成分;以及构造器,其被配置成使用选择的文本成分来构造最终文本。2.根据权利要求1所述的场景文本检测系统,其中所述CNN分类器使用预定训练集进行训练,以分配所述置信分数。3.根据权利要求1所述的场景文本检测系统,其中所述CNN分类器包括至少一个卷积层、至少一个平均池化层、和支持向量机(SVM)分类器,以及其中,所述每个卷积层之后是平均池化层和多个滤波器。4.根据权利要求3所述的场景文本检测系统,其中所述至少一个卷积层包括两个卷积层。5.根据权利要求4所述的场景文本检测系统,其中所述两个卷积层的第一卷积层的滤波器被配置成通过使用非监督K均值来根据从所述预定训练集中提取的图像块集合进行学习以生成响应,并且所述两个卷积层的第二卷积层的滤波器被配置成通过反向传播从所述SVM分类器中生成的SVM分类误差来基于生成的所述响应进行学习以获取所述文本成分的所述成分置信分数。6.根据权利要求1所述的场景文本检测系统,其中所述选择器还包括:标定装置,其被配置成基于所述分配的成分置信分数和所述MSER树形结构,从所述选择的文本成分中标定出错误连接的文本成分;以及分割装置,其被配置成将所述错误连接的文本成分分割为具有较高成分置信分数的文本成分。7.根据权利要求6所述的场景文本检测系统,其中所述分割装置还包括:调整尺寸单元,其被配置成将所标定出的错误连接的文本成分调整到预定尺寸;扫描仪,其被配置成扫描调整尺寸后的文本成分,以通过滑动窗口来获取成分置信分数的一维阵列;以及识别单元,其被配置成基于所述一维阵列来识别所述错误连接的文本成分的峰位置,以将所述错误连接的文本成分分割为具有较高成分置信分数的文本成分。8.根据权利要求6所述的场景文本检测系统,其中用于标定错误连接的文本成分的条件包括:所述文本成分的宽度/高度的纵横比大于2;所述文本成分具有正置信分数;以及所述文本成分在所述MSER树形结构的端节点,或者具有比所述MSER树形结构中的所有子辈节点大的置信分数。9.根据权利要求1所述的场景文本检测系统,其中所述构造器还包括:配对单元,其被配置成将所述选择的文本成分中的具有类似几何和启发性质的两个文本成分配对;以及合并单元,其被配置成按顺序将具有相同成分和类似方向的配对合并,以构造所述最终文本。10.一种场景文本检测方法,其包括:从图像中生成文本成分集合,其中生成的文本成分排序成树形结构;将成分置信分数分配到所述文本成分集合中的每个文本成分;从所述文本成分...
【专利技术属性】
技术研发人员:汤晓鸥,黄韡林,乔宇,
申请(专利权)人:北京市商汤科技开发有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。