本发明专利技术公开了文本行提取方法和文本行提取设备。根据本发明专利技术的文本行提取方法包括:提取输入文档图像中的连通域;确定连通域之间的潜在链接;调整潜在链接构成的生成树;以及基于调整后的生成树,优化与生成树对应的文本行,使得文本行中字符的总差异最小。根据本发明专利技术的文本行提取方法和文本行提取设备能够准确地、鲁棒地提取出文档图像中的文本行。
【技术实现步骤摘要】
本专利技术一般地涉及图像处理领域。具体而言,本专利技术涉及一种能够准确地、鲁棒地提取文档图像中的文本行的方法和设备。
技术介绍
近年来,图像处理技术得到了蓬勃的发展。其中,涉及文档图像的光学字符识别处理在商业和个人的应用中较为广泛地存在。对于光学字符识别技术来说,一个基本的任务是提取文档图像中的文本行。在此基础之上,才能进行确定文本行的方向、确定文本行中的字符等操作。图1示出了提取文档图像中的文本行的结果的示例。其中,用穿过文字的横线表明所提取的文本行的位置和包含的字符。由于提取文本行的处理需要应用到广泛的文档图像类型,例如图书、手册、封面、杂志、报纸等,所以复杂的背景、不同的行方向、低图像质量、不同类型的语言文字等提高了文本行提取处理的难度。大多数传统的提取文本行的处理针对特定类型的文档的特殊文本行形式,无法以通用的处理方式,准确地提取各种类型的文档图像中的文本行。因此,期望一种提取文档图像中的文本行的方法和设备,其能够准确地、鲁棒地提取各种类型的文档图像中的文本行。
技术实现思路
在下文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。应当理解,这个概述并不是关于本专利技术的穷举性概述。
它并不是意图确定本专利技术的关键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。本专利技术的目的是针对现有技术的上述问题,提出了一种能够准确地、鲁棒地提取各种类型的文档图像中的文本行的方法和设备。为了实现上述目的,根据本专利技术的一个方面,提供了一种文本行提取方法,该文本行提取方法包括:提取输入文档图像中的连通域;确定连通域之间的潜在链接;调整潜在链接构成的生成树;以及基于调整后的生成树,优化与生成树对应的文本行,使得文本行中字符的总差异最小。根据本专利技术的另一个方面,提供了一种文本行提取设备,该文本行提取设备包括:连通域提取装置,被配置为:提取输入文档图像中的连通域;潜在链接确定装置,被配置为:确定连通域之间的潜在链接;生成树调整装置,被配置为:调整潜在链接构成的生成树;以及文本行优化装置,被配置为:基于调整后的生成树,优化与生成树对应的文本行,使得文本行中字符的总差异最小。另外,根据本专利技术的另一方面,还提供了一种存储介质。所述存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据本专利技术的上述方法。此外,根据本专利技术的再一方面,还提供了一种程序产品。所述程序产品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据本专利技术的上述方法。附图说明参照下面结合附图对本专利技术实施例的说明,会更加容易地理解本专利技术的以上和其它目的、特点和优点。附图中的部件只是为了示出本专利技术的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。附图中:图1示出了提取文档图像中的文本行的结果的示例;图2示出了根据本专利技术的实施例的文本行提取方法的流程图;图3示出了确定连通域之间的潜在链接的方法的流程图;图4示出了调整潜在链接构成的生成树的方法的流程图;图5示出了根据本专利技术实施例的文本行提取设备的结构方框图;以及图6示出了可用于实施根据本专利技术实施例的方法和设备的计算机的示意性框图。具体实施方式在下文中将结合附图对本专利技术的示范性实施例进行详细描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施方式的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本专利技术,在附图中仅仅示出了与根据本专利技术的方案密切相关的装置结构和/或处理步骤,而省略了与本专利技术关系不大的其他细节。另外,还需要指出的是,在本专利技术的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。下面将参照图2描述根据本专利技术的实施例的文本行提取方法的流程。图2示出了根据本专利技术的实施例的文本行提取方法的流程图。如图2所示,根据本专利技术的实施例的文本行提取方法包括如下步骤:提取输入文档图像中的连通域(步骤S1);确定连通域之间的潜在链接(步骤S2);
调整潜在链接构成的生成树(步骤S3);以及基于调整后的生成树,优化与生成树对应的文本行,使得文本行中字符的总差异最小(步骤S4)。在步骤S1中,提取输入文档图像中的连通域。连通域的提取是图像处理技术中常见的操作,在此不受特别的限制,可以采用任何已知的适当的方法来提取连通域。例如,利用最大稳定极值区域(Maximal Stable Extremal Region,MSER)算法。应注意,可分别在黑底白字假设下和白底黑字假设下提取连通域,这样可以提取到最全面的前景文字。当然,也可以仅在黑底白字假设下或白底黑字假设下提取连通域,这样对于仅出现黑底白字或白底黑字一种文字的情况可以减少不必要的计算量。应注意,如果分别在黑底白字假设下和白底黑字假设下提取出第一连通域和第二连通域,则针对第一连通域和第二连通域分别进行后续的各个处理,而不是对于第一连通域和第二连通域一起进行后续的各个处理。提取出连通域之后,可以利用分类器融合的方法来快速地、准确地去除非文本的连通域。Adaboost分类器可以快速地将连通域分类为文本和非文本两类,Adaboost分类器所利用的特征例如包括连通域的宽度、高度、长宽比、前景/背景灰度值比、归一化的前景/背景灰度值比、占空比、方差等。CNN分类器可以准确地将连通域分类为文本和非文本两类,CNN分类器所利用的特征例如是灰度特征。分类器融合方法可以是先利用Adaboost分类器将连通域分类为正样本和负样本,然后将Adaboost分类器分类出的负样本去除。对于Adaboost分类器分类出的正样本中具有低置信度的正样本,再次使用CNN分类器分类,将CNN分类器分类出的负样本去除。这样,利用了Adaboost分类器处理速度快的优势,分类了大多数连
通域,对于Adaboost分类器分类出的低置信度的正样本,利用CNN分类器进行再次分类,保证了分类的正确性。Adaboost分类器仅为处理速度快的分类器的示例,CNN分类器仅为分类准确的分类器的示例,本专利技术不限于此。也可以仅采用一种分类器,而非利用分类器融合来对连通域进行分类。在步骤S2中,确定连通域之间的潜在链接。连通域之间的链接将连通域连成文本行,为此,需要找到并确定连通域之间的链接。在步骤S2中,寻找可能的链接,即潜在链接。具体地,如图3所示,在步骤S31中,针对每个连通域,确定多个预定方向上的候选链接。多个预定方向例如是0°、45°、90°、135°、180°、225°、270°、315°方向。0°和180°表示水平方向向左和水平方向向右。候选链接连接的是相邻的两个连通域。相邻与否例如可通过下面的公式本文档来自技高网...
【技术保护点】
一种文本行提取方法,包括:提取输入文档图像中的连通域;确定连通域之间的潜在链接;调整潜在链接构成的生成树;以及基于调整后的生成树,优化与生成树对应的文本行,使得文本行中字符的总差异最小。
【技术特征摘要】
1.一种文本行提取方法,包括:提取输入文档图像中的连通域;确定连通域之间的潜在链接;调整潜在链接构成的生成树;以及基于调整后的生成树,优化与生成树对应的文本行,使得文本行中字符的总差异最小。2.如权利要求1所述的方法,其中所述确定连通域之间的潜在链接包括:针对每个连通域,确定多个预定方向上的候选链接;针对每个候选链接,计算候选链接的权值;根据候选链接的权值的大小,选取预定数量的候选链接作为所述潜在链接。3.如权利要求1所述的方法,其中所述调整潜在链接构成的生成树包括:按照链接权值最小原则,基于潜在链接,构建包括所有连通域的最小生成树;按照预定准则,调整所构建的生成树上的潜在链接,直至满足预定条件。4.如权利要求3所述的方法,其中所述按照预定准则,调整所构建的生成树上的潜在链接包括:去除生成树上的与同一连通域关联的4个或更多个潜在链接;去除生成树上的与同一连通域关联的3个潜在链接中不能两两构成线性链接的潜在链接;去除生成树上的与同一连通域关联的、不能构成线性链接的2个潜在链接;如果此时不满足预定条件,则对于因上述去除而与生成树不存在连接的连通域,按照链接权值最小原则,基于潜在链接,重新将这样的连通域与生成树上的连通域连接,并重新执行上述去除步骤直至满足预定条件。5.如权利要求4所述的方法,其中所述基于调整后的生成树,优化与生成树对应的文本行,使得文本行中字符的总差异最小包括:将去除的连通域与生成树上的连通域按照链接权值最小原则,基于潜在连接,重新与生成树连接;保持生成树的原有连接不变并...
【专利技术属性】
技术研发人员:汪留安,田中宏,范伟,孙俊,
申请(专利权)人:富士通株式会社,
类型:发明
国别省市:日本;JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。