基于分阶段概率统计的文本方向矫正方法、系统及装置制造方法及图纸

技术编号:28376046 阅读:16 留言:0更新日期:2021-05-08 00:03
本发明专利技术涉及文本方向矫正的技术领域,具体提供基于分阶段概率统计的文本方向矫正方法、系统及装置,旨在解决如何将不同的任意印刷体文本矫正成正确阅读方向的技术问题。为此,本发明专利技术的方法包括:检测文本图像以获得所有文本行;确定每个文本行的方向并基于出现概率最高的一个或多个方向确定所有文本行的主方向;将所述所有文本行的主方向矫正为水平方向;对矫正后的文本行进行切片,统计至少部分切片的正负方向并基于出现概率最高的切片方向进行最终矫正,使所述文本图像的方向符合预设方向。本发明专利技术不针对某种特定版式,关注文本的局部特征,泛化能力强,只需训练模型通过机器学习就可将文本方向矫正好,能保证整个光学字符识别正确性和准确性。

【技术实现步骤摘要】
基于分阶段概率统计的文本方向矫正方法、系统及装置
本专利技术涉及文本方向矫正的
,具体涉及一种基于分阶段概率统计的文本方向矫正方法、系统及装置。
技术介绍
在大多数光学字符识别OCR任务中,首先需要把文本的方向矫正,由于文本背景复杂,文本大小和长宽比例变化范围很大,采用传统方法对文本颜色、亮度、背景纹理和版式容易敏感,泛化能力比较差,对不同的特定版式的任意印刷体文本矫正成正确的阅读方向难以达到理想的矫正效果,如图1所示,会导致文本角度不准、方向颠倒等常见缺陷,进而造成光学字符识别任务的中断。因此,急需提出一种基于分阶段概率统计的文本方向矫正方案,不针对某种特定版式,能够关注文本的局部特征,泛化能力强,只需训练文本检测模型就可以获得极高的准确率。
技术实现思路
为了克服上述缺陷,提出了本专利技术,以解决或至少部分地解决如何将不同的颜色、亮度、背景纹理的任意印刷体文本矫正成正确的阅读方向,保证整个光学字符识别的正确性、准确性的技术问题,本专利技术提供了一种基于分阶段概率统计的文本方向矫正方法、系统及装置。第一方面,提供一种基于分阶段概率统计的文本方向矫正方法,所述方法包括:检测文本图像以获得所有文本行;确定每个文本行的方向并基于出现概率最高的一个或多个方向确定所有文本行的主方向;将所述所有文本行的主方向矫正为水平方向;对矫正后的文本行进行切片,统计至少部分切片的正负方向并基于出现概率最高的切片方向进行最终矫正,使所述文本图像的方向符合预设方向;其中,所述切片的正负方向由所述切片内的字符的正负方向决定。其中,“检测文本图像以获得所有文本行”的步骤具体包括:通过固定锚方式检测文本图像以获得所有文本行;并且/或者所述方法还包括:在获得所有文本行之后,去除长宽比小于设定阈值的文本行,仅确定每个剩余文本行的方向。其中,“基于出现概率最高的一个或多个方向确定所有文本行的主方向”的步骤具体包括:将出现次数最多的文本行相对于水平方向的角度的平均值的方向作为所述主方向。其中,所述方法还包括:在统计至少部分切片的正负方向之前,先对至少部分切片中的字符进行字符分类,其中,字符分类的结果至少包括正负方向形状相似的字符和正负方向形状不相似的字符;“统计至少部分切片的正负方向”的步骤具体包括:仅对正负方向字符形状不相似的切片进行正负方向的统计。其中,“基于出现概率最高的切片方向进行最终矫正”的步骤具体包括:将所述切片的图像输入卷积神经网络,计算所述切片上的每个字符的所属预测类别;如果所述正负方向形状不相似的字符中的正方向字符的数量大于负方向字符的数量,则所述切片方向为正;否则,所述切片方向为负;如果多数切片的方向为正,则保持当前方向不变;否则,将所述所有文本旋转180度。第二方面,提供一种基于分阶段概率统计的文本方向矫正系统,包括:文本行获取模块,其用于检测文本图像以获得所有文本行;主方向确定模块,其用于确定每个文本行的方向并基于出现概率最高的一个或多个方向确定所有文本行的主方向;水平方向矫正模块,其用于将所述所有文本行的主方向矫正为水平方向;最终矫正模块,其用于对矫正后的文本行进行切片,统计至少部分切片的正负方向并基于出现概率最高的切片方向进行最终矫正,使所述文本图像的方向符合预设方向;其中,所述切片的正负方向由所述切片内的字符的正负方向决定。其中,文本行获取模块执行的操作具体包括:通过固定锚方式检测文本图像以获得所有文本行;并且/或者还包括:在获得所有文本行之后,去除长宽比小于设定阈值的文本行,仅确定每个剩余文本行的方向。其中,在基于出现概率最高的一个或多个方向确定所有文本行的主方向时,所述主方向确定模块将出现次数最多的文本行相对于水平方向的的角度的平均值的方向作为所述主方向。其中,在统计至少部分切片的正负方向之前,所述最终矫正模块先对至少部分切片中的字符进行字符分类,其中,字符分类的结果至少包括正负方向形状相似的字符和正负方向形状不相似的字符;在统计至少部分切片的正负方向时,所述最终矫正模块仅对正负方向字符形状不相似的切片进行正负方向的统计。其中,在基于出现概率最高的切片方向进行最终矫正时,所述最终矫正模块执行的操作具体包括:将所述切片的图像输入卷积神经网络,计算所述切片上的每个字符的所属预测类别;如果所述正负方向形状不相似的字符中的正方向字符的数量大于负方向字符的数量,则所述切片方向为正;否则,所述切片方向为负;如果多数切片的方向为正,则保持当前方向不变;否则,将所述所有文本旋转180度。第三方面,提供一种计算机可读存储介质,所述存储介质中存储有多条程序代码,所述程序代码适用于由处理器加载并运行以执行前述中任一项所述的方法。第四方面,提供一种控制装置,该处理装置包括处理器和存储装置,所述存储装置适于存储多条程序代码,所述程序代码适于由所述处理器加载并运行以执行前述中任一项所述的方法。本专利技术上述一个或多个技术方案,至少具有如下一种或多种有益效果:检测文本图像以获得所有文本行;确定每个文本行的方向并基于出现概率最高的一个或多个方向确定所有文本行的主方向;将所述所有文本行的主方向矫正为水平方向;对矫正后的文本行进行切片,统计至少部分切片的正负方向并基于出现概率最高的切片方向进行最终矫正,使所述文本图像的方向符合预设方向;其中,所述切片的正负方向由所述切片内的字符的正负方向决定。本专利技术具有能够不针对某种特定版式,关注文本的局部特征,泛化能力强,只需训练文本检测模型通过机器学习就可以将文本方向矫正,保证整个光学字符识别的正确性和准确性。附图说明下面参照附图来描述本专利技术的具体实施方式,附图中:图1为采用传统方法对任意印刷体文本矫正难以达到理想的矫正效果的一个实施例示意图;图2为根据本专利技术的基于分阶段概率统计的文本方向矫正方法的一个实施例的主要流程图;图3为根据本专利技术的方案的以5度为区间统计文本行,获得出现次数最多的主方向的一个实施例示意图;图4为根据本专利技术的方案的将文本行的主方向矫正为水平方向的一个实施例示意图;图5为根据本专利技术的方案的文本行切片的正负方向的一个实施例示意图;图6为根据本专利技术的方案的基于文本行切片方向判断预测文本行的方向;图7为根据本专利技术的方案的选取切片进行投票检测、单字投票判定正负方向实现文本的最终矫正的一个实施例示意图;图8为根据本专利技术的基于分阶段概率统计的文本方向矫正系统的一个实施例的结构框图。具体实施方式下面参照附图来描述本专利技术的一些实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本专利技术的技术原理,并非旨在限制本专利技术的保护范围。在本专利技术的描述中,“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路,各种合适的感应器,通信端口,存储器,也可以包括软件部分,本文档来自技高网...

【技术保护点】
1.一种基于分阶段概率统计的文本方向矫正方法,其特征在于,所述方法包括:/n检测文本图像以获得所有文本行;/n确定每个文本行的方向并基于出现概率最高的一个或多个方向确定所有文本行的主方向;/n将所述所有文本行的主方向矫正为水平方向;/n对矫正后的文本行进行切片,统计至少部分切片的正负方向并基于出现概率最高的切片方向进行最终矫正,使所述文本图像的方向符合预设方向;/n其中,所述切片的正负方向由所述切片内的字符的正负方向决定。/n

【技术特征摘要】
1.一种基于分阶段概率统计的文本方向矫正方法,其特征在于,所述方法包括:
检测文本图像以获得所有文本行;
确定每个文本行的方向并基于出现概率最高的一个或多个方向确定所有文本行的主方向;
将所述所有文本行的主方向矫正为水平方向;
对矫正后的文本行进行切片,统计至少部分切片的正负方向并基于出现概率最高的切片方向进行最终矫正,使所述文本图像的方向符合预设方向;
其中,所述切片的正负方向由所述切片内的字符的正负方向决定。


2.根据权利要求1所述的方法,其特征在于,“检测文本图像以获得所有文本行”的步骤具体包括:通过固定锚方式检测文本图像以获得所有文本行;并且/或者
所述方法还包括:在获得所有文本行之后,去除长宽比小于设定阈值的文本行,仅确定每个剩余文本行的方向。


3.根据权利要求1所述的方法,其特征在于,“基于出现概率最高的一个或多个方向确定所有文本行的主方向”的步骤具体包括:将出现次数最多的文本行相对于水平方向的角度的平均值的方向作为所述主方向。


4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在统计至少部分切片的正负方向之前,先对至少部分切片中的字符进行字符分类,其中,字符分类的结果至少包括正负方向形状相似的字符和正负方向形状不相似的字符;
“统计至少部分切片的正负方向”的步骤具体包括:
仅对正负方向字符形状不相似的切片进行正负方向的统计。


5.根据权利要求1所述的方法,其特征在于,“基于出现概率最高的切片方向进行最终矫正”的步骤具体包括:
将所述切片的图像输入卷积神经网络,计算所述切片上的每个字符的所属预测类别;如果所述正负方向形状不相似的字符中的正方向字符的数量大于负方向字符的数量,则所述切片方向为正;否则,所述切片方向为负;
如果多数切片的方向为正,则保持当前方向不变;否则,将所述所有文本旋转180度。


6.一种基于分阶段概率统计的文本方向矫正系统,其特征在于,包括:
文本行获取模块,其用于检测文本图像以获得所有文本行;
主方向确定模块,其用于确定每个文本行的方向并基于出现概率最高的一个或多个方向确定...

【专利技术属性】
技术研发人员:李源杨曦露
申请(专利权)人:云从科技集团股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1