一种用于识别文字的方法、系统及设备技术方案

技术编号:26731370 阅读:45 留言:0更新日期:2020-12-15 14:33
本申请的目的是提供一种用于识别文字的方法、系统及设备,本申请通过检测获取到的待检测图像中的文字方向,根据检测的结果调整所述待检测图像的方向,得到目标待检测图像;对所述目标待检测图像进行分割处理确定多个文本框,从所述多个文本框中筛选出目标文本框;根据所述目标文本框生成序列化的卷积特征图,计算所述序列化的卷积特征图以确定所述目标文本框中的文字信息;将所述目标文本框中的文字信息进行汉字表解码以确定所述目标文本框中的文字。从而快速精确识别待检测图像中的文字,并保证了图像内容解析的完整性,避免了文字的漏识别。

【技术实现步骤摘要】
一种用于识别文字的方法、系统及设备
本申请涉及计算机领域,尤其涉及一种用于识别文字的方法、系统及设备。
技术介绍
目前光学字符识别(OCR)的应用场景主要分为以下三个方面:自然场景下多形态文本检测与识别、手写体文本检测与识别、文档的文本检测与识别(版面分析等)。现有的主流自然场景OCR模型为文字检测结合文字识别均有其局限性和缺陷,例如:(1)CTPN(基于FasterRCNN):目前比较成熟的文本检测框架,精确度较好,但是检测时间较长,有很大的优化空间;(2)TextBoxes、TextBoxes++(基于SSD):适用于文字细长的特点,但针对小文本会有漏检;(3)SegLink(CTPN+SSD):通常用于自然场景下,检测多角度文本;(4)DMPNet:采用非矩形四边形选定Anchor进行检测,通过Monte-Carlo方法计算标注区域于矩形候选框和旋转候选框的重合度后重新计算顶点坐标,得到非矩形四边形的顶点坐标。适用于自然场景下文本检测;(5)EAST:采取FCN思路,做特征提取和特征融合,局部感知NMS阶段完成检测,网络的简洁使得检测准确率和速度都有进一步提升;(6)CNN(如Densenet)+CTC:效果一般,泛化能力较差;(7)Tesserocr(Tesseract):使用比较广泛的一种开源识别框架,支持多语言多平台,在识别清晰的标准中文字体效果还行,稍微复杂的情况很糟糕(多字体等),且耗时较长。
技术实现思路
本申请的一个目的是提供一种用于识别文字的方法、系统及设备,解决现有技术中光学字符识别模型耗时长、精度低、完整性差以及应用场景单一的问题。根据本申请的一个方面,提供了一种用于识别文字的方法,该方法包括:检测获取到的待检测图像中的文字方向,根据检测的结果调整所述待检测图像的方向,得到目标待检测图像;对所述目标待检测图像进行分割处理确定多个文本框,从所述多个文本框中筛选出目标文本框;根据所述目标文本框生成序列化的卷积特征图,计算所述序列化的卷积特征图以确定所述目标文本框中的文字信息;将所述目标文本框中的文字信息进行汉字表解码以确定所述目标文本框中的文字。进一步地,所述从所述多个文本框中筛选出目标文本框,包括:根据所述目标待检测图像生成所有文本框对应的特征图,计算所述特征图以确定所有文本框的真实坐标;将所有文本框的真实坐标一一进行置信度计算,以确定每个文本框对应的置信度,基于所述置信度筛选所有文本框以确定目标文本框。进一步地,所述检测获取到的待检测图像中的文字方向,根据检测的结果调整所述待检测图像的方向,包括:获取所述待检测图像,使用预设检测模型检测所述待检测图像中的文字方向,根据所述文字方向将所述待检测图像旋转至正向。进一步地,所述根据所述目标待检测图像生成所有文本框对应的特征图包括:使用卷积神经网络根据所述目标待检测图像生成所有文本框的多个预测坐标,根据所有文本框的预测坐标确定特征图。进一步地,所述计算所述特征图以确定所有文本框的真实坐标包括:使用损失函数计算所有文本框的预测坐标以确定所有文本框的真实坐标。进一步地,所述基于所述置信度筛选所有文本框以确定目标文本框,包括:根据每一个文本框对应的置信度计算确定每一个文本框的分值,判断所述分值是否大于预设得分阈值,若是,则将所述分值对应的文本框合并为目标文本框。进一步地,所述根据所述目标文本框生成序列化的卷积特征图,包括:根据所述目标文本框计算确定对应的卷积特征图,根据所述卷积特征图中的指定列上的数据信息生成序列化的卷积特征图。进一步地,所述计算所述序列化的卷积特征图以确定所述目标文本框中的文字信息,包括:使用双向循环神经网络计算所述序列化的卷积特征图以确定对应的矩阵,根据所述矩阵确定所述目标文本框中的文字信息。根据本申请的另一个方面,还提供了一种用于识别文字的系统,其中,所述系统包括预处理模块、过滤模块、识别模块和解码模块,其中,所述预处理模块用于检测获取到的待检测图像中的文字方向,根据检测的结果调整所述待检测图像的方向,得到目标待检测图像;所述过滤模块用于对所述目标待检测图像进行分割处理确定多个文本框,从所述多个文本框中筛选出目标文本框;所述识别模块用于根据所述目标文本框生成序列化的卷积特征图,计算所述序列化的卷积特征图以确定所述目标文本框中的文字信息;所述解码模块用于将所述目标文本框中的文字信息进行汉字表解码以确定所述目标文本框中的文字。根据本申请的再一个方面,还提供了一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现如前述任一项所述的方法。根据本申请的又一个方面,还提供了一种用于识别文字的设备,其中,所述设备包括:一个或多个处理器;以及存储有计算机可读指令的存储器,所述计算机可读指令在被执行时使所述处理器执行如前述任一项所述方法的操作。与现有技术相比,本申请通过检测获取到的待检测图像中的文字方向,根据检测的结果调整所述待检测图像的方向,得到目标待检测图像;对所述目标待检测图像进行分割处理确定多个文本框,从所述多个文本框中筛选出目标文本框;根据所述目标文本框生成序列化的卷积特征图,计算所述序列化的卷积特征图以确定所述目标文本框中的文字信息;将所述目标文本框中的文字信息进行汉字表解码以确定所述目标文本框中的文字。从而快速精确识别待检测图像中的文字,并保证了图像内容解析的完整性,避免了文字的漏识别。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1示出根据本申请的一个方面提供的一种用于识别文字的方法流程示意图;图2示出根据本申请的一个方面提供的一种用于识别文字的系统框架结构示意图。附图中相同或相似的附图标记代表相同或相似的部件。具体实施方式下面结合附图对本申请作进一步详细描述。在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-RO本文档来自技高网...

【技术保护点】
1.一种用于识别文字的方法,其中,所述方法包括:/n检测获取到的待检测图像中的文字方向,根据检测的结果调整所述待检测图像的方向,得到目标待检测图像;/n对所述目标待检测图像进行分割处理确定多个文本框,从所述多个文本框中筛选出目标文本框;/n根据所述目标文本框生成序列化的卷积特征图,计算所述序列化的卷积特征图以确定所述目标文本框中的文字信息;/n将所述目标文本框中的文字信息进行汉字表解码以确定所述目标文本框中的文字。/n

【技术特征摘要】
1.一种用于识别文字的方法,其中,所述方法包括:
检测获取到的待检测图像中的文字方向,根据检测的结果调整所述待检测图像的方向,得到目标待检测图像;
对所述目标待检测图像进行分割处理确定多个文本框,从所述多个文本框中筛选出目标文本框;
根据所述目标文本框生成序列化的卷积特征图,计算所述序列化的卷积特征图以确定所述目标文本框中的文字信息;
将所述目标文本框中的文字信息进行汉字表解码以确定所述目标文本框中的文字。


2.根据权利要求1所述的方法,其中,所述从所述多个文本框中筛选出目标文本框,包括:
根据所述目标待检测图像生成所有文本框对应的特征图,计算所述特征图以确定所有文本框的真实坐标;
将所有文本框的真实坐标一一进行置信度计算,以确定每个文本框对应的置信度,基于所述置信度筛选所有文本框以确定目标文本框。


3.根据权利要求1所述的方法,其中,所述检测获取到的待检测图像中的文字方向,根据检测的结果调整所述待检测图像的方向,包括:
获取所述待检测图像,使用预设检测模型检测所述待检测图像中的文字方向,根据所述文字方向将所述待检测图像旋转至正向。


4.根据权利要求2所述的方法,其中,所述根据所述目标待检测图像生成所有文本框对应的特征图包括:
使用卷积神经网络根据所述目标待检测图像生成所有文本框的多个预测坐标,根据所有文本框的预测坐标确定特征图。


5.根据权利要求4所述的方法,其中,所述计算所述特征图以确定所有文本框的真实坐标包括:
使用损失函数计算所有文本框的预测坐标以确定所有文本框的真实坐标。


6.根据权利要求2所述的方法,其中,所述基于所述置信度筛选所有文本框以确定目标文本框,包括:<...

【专利技术属性】
技术研发人员:单超刘益东王君
申请(专利权)人:上海蜜度信息技术有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1