一种用于识别文字的方法、系统及设备技术方案

技术编号：26731370 阅读：45 留言：0更新日期：2020-12-15 14:33

本申请的目的是提供一种用于识别文字的方法、系统及设备，本申请通过检测获取到的待检测图像中的文字方向，根据检测的结果调整所述待检测图像的方向，得到目标待检测图像；对所述目标待检测图像进行分割处理确定多个文本框，从所述多个文本框中筛选出目标文本框；根据所述目标文本框生成序列化的卷积特征图，计算所述序列化的卷积特征图以确定所述目标文本框中的文字信息；将所述目标文本框中的文字信息进行汉字表解码以确定所述目标文本框中的文字。从而快速精确识别待检测图像中的文字，并保证了图像内容解析的完整性，避免了文字的漏识别。

全部详细技术资料下载

【技术实现步骤摘要】
一种用于识别文字的方法、系统及设备
本申请涉及计算机领域，尤其涉及一种用于识别文字的方法、系统及设备。
技术介绍
目前光学字符识别(OCR)的应用场景主要分为以下三个方面：自然场景下多形态文本检测与识别、手写体文本检测与识别、文档的文本检测与识别(版面分析等)。现有的主流自然场景OCR模型为文字检测结合文字识别均有其局限性和缺陷，例如：(1)CTPN(基于FasterRCNN)：目前比较成熟的文本检测框架，精确度较好，但是检测时间较长，有很大的优化空间；(2)TextBoxes、TextBoxes++(基于SSD)：适用于文字细长的特点，但针对小文本会有漏检；(3)SegLink(CTPN+SSD)：通常用于自然场景下，检测多角度文本；(4)DMPNet：采用非矩形四边形选定Anchor进行检测，通过Monte-Carlo方法计算标注区域于矩形候选框和旋转候选框的重合度后重新计算顶点坐标，得到非矩形四边形的顶点坐标。适用于自然场景下文本检测；(5)EAST：采取FCN思路，做特征提取和特征融合，局部感知NMS阶段完成检测，网络的简洁使得检测准确率和速度都有进一步提升；(6)CNN(如Densenet)+CTC：效果一般，泛化能力较差；(7)Tesserocr(Tesseract)：使用比较广泛的一种开源识别框架，支持多语言多平台，在识别清晰的标准中文字体效果还行，稍微复杂的情况很糟糕(多字体等)，且耗时较长。
技术实现思路
本申请的一个目的是...

【技术保护点】
1.一种用于识别文字的方法，其中，所述方法包括：/n检测获取到的待检测图像中的文字方向，根据检测的结果调整所述待检测图像的方向，得到目标待检测图像；/n对所述目标待检测图像进行分割处理确定多个文本框，从所述多个文本框中筛选出目标文本框；/n根据所述目标文本框生成序列化的卷积特征图，计算所述序列化的卷积特征图以确定所述目标文本框中的文字信息；/n将所述目标文本框中的文字信息进行汉字表解码以确定所述目标文本框中的文字。/n

【技术特征摘要】
1.一种用于识别文字的方法，其中，所述方法包括：
检测获取到的待检测图像中的文字方向，根据检测的结果调整所述待检测图像的方向，得到目标待检测图像；
对所述目标待检测图像进行分割处理确定多个文本框，从所述多个文本框中筛选出目标文本框；
根据所述目标文本框生成序列化的卷积特征图，计算所述序列化的卷积特征图以确定所述目标文本框中的文字信息；
将所述目标文本框中的文字信息进行汉字表解码以确定所述目标文本框中的文字。

2.根据权利要求1所述的方法，其中，所述从所述多个文本框中筛选出目标文本框，包括：
根据所述目标待检测图像生成所有文本框对应的特征图，计算所述特征图以确定所有文本框的真实坐标；
将所有文本框的真实坐标一一进行置信度计算，以确定每个文本框对应的置信度，基于所述置信度筛选所有文本框以确定目标文本框。

3.根据权利要求1所述的方法，其中，所述检测获取到的待检测图像中的文字方向，根据检测的结果调整所述待检测图像的方向，包括：
获取所述待检测图像，使用预设检测模型检测所述待检测图像中的文字方向，根据所述文字方向将所述待检测图像旋转至正向。

4.根据权利要求2所述的方法，其中，所述根据所述目标待检测图像生成所有文本框对应的特征图包括：
使用卷积神经网络根据所述目标待检测图像生成所有文本框的多个预测坐标，根据所有文本框的预测坐标确定特征图。

5.根据权利要求4所述的方法，其中，所述计算所述特征图以确定所有文本框的真实坐标包括：
使用损失函数计算所有文本框的预测坐标以确定所有文本框的真实坐标。

6.根据权利要求2所述的方法，其中，所述基于所述置信度筛选所有文本框以确定目标文本框，包括：<...

【专利技术属性】
技术研发人员：单超，刘益东，王君，
申请(专利权)人：上海蜜度信息技术有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人