光学字符识别方法、装置、电子设备和存储介质制造方法及图纸

技术编号:29082065 阅读:20 留言:0更新日期:2021-06-30 09:43
本公开公开了光学字符识别方法、装置、电子设备和存储介质,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习技术领域。具体实现方案为:获取待识别图片中的目标公式区域;对所述目标公式区域内的图片进行特征提取,得到预设高度的第一特征图,所述预设高度大于1;将所述第一特征图展开得到目标特征;以及根据所述目标特征生成目标公式。本公开的光学字符识别方法、装置、电子设备和存储介质,可以提高光学字符识别场景下公式的识别效果,较好的解决图片场景公式的识别问题。决图片场景公式的识别问题。决图片场景公式的识别问题。

【技术实现步骤摘要】
光学字符识别方法、装置、电子设备和存储介质


[0001]本公开涉及人工智能
中的计算机视觉、深度学习
,尤其涉及一种光学字符识别方法、装置、电子设备和存储介质。

技术介绍

[0002]随着计算机技术的快速发展,互联网新兴技术与教学活动的深度融合大大促进了教育相关从业人员的工作学习效率。
[0003]相关技术中,对于图文识别,主要采用光学字符识别(Optical Character Recognition,简称OCR),该技术一般适用于通用场景,如街景文字,拍照文字等,包括检测和识别两个部分,从输入图片中检测到文字区域所在,然后将文字区域图片单独送入识别网络进行识别。但此种识别方式在对有空间结构的公式数据进行识别时效果并不理想。

技术实现思路

[0004]提供了一种光学字符识别方法、装置、电子设备和存储介质。
[0005]根据第一方面,提供了一种光学字符识别方法,包括:获取待识别图片中的目标公式区域;对所述目标公式区域内的图片进行特征提取,得到预设高度的第一特征图,所述预设高度大于1;将所述第一特征图展开得到目标特征;以及根据所述目标特征生成目标公式。
[0006]根据第二方面,提供了一种光学字符识别装置,包括:获取模块,用于获取待识别图片中的目标公式区域;提取模块,用于对所述目标公式区域内的图片进行特征提取,得到预设高度的第一特征图,所述预设高度大于1;展开模块,用于将所述第一特征图展开得到目标特征;以及生成模块,用于根据所述目标特征生成目标公式。
[0007]根据第三方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开第一方面所述的光学字符识别方法。
[0008]根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据本公开第一方面所述的光学字符识别方法。
[0009]根据第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据本公开第一方面所述的光学字符识别方法。
[0010]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0011]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0012]图1是根据本公开第一实施例的光学字符识别方法的流程示意图;
[0013]图2是根据本公开第二实施例的光学字符识别方法的流程示意图;
[0014]图3是根据本公开第三实施例的光学字符识别方法的流程示意图;
[0015]图4是根据本公开第四实施例的光学字符识别方法的流程示意图;
[0016]图5是根据本公开第五实施例的光学字符识别方法的流程示意图;
[0017]图6是根据本公开第六实施例的光学字符识别方法的流程示意图;
[0018]图7是根据本公开第七实施例的光学字符识别方法的流程示意图;
[0019]图8是根据本公开第八实施例的光学字符识别方法的流程示意图;
[0020]图9是根据本公开第九实施例的光学字符识别方法的流程示意图;
[0021]图10为本公开实施例的光学字符识别方法中检测阶段的示意图;
[0022]图11为本公开实施例的光学字符识别方法中识别阶段的示意图;
[0023]图12是根据本公开第一实施例的光学字符识别装置的框图;
[0024]图13是根据本公开第二实施例的光学字符识别装置的框图;
[0025]图14是用来实现本公开实施例的光学字符识别方法的电子设备的框图。
具体实施方式
[0026]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0027]人工智能(Artificial Intelligence,简称AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。目前,AI技术具有自动化程度高、精确度高、成本低的优点,得到了广泛的应用。
[0028]计算机视觉(Computer Vision),又称为机器视觉(Machine Vision),是使用计算机及相关设备对生物视觉的一种模拟,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。
[0029]深度学习(Deep Learning,简称DL),是机器学习(Machine Learning,简称ML)领域中一个新的研究方向,学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。就具体研究内容而言,主要包括基于卷积运算的神经网络系统,即卷积神经网络;基于多层神经元的自编码神经网络;以多层自编码神经网络的方式进行预训练,进而结合鉴别信息进一步优化神经网络权值的深度置信网络。深度学习在搜索技术、数据挖掘、机器学习、机器翻译、自然语言处理、多媒体学习、语音、推荐和个性化技术,以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动,解决了很多复杂的模式识别难题,使得人工智能相关技术取得了很大进步。
[0030]下面结合附图描述本公开实施例的光学字符识别方法、装置、电子设备和存储介质。
[0031]图1是根据本公开第一实施例的光学字符识别方法的流程示意图。
[0032]如图1所示,本公开实施例的光学字符识别方法具体可包括以下步骤:
[0033]S101,获取待识别图片中的目标公式区域。
[0034]具体的,本公开实施例的光学字符识别方法的执行主体可为本公开实施例提供的光学字符识别装置,该光学字符识别装置可为具有数据信息处理能力的硬件设备和/或驱动该硬件设备工作所需必要的软件。可选的,执行主体可包括工作站、服务器,计算机、用户终端及其他设备。其中,用户终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。
[0035]在本公开实施例中,待识别图片可以为通过照相机和带有摄像装置的电子设备获得的试卷、练习册等的三通道图片,图片中具体可包括但不限于公式和文字等信息中的至少一种。本公开实施例将图片显示的内容简单划分为非公式内容、印刷公式内容和手写公式内容。通过对图片的检测,特征提取,以及对特征图的处理获取待识别图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种光学字符识别方法,包括:获取待识别图片中的目标公式区域;对所述目标公式区域内的图片进行特征提取,得到预设高度的第一特征图,所述预设高度大于1;将所述第一特征图展开得到目标特征;以及根据所述目标特征生成目标公式。2.根据权利要求1所述的识别方法,其中,所述根据所述目标特征生成目标公式,包括:根据所述目标特征生成顺序特征序列和逆序特征序列;根据所述顺序特征序列和所述逆序特征序列生成前向编码特征序列和后向编码特征序列;根据所述前向编码特征序列和所述后向编码特征序列生成前向解码结果和后向解码结果;以及对所述前向解码结果和所述后向解码结果进行融合,得到所述目标公式。3.根据权利要求2所述的识别方法,其中,所述根据所述顺序特征序列和所述逆序特征序列生成前向编码特征序列和后向编码特征序列,包括:将所述顺序特征序列和所述逆序特征序列分别输入至门控循环单元网络,得到顺序编码特征序列和逆序编码特征序列;以及将所述顺序编码特征序列和所述逆序编码特征序列分别输入至全连接网络,得到所述前向编码特征序列和所述后向编码特征序列。4.根据权利要求2所述的识别方法,其中,所述根据所述前向编码特征序列和所述后向编码特征序列生成前向解码结果和后向解码结果,包括:根据所述前向编码特征序列和所述后向编码特征序列生成前向注意力图和后向注意力图;以及对所述前向注意力图和所述后向注意力图分别进行解码,得到所述前向解码结果和所述后向解码结果。5.根据权利要求4所述的识别方法,其中,所述根据所述前向编码特征序列和所述后向编码特征序列生成前向注意力图和后向注意力图,包括:根据所述前向编码特征序列和所述后向编码特征序列生成隐藏状态向量;根据所述前向编码特征序列和所述隐藏状态向量生成所述前向注意力图;以及根据所述后向编码特征序列和所述隐藏状态向量生成所述后向注意力图。6.根据权利要求5所述的识别方法,其中,所述对所述前向注意力图和所述后向注意力图分别进行解码,得到所述前向解码结果和所述后向解码结果,包括:根据解码过程中上一时间步的输出结果、所述隐藏状态向量上一时间步的隐藏状态和所述前向注意力图中当前时间步的权重值,计算得到当前时间步的输出结果,将每个时间步的输出结果串起来得到所述前向解码结果;以及根据解码过程中上一时间步的输出结果、所述隐藏状态向量上一时间步的隐藏状态和所述后向注意力图中当前时间步的权重值,计算得到当前时间步的输出结果,将每个时间步的输出结果串起来得到所述后向解码结果。7.根据权利要求2所述的识别方法,其中,所述对所述前向解码结果和所述后向解码结
果进行融合,得到所述目标公式,包括:获取所述前向解码结果和所述后向解码结果的编辑距离最小时需要的编辑操作和所述编辑操作对应的字符;以及根据所述编辑操作和所述编辑操作对应的字符的置信度,对所述前向解码结果和所述后向解码结果进行融合,得到所述目标公式。8.根据权利要求7所述的识别方法,其中,所述根据所述编辑操作和所述编辑操作对应的字符的置信度,对所述前向解码结果和所述后向解码结果进行融合,得到所述目标公式,包括:所述编辑操作为插入操作,且所述插入操作对应的字符的置信度大于所在所述前向解码结果或所述后向解码结果的平均置信度,则将所述插入操作对应的字符写入所述目标公式中;所述编辑操作为删除操作,且所述删除操作对应的字符的置信度不小于所在所述前向解码结果或所述后向解码结果的平均置信度或者不小于预设的置信度阈值,则将所述删除操作对应的字符写入所述目标公式中;所述编辑操作为替换操作,则将所述替换操作对应的两个字符中置信度较大的字符写入所述目标公式中;以及将所述编辑操作不对应的字符写入所述目标公式中。9.根据权利要求1所述的识别方法,其中,所述获取待识别图片中的目标公式区域,包括:根据所述待识别图片生成二值图片,所述二值图片中包括文字区域和公式区域;对所述待识别图片和所述二值图片进行特征提取,得到第二特征图;根据所述第二特征图生成分数特征图和偏移量特征图;以及对所述分数特征图和所述偏移量特征图进行非极大值抑制处理,得到所述目标公式区域。10.一种光学字符识别装置,包括:获取模块,用于获取待识别图片中的目标公式区域;提取模块,用于对所述目标公式区域内的图片进行特征提取,得到预设高度的第一特征图,所述预设高度大于1;展开模块,用于将所述第一特征图展开得到目标特征;以及生成模块,用于根据所述目标特征生成目标公式。11.根据权利要求10所述的识别装置,其中,所述...

【专利技术属性】
技术研发人员:吴亮刘珊珊章成全姚锟
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1