【技术实现步骤摘要】
光学字符识别方法、装置、电子设备和存储介质
[0001]本公开涉及人工智能
中的计算机视觉、深度学习
,尤其涉及一种光学字符识别方法、装置、电子设备和存储介质。
技术介绍
[0002]随着计算机技术的快速发展,互联网新兴技术与教学活动的深度融合大大促进了教育相关从业人员的工作学习效率。
[0003]相关技术中,对于图文识别,主要采用光学字符识别(Optical Character Recognition,简称OCR),该技术一般适用于通用场景,如街景文字,拍照文字等,包括检测和识别两个部分,从输入图片中检测到文字区域所在,然后将文字区域图片单独送入识别网络进行识别。但此种识别方式在对有空间结构的公式数据进行识别时效果并不理想。
技术实现思路
[0004]提供了一种光学字符识别方法、装置、电子设备和存储介质。
[0005]根据第一方面,提供了一种光学字符识别方法,包括:获取待识别图片中的目标公式区域;对所述目标公式区域内的图片进行特征提取,得到预设高度的第一特征图,所述预设高度大于1;将所述第一特征图展开得到目标特征;以及根据所述目标特征生成目标公式。
[0006]根据第二方面,提供了一种光学字符识别装置,包括:获取模块,用于获取待识别图片中的目标公式区域;提取模块,用于对所述目标公式区域内的图片进行特征提取,得到预设高度的第一特征图,所述预设高度大于1;展开模块,用于将所述第一特征图展开得到目标特征;以及生成模块,用于根据所述目标特征生成目标公式。
[000 ...
【技术保护点】
【技术特征摘要】
1.一种光学字符识别方法,包括:获取待识别图片中的目标公式区域;对所述目标公式区域内的图片进行特征提取,得到预设高度的第一特征图,所述预设高度大于1;将所述第一特征图展开得到目标特征;以及根据所述目标特征生成目标公式。2.根据权利要求1所述的识别方法,其中,所述根据所述目标特征生成目标公式,包括:根据所述目标特征生成顺序特征序列和逆序特征序列;根据所述顺序特征序列和所述逆序特征序列生成前向编码特征序列和后向编码特征序列;根据所述前向编码特征序列和所述后向编码特征序列生成前向解码结果和后向解码结果;以及对所述前向解码结果和所述后向解码结果进行融合,得到所述目标公式。3.根据权利要求2所述的识别方法,其中,所述根据所述顺序特征序列和所述逆序特征序列生成前向编码特征序列和后向编码特征序列,包括:将所述顺序特征序列和所述逆序特征序列分别输入至门控循环单元网络,得到顺序编码特征序列和逆序编码特征序列;以及将所述顺序编码特征序列和所述逆序编码特征序列分别输入至全连接网络,得到所述前向编码特征序列和所述后向编码特征序列。4.根据权利要求2所述的识别方法,其中,所述根据所述前向编码特征序列和所述后向编码特征序列生成前向解码结果和后向解码结果,包括:根据所述前向编码特征序列和所述后向编码特征序列生成前向注意力图和后向注意力图;以及对所述前向注意力图和所述后向注意力图分别进行解码,得到所述前向解码结果和所述后向解码结果。5.根据权利要求4所述的识别方法,其中,所述根据所述前向编码特征序列和所述后向编码特征序列生成前向注意力图和后向注意力图,包括:根据所述前向编码特征序列和所述后向编码特征序列生成隐藏状态向量;根据所述前向编码特征序列和所述隐藏状态向量生成所述前向注意力图;以及根据所述后向编码特征序列和所述隐藏状态向量生成所述后向注意力图。6.根据权利要求5所述的识别方法,其中,所述对所述前向注意力图和所述后向注意力图分别进行解码,得到所述前向解码结果和所述后向解码结果,包括:根据解码过程中上一时间步的输出结果、所述隐藏状态向量上一时间步的隐藏状态和所述前向注意力图中当前时间步的权重值,计算得到当前时间步的输出结果,将每个时间步的输出结果串起来得到所述前向解码结果;以及根据解码过程中上一时间步的输出结果、所述隐藏状态向量上一时间步的隐藏状态和所述后向注意力图中当前时间步的权重值,计算得到当前时间步的输出结果,将每个时间步的输出结果串起来得到所述后向解码结果。7.根据权利要求2所述的识别方法,其中,所述对所述前向解码结果和所述后向解码结
果进行融合,得到所述目标公式,包括:获取所述前向解码结果和所述后向解码结果的编辑距离最小时需要的编辑操作和所述编辑操作对应的字符;以及根据所述编辑操作和所述编辑操作对应的字符的置信度,对所述前向解码结果和所述后向解码结果进行融合,得到所述目标公式。8.根据权利要求7所述的识别方法,其中,所述根据所述编辑操作和所述编辑操作对应的字符的置信度,对所述前向解码结果和所述后向解码结果进行融合,得到所述目标公式,包括:所述编辑操作为插入操作,且所述插入操作对应的字符的置信度大于所在所述前向解码结果或所述后向解码结果的平均置信度,则将所述插入操作对应的字符写入所述目标公式中;所述编辑操作为删除操作,且所述删除操作对应的字符的置信度不小于所在所述前向解码结果或所述后向解码结果的平均置信度或者不小于预设的置信度阈值,则将所述删除操作对应的字符写入所述目标公式中;所述编辑操作为替换操作,则将所述替换操作对应的两个字符中置信度较大的字符写入所述目标公式中;以及将所述编辑操作不对应的字符写入所述目标公式中。9.根据权利要求1所述的识别方法,其中,所述获取待识别图片中的目标公式区域,包括:根据所述待识别图片生成二值图片,所述二值图片中包括文字区域和公式区域;对所述待识别图片和所述二值图片进行特征提取,得到第二特征图;根据所述第二特征图生成分数特征图和偏移量特征图;以及对所述分数特征图和所述偏移量特征图进行非极大值抑制处理,得到所述目标公式区域。10.一种光学字符识别装置,包括:获取模块,用于获取待识别图片中的目标公式区域;提取模块,用于对所述目标公式区域内的图片进行特征提取,得到预设高度的第一特征图,所述预设高度大于1;展开模块,用于将所述第一特征图展开得到目标特征;以及生成模块,用于根据所述目标特征生成目标公式。11.根据权利要求10所述的识别装置,其中,所述...
【专利技术属性】
技术研发人员:吴亮,刘珊珊,章成全,姚锟,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。