一种场景文本检测方法、批改方法、装置、电子设备及介质制造方法及图纸

技术编号:27320751 阅读:13 留言:0更新日期:2021-02-10 10:01
本发明专利技术提供一种场景文本检测方法、批改方法、装置、电子设备及介质,属于网络智能教育技术领域。场景文本检测方法包括获取目标图片,所述目标图片由智能终端发送;根据特征金字塔网络对所述目标图片进行处理,生成特征图F,通过特征图F预测概率图P和阈值图T,通过概率图P和阈值图T生成近似的二值图B;利用可微分二值化处理模型,对近似的二值图B进行自适应阈值处理,获得第一目标结果,所述第一目标结果包括生成所述目标图片中的不同区域。本发明专利技术利用可微分二值化处理模型,在分割网络中实施二值化操作进而达到组合优化的效果,实现阈值在热力图各处的自适应,从而缩短图片、文字识别的推理计算时间,提高识别批改率。提高识别批改率。提高识别批改率。

【技术实现步骤摘要】
一种场景文本检测方法、批改方法、装置、电子设备及介质


[0001]本专利技术属于网络智能教育
,尤其涉及一种场景文本检测方法、批改方法、装置、电子设备及介质。

技术介绍

[0002]随着计算机技术的发展,线上教学得到了快速的发展,相应的一些教学工具类产品也应运而生,为学生、老师、家长提供教育辅导上的技术支持和帮助,很多教学工具类产品都能提供将题目拍照或者截图进行批改的功能。
[0003]拍照批改最重要的就是识别过程,而识别最依赖的就是拍照图片的质量。与文档文字识别不同,自然场景中的文字识别存在图像背景复杂、分辨率低、字体多样、形状各异等问题,传统光学字符识别在此类情况下无法应用。为了更好的进行自然场景文本识别,就需要对场景文本实现更加准确的检测。
[0004]近年,由于基于分割的方法对各种形状(弯曲、竖直、多方向)的场景文本检测更加精确,因此,基于分割的方法在场景文本检测领域很流行。
[0005]得益于像素级别的预测结果,基于分割的场景文字检测方法可以描述不同形状的文字,因而最近流行开来。但是,大多数基于分割的方法需要复杂的后处理,把像素级别的预测结果分类为已检测的文字实例,导致推理的时间成本相当高。
[0006]基于分割的场景文本检测即把分割方法产生的概率图(热力图)转化为边界框和文字区域,其中会包含二值化的后处理过程。二值化的过程非常关键,常规二值化操作通过设定固定的阈值,由于其所使用的标准二值化函数是不可微分的,因此固定的阈值难以适应复杂多变的检测场景,最终造成所检测出来的结果失真率较大,准确度不高,对后处理的要求较高。

技术实现思路

[0007]本专利技术的目的在于克服上述现有技术存在的不足,提供一种场景文本检测方法、批改方法、装置、电子设备及介质,解决了现有技术中针对二值化处理不可微分的问题,克服了识别效率低的技术瓶颈。
[0008]为了实现上述目的,第一方面,本专利技术提供一种场景文本检测方法,所述方法包括:
[0009]获取目标图片,所述目标图片由智能终端发送;
[0010]根据特征金字塔网络对所述目标图片进行处理,生成特征图F,通过特征图F预测概率图P和阈值图T,通过概率图P和阈值图T生成近似的二值图B;
[0011]利用可微分二值化处理模型,对近似的二值图B进行自适应阈值处理,获得第一目标结果,所述第一目标结果包括生成所述目标图片中的不同区域。
[0012]进一步地,在可微分二值化处理模型中,引入approximate step function,将可微分二值化处理应用于分割网络中,在建立概率图P和阈值图T与二值图B之间的关系时,使
用以下公式:
[0013][0014]其中,k为放大因子。
[0015]进一步地,所述第一目标结果包括分割生成至少一个功能区域,对所述功能区域进行计算识别,得到第一识别轮廓,所述第一识别轮廓由一组线段描述:其中,n表示顶点的数量;
[0016]通过Vatti clipping算法缩小多边形,收缩偏移量D通过周长L和面积A计算:其中,r是收缩因子。
[0017]进一步地,使用损失函数L对第一目标结果进行优化处理,所述损失函数L由概率图P损失Ls、二值图B损失Lb和阈值图T损失Lt通过权重计算所得:L=Ls+α
×
Lb+β
×
Lt,其中,α和β是权重因数,概率图P损失Ls和二值图B损失Lb使用二值交叉熵损失函数:
[0018][0019]其中,S
t
表示正负样本比例为1:3的样本集;
[0020]Lt使用L1距离损失函数:
[0021][0022]第二方面,本专利技术还提供一种批改方法,应用如上述的场景文本检测方法,所述方法包括:
[0023]应用如权利要求1至4任一项所述场景文本检测方法,获得第一目标结果;
[0024]对所述第一目标结果进行批改处理,获得第二目标结果。
[0025]进一步地,加入仿真训练模型,在训练阶段,对所述概率图P、阈值图T和近似的二值图B实施监督,其中所述阈值图T和近似的二值图B共用同一监督。
[0026]进一步地,在分隔第一目标结果的过程中,确定试卷轮廓、文本行轮廓和题号框轮廓,所述试卷轮廓包括整个目标图片,所述文本行轮廓包括每行文本,所述题号框轮廓包括每道题目的题号,通过所述题号框轮廓和文本行轮廓界定所述每道题目的上边界,延长所述上边界的左右端点,使所述上边界在左右延伸方向与所述试卷轮廓相连接,所述上边界将所述试卷轮廓分隔成至少一个试题区域。
[0027]进一步地,对所述试题区域进行计算识别,所述第一识别轮廓包括印刷体轮廓、图形轮廓和手写体轮廓,所述印刷体轮廓和图形轮廓构成题目信息,所述手写体轮廓构成答案信息。
[0028]进一步地,在对所述第一目标结果进行批改处理的过程中,所述第一目标结果包括题目信息和答案信息,对所述题目信息进行OCR识别,得到题目文本识别信息,对所述答案信息进行OCR识别,得到答案文本识别信息;
[0029]根据所述题目文本识别信息和图形轮廓,提取所述题目文本识别信息中的关键
词,根据所述关键词在数据库中进行查询,获得相似原题组;识别所述相似原题组中的图形区域,判断所述图形区域与所述图形轮廓间的图形相似度,当所述图形相似度大于预设相似度时,从相似原题组中确定最终原题,根据所述最终原题查询得到相对应的答案解析。
[0030]第三方面,本专利技术还提供一种应用于上述场景文本检测方法的装置,包括:
[0031]获取单元,所述获取单元被配置为获取目标图片,所述目标图片由智能终端发送;
[0032]生成单元,所述生成单元被配置为根据特征金字塔网络对所述目标图片进行处理,生成特征图F,通过特征图F预测概率图P和阈值图T,通过概率图P和阈值图T生成近似的二值图B;
[0033]二值化单元,所述二值化单元被配置为利用可微分二值化处理模型,对近似的二值图B进行自适应阈值处理,获得第一目标结果,所述第一目标结果包括生成所述目标图片中的不同区域。
[0034]第四方面,本专利技术还提供一种应用于上述批改方法的装置,包括:
[0035]上述一种场景文本检测装置,还包括批改单元,所述批改单元被配置为对所述第一目标结果进行批改处理,获得第二目标结果。
[0036]第五方面,本专利技术还提供一种电子设备,包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集由所述处理器加载并执行以实现如上述的场景文本检测方法,或者上述的批改方法。
[0037]第六方面,本专利技术还一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器执行时实现如上述场景文本检测方法的步骤,或者上述批改方法的步骤。
[0038]本专利技术的有益效果:
[0039]本专利技术利用可微分二值化处理模型,在分割网络中实施二值化本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种场景文本检测方法,其特征在于,所述方法包括:获取目标图片,所述目标图片由智能终端发送;根据特征金字塔网络对所述目标图片进行处理,生成特征图F,通过特征图F预测概率图P和阈值图T,通过概率图P和阈值图T生成近似的二值图B;利用可微分二值化处理模型,对近似的二值图B进行自适应阈值处理,获得第一目标结果,所述第一目标结果包括生成所述目标图片中的不同区域。2.如权利要求1所述的一种场景文本检测方法,其特征在于,在可微分二值化处理模型中,引入approximate step function,将可微分二值化处理应用于分割网络中,在建立概率图P和阈值图T与二值图B之间的关系时,使用以下公式:其中,k为放大因子。3.如权利要求2所述的一种场景文本检测方法,其特征在于,所述第一目标结果包括分割生成至少一个功能区域,对所述功能区域进行计算识别,得到第一识别轮廓,所述第一识别轮廓由一组线段描述:其中,n表示顶点的数量;通过Vatti clipping算法缩小多边形,收缩偏移量D通过周长L和面积A计算:其中,r是收缩因子。4.如权利要求3所述的一种场景文本检测方法,其特征在于,使用损失函数L对第一目标结果进行优化处理,所述损失函数L由概率图P损失Ls、二值图B损失Lb和阈值图T损失Lt通过权重计算所得:L=Ls+α
×
Lb+β
×
Lt,其中,α和β是权重因数,概率图P损失Ls和二值图B损失Lb使用二值交叉熵损失函数:其中,S
t
表示正负样本比例为1:3的样本集;Lt使用L1距离损失函数:5.一种批改方法,应用如权利要求1至4任一项所述场景文本检测方法,其特征在于,所述方法包括:应用如权利要求1至4任一项所述场景文本检测方法,获得第一目标结果;对所述第一目标结果进行批改处理,获得第二目标结果。6.如权利要求5所述的一种批改方法,其特征在于,加入仿真训练模型,在训练阶段,对所述概率图P、阈值图T和近似的二值图B实施监督,其中所述阈值图T和近似的二值图B共用同一监督。7.如权利要求6所述的一种批改方法,其特征在于,在分隔第一目标结果的过程中,确定试卷轮廓、文本行轮廓和题号框轮廓,所述试卷轮廓包括整个目标图片,所述文本行轮廓
包括每行文本,所述题号框轮廓包括每道题目的题号,通过所述题号框轮廓和文本行轮廓界定所述每道题目的上边界,延长所述...

【专利技术属性】
技术研发人员:孙永毫徐强
申请(专利权)人:广东国粒教育技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1