一种场景文本检测方法、批改方法、装置、电子设备及介质制造方法及图纸

技术编号：27320751 阅读：13 留言：0更新日期：2021-02-10 10:01

本发明专利技术提供一种场景文本检测方法、批改方法、装置、电子设备及介质，属于网络智能教育技术领域。场景文本检测方法包括获取目标图片，所述目标图片由智能终端发送；根据特征金字塔网络对所述目标图片进行处理，生成特征图F，通过特征图F预测概率图P和阈值图T，通过概率图P和阈值图T生成近似的二值图B；利用可微分二值化处理模型，对近似的二值图B进行自适应阈值处理，获得第一目标结果，所述第一目标结果包括生成所述目标图片中的不同区域。本发明专利技术利用可微分二值化处理模型，在分割网络中实施二值化操作进而达到组合优化的效果，实现阈值在热力图各处的自适应，从而缩短图片、文字识别的推理计算时间，提高识别批改率。提高识别批改率。提高识别批改率。

全部详细技术资料下载

【技术实现步骤摘要】
一种场景文本检测方法、批改方法、装置、电子设备及介质

[0001]本专利技术属于网络智能教育
，尤其涉及一种场景文本检测方法、批改方法、装置、电子设备及介质。

技术介绍

[0002]随着计算机技术的发展，线上教学得到了快速的发展，相应的一些教学工具类产品也应运而生，为学生、老师、家长提供教育辅导上的技术支持和帮助，很多教学工具类产品都能提供将题目拍照或者截图进行批改的功能。
[0003]拍照批改最重要的就是识别过程，而识别最依赖的就是拍照图片的质量。与文档文字识别不同，自然场景中的文字识别存在图像背景复杂、分辨率低、字体多样、形状各异等问题，传统光学字符识别在此类情况下无法应用。为了更好的进行自然场景文本识别，就需要对场景文本实现更加准确的检测。
[0004]近年，由于基于分割的方法对各种形状(弯曲、竖直、多方向)的场景文本检测更加精确，因此，基于分割的方法在场景文本检测领域很流行。
[0005]得益于像素级别的预测结果，基于分割的场景文字检测方法可以描述不同形状的文字，因而最近流行开来。但是，大多数基于分割的方法需要复杂的后处理，把像素级别的预测结果分类为已检测的文字实例，导致推理的时间成本相当高。
[0006]基于分割的场景文本检测即把分割方法产生的概率图(热力图)转化为边界框和文字区域，其中会包含二值化的后处理过程。二值化的过程非常关键，常规二值化操作通过设定固定的阈值，由于其所使用的标准二值化函数是不可微分的，因此固定的阈值难以适应复杂多变的检测场景，最终造成所检测出来的...

【技术保护点】

【技术特征摘要】
1.一种场景文本检测方法，其特征在于，所述方法包括：获取目标图片，所述目标图片由智能终端发送；根据特征金字塔网络对所述目标图片进行处理，生成特征图F，通过特征图F预测概率图P和阈值图T，通过概率图P和阈值图T生成近似的二值图B；利用可微分二值化处理模型，对近似的二值图B进行自适应阈值处理，获得第一目标结果，所述第一目标结果包括生成所述目标图片中的不同区域。2.如权利要求1所述的一种场景文本检测方法，其特征在于，在可微分二值化处理模型中，引入approximate step function，将可微分二值化处理应用于分割网络中，在建立概率图P和阈值图T与二值图B之间的关系时，使用以下公式：其中，k为放大因子。3.如权利要求2所述的一种场景文本检测方法，其特征在于，所述第一目标结果包括分割生成至少一个功能区域，对所述功能区域进行计算识别，得到第一识别轮廓，所述第一识别轮廓由一组线段描述：其中，n表示顶点的数量；通过Vatti clipping算法缩小多边形，收缩偏移量D通过周长L和面积A计算：其中，r是收缩因子。4.如权利要求3所述的一种场景文本检测方法，其特征在于，使用损失函数L对第一目标结果进行优化处理，所述损失函数L由概率图P损失Ls、二值图B损失Lb和阈值图T损失Lt通过权重计算所得：L＝Ls+α
×
Lb+β
×
Lt，其中，α和β是权重因数，概率图P损失Ls和二值图B损失Lb使用二值交叉熵损失函数：其中，S
t
表示正负样本比例为1:3的样本集；Lt使用L1距离损失函数：5.一种批改方法，应用如权利要求1至4任一项所述场景文本检测方法，其特征在于，所述方法包括：应用如权利要求1至4任一项所述场景文本检测方法，获得第一目标结果；对所述第一目标结果进行批改处理，获得第二目标结果。6.如权利要求5所述的一种批改方法，其特征在于，加入仿真训练模型，在训练阶段，对所述概率图P、阈值图T和近似的二值图B实施监督，其中所述阈值图T和近似的二值图B共用同一监督。7.如权利要求6所述的一种批改方法，其特征在于，在分隔第一目标结果的过程中，确定试卷轮廓、文本行轮廓和题号框轮廓，所述试卷轮廓包括整个目标图片，所述文本行轮廓
包括每行文本，所述题号框轮廓包括每道题目的题号，通过所述题号框轮廓和文本行轮廓界定所述每道题目的上边界，延长所述...

【专利技术属性】
技术研发人员：孙永毫，徐强，
申请(专利权)人：广东国粒教育技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人