一种端到端的实时习题检测方法技术

技术编号:32531790 阅读:29 留言:0更新日期:2022-03-05 11:26
本发明专利技术提供一种端到端的实时习题检测方法,首先对输入的图片进行Mosaic数据增强,然后根据数据集标记,自动计算出数据集的最佳锚框值,在上述操作之后会对图片进行自适应缩放,将处理过后的图片送入物体检测网络进行物体检测,输出检测框的坐标位置以及置信度,然后将图片以及检测框的位置信息送入文字识别端进行题目的文字识别,最后输出图片中题目位置以及题目文字信息。置以及题目文字信息。置以及题目文字信息。

【技术实现步骤摘要】
一种端到端的实时习题检测方法


[0001]本专利技术涉及计算机软件领域,具体属于一种端到端的实时习题检测方法。

技术介绍

[0002]近年来,随着移动智能终端的普及与发展,搜题APP也渐渐成为学生以及家长解决课下作业中遇到的问题的得力助手。习题框选作为搜题过程的一部分,其目标检测的速度、准确率以及对图片噪声的适应能力对搜题的工作效率和准确性有很大影响。稳定的习题检测可以减少搜题过程中的错误,提高效率。在线教育产品出现时间比较短,例如小猿搜题等在线教育产品软件在早期功能并不如现在丰富完善,有关习题检测,题目框选方面的研究也比较少,早期更多的是依赖于用户在图片进行习题匹配之前手动切割,浪费时间,效率低下。
[0003]传统的习题检测将任务视为文本分割问题,关注习题之间的语义、语法等区别,然而由于目前教育蓬勃发展,习题形式以及数量越来越多,同一章节或者同一单元之间的习题语义相关性极强,现有的文本分割算法无法适用于大批量的习题检测。
[0004]随着教育业的发展和创新,习题数量以及习题形式越来越多,再加上习题的知识面涵盖范围广,文本分割的思想只适用于小范围例如具体年级具体科目的习题检测研究,针对大数量跨学科的习题检测,文本分割无法统一切割依据。

技术实现思路

[0005]本专利技术要解决的技术问题是:提供一种端到端的实时习题检测方法,提高检测准确度,加速检测时间。
[0006]传统的习题检测问题属于文本划分研究领域,认真分析习题特点后,发现习题册中的习题除了具有习题本身的语义信息之外,书籍排版以及习题的文字结构也让习题有了可以区分出来的位置信息。本专利技术使用物体识别算法对题目进行检测,将不同的习题视作同一检测目标,通过算法将习题位置框选出来,并文字识别习题内容。
[0007]本专利技术为解决上述技术问题所采取的技术方案为:一种端到端的实时习题检测方法,对输入的图片进行Mosaic数据增强,然后根据数据集标记,自动计算出数据集的最佳锚框值,在上述操作之后会对图片进行自适应缩放,将处理过后的图片送入物体检测网络进行物体检测,输出检测框的坐标位置以及置信度,然后将图片以及检测框的位置信息送入文字识别端进行题目的文字识别,最后输出图片中题目位置以及题目文字信息。具体包括如下步骤:
[0008]步骤1,对习题册电子版本截图以及现实中对习题册纸质版拍照得到训练集,对训练集中的输入图片进行预处理;
[0009]步骤2,构建目标框检测模型,该模型包括主干网络、融合网络和卷积模块,用于获得习题目标框的坐标位置以及置信度;
[0010]所述主干网络包括1个Focus结构、多个CBL结构、多个CSP结构和1个SPP结构,所述
融合网络为FPN+PAN结构,所述卷积模块包括多个卷积层;
[0011]步骤3,构建OCR端用于识别目标框分割后的习题信息,将图片以及习题目标框的位置信息送入OCR端进行题目的文字识别,最后输出图片中题目位置以及题目文字信息;
[0012]所述OCR端使用PaddleOCR,分为文本检测、预测框矫正和文本识别三部分;
[0013]步骤4,利用步骤1中预处理后的训练集对目标框检测模型进行训练,利用训练好的目标框检测模型和OCR端检测习题。
[0014]进一步的,步骤1中所述预处理包括;
[0015]步骤1.1,对输入图片采用Mosaic数据增强方式,在训练集的一个batch中随机选取四张图片,通过随机缩放、随机裁剪、随机排布方式对图片进行拼接,拼接成一张图片,对一个batch中的图片进行batch size次拼接后,将得到的图片集合代替原有batch中的图片进行训练;
[0016]步骤1.2,为了节省训练时间,使用聚类算法自动计算出数据集的最佳锚框值,减少训练时间;
[0017]步骤1.3,在上述操作之后会对图片进行自适应缩放,确保图片最后尺寸为3
×
608
×
608。
[0018]进一步的,所述主干网络包括依次连接的Focus、CBL、CSP1_1、CBL、CSP1_3、CBL、CSP1_3、CBL和SPP结构,其中Focus结构先将3
×
608
×
608的输入图片复制四份,然后通过切片操作将这个四个图片切成四个3
×
320
×
320的切片,接下来拼接这四个切片,增加图像的特征数,变成12
×
320
×
320的特征图;CBL结构包括CON卷积层、batch_borm加速神经网络和leaky_relu激活函数,先将12
×
320
×
320的特征图通过卷积核数为32的卷积层,变成32
×
320
×
320的特征图,然后经过batch_borm层对结果进行归一化以及leaky_relu激活函数,最后将结果输入到CSP1_1;下面将CSP1_1和CSP1_3统称为CSP1_X,CSP1_X接受经过处理后的图片,将输入分成两部分,一部分先经过X个Res unit残差网络,再进行卷积操作,另一部分直接进行卷积操作,两个卷积操作目的都是为了使通道数减半,然后两部分再经过拼接后输出,CSP1_X的具体处理过程为:输入经过CBL结构,X个Res unit残差网络和一个卷积层,再将结果和原始输入经过卷积操作后的结构进行拼接,将拼接后的结果依次经过batch_borm加速神经网络、leaky_relu激活函数以及一个CBL结构,其中Res unit是将输入经过一个卷积层为1
×
1的CBL结构和一个卷积层为3
×
3的CBL结构后再和初始输入相加,Res unit使用1x1的卷积层来减少参数的数量,从而减少计算量。
[0019]进一步的,空间金字塔池化层SPP,由卷积层,最大池化层,拼接三部分组成,首先经过1x1的卷积层提取特征,然后经过并列的三个不同的最大池化层进行下采样,再将结果与初始特征相加进行拼接,最后经过一个卷积层操作使其输出结果与初始输入保持一致。
[0020]进一步的,所述FPN结构是将SPP结构输出的图片进行CSP2_1+CBL+上采样+拼接操作,这里的拼接操作是将上采样结果与主干网络中第二次的CSP1_3进行拼接,然后再进行CSP1_2+CBL+上采样+拼接操作,这里的拼接操作是将上采样结果与主干网络中第一次的CSP1_3进行拼接,其中CSP2_1是将CSP1_1中的Res unit残差网络换成CBL结构;
[0021]所述PAN结构是将FPN中两次CBL结构输出的图片进行CSP2_1+CBL+拼接操作;首先将FPN层最后一次拼接后输出的图片进行CSP2_1+CBL+拼接操作,这里的拼接操作将CSP2_1+CBL的结果与FPN结构中第二次CBL进行拼接,然后再进行CSP2_1+CBL+拼接操作,这里的拼
接操作将CSP2_1+CBL的结果与FPN结构中第一次C本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种端到端的实时习题检测方法,其特征在于,包括如下步骤:步骤1,对习题册电子版本截图以及现实中对习题册纸质版拍照得到训练集,对训练集中的输入图片进行预处理;步骤2,构建目标框检测模型,该模型包括主干网络、融合网络和卷积模块,用于获得习题目标框的坐标位置以及置信度;所述主干网络包括1个Focus结构、多个CBL结构、多个CSP结构和1个SPP结构,所述融合网络为FPN+PAN结构,所述卷积模块包括多个卷积层;步骤3,构建OCR端用于识别目标框分割后的习题信息,将图片以及习题目标框的位置信息送入OCR端进行题目的文字识别,最后输出图片中题目位置以及题目文字信息;所述OCR端使用PaddleOCR,分为文本检测、预测框矫正和文本识别三部分;步骤4,利用步骤1中预处理后的训练集对目标框检测模型进行训练,利用训练好的目标框检测模型和OCR端检测习题。2.如权利要求1所述的一种端到端的实时习题检测方法,其特征在于:步骤1中所述预处理包括;步骤1.1,对输入图片采用Mosaic数据增强方式,在训练集的一个batch中随机选取四张图片,通过随机缩放、随机裁剪、随机排布方式对图片进行拼接,拼接成一张图片,对一个batch中的图片进行batch size次拼接后,将得到的图片集合代替原有batch中的图片进行训练;步骤1.2,为了节省训练时间,使用聚类算法自动计算出数据集的最佳锚框值,减少训练时间;步骤1.3,在上述操作之后会对图片进行自适应缩放,确保图片最后尺寸为3
×
608
×
608。3.如权利要求2所述的一种端到端的实时习题检测方法,其特征在于:所述主干网络包括依次连接的Focus、CBL、CSP1_1、CBL、CSP1_3、CBL、CSP1_3、CBL和SPP结构,其中Focus结构先将3
×
608
×
608的输入图片复制四份,然后通过切片操作将这个四个图片切成四个3
×
320
×
320的切片,接下来拼接这四个切片,增加图像的特征数,变成12
×
320
×
320的特征图;CBL结构包括CON卷积层、batch_borm加速神经网络和leaky_relu激活函数,先将12
×
320
×
320的特征图通过卷积核数为32的卷积层,变成32
×
320
×
320的特征图,然后经过batch_borm层对结果进行归一化以及leaky_relu激活函数,最后将结果输入到CSP1_1;下面将CSP1_1和CSP1_3统称为CSP1_X,CSP1_X接受经过处理后的图片,将输入分成两部分,一部分先经过X个Res unit残差网络,再进行卷积操作,另一部分直接进行卷积操作,两个卷积操作目的都是为了使通道数减半,然后两部分再经过拼接后输出,CSP1_X的具体处理过程为:输入经过CBL结构,X个Res unit残差网络和一个卷积层,再将结果和原始输入经过卷积操作后的结构进行拼接,将拼接后的结果依次经过batch_borm加速神经网络、leaky_relu激活函数以及一个CBL结构,其中Res unit是将输入经过一个卷积层为1<...

【专利技术属性】
技术研发人员:周俊伟陈铭向剑文夏喆赵冬冬熊盛武
申请(专利权)人:武汉理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1