基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题智能批阅系统技术方案

技术编号:27744159 阅读:16 留言:0更新日期:2021-03-19 13:38
本发明专利技术公开了一种基于MixNet‑YOLOv3和卷积递归神经网络CRNN(Convolutional Recurrent Neural Network)的算术题智能批阅系统,能够自动地识别试卷中每道算术题的含义并做出判断,以减轻传统手工批阅试卷带来的人力和时间成本,从而提高教学效率。智能批阅系统主要分为检测和识别两大模块。鉴于算术题分布密集、字体多变的特点和网络轻量化的需求,检测模块采用多尺度语义和定位特征融合的MixNet‑YOLOv3网络来实现算术题的边框信息提取;而在识别模块,前一模块抽取的算术题将通过基于联结时序分类CTC(Connectionist Temporal Classification)解码机制的卷积递归神经网络CRNN网络,得到算术题目的语义信息;最后通过算术逻辑运算来判断每道算术题目的正确与否。本发明专利技术创建的系统能够胜任移动设备端的算术题批阅任务。

【技术实现步骤摘要】
基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题智能批阅系统
本专利技术涉及一种基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题智能批阅系统,属于计算机视觉及自然语言处理交叉的文本检测和识别领域。
技术介绍
随着科技水平的进步和教育产业的变革,传统阅卷过程中的效率低、质量和公平无法保证的问题日益凸显,一定程度阻碍了整体教学水平的提高。与此同时,数字图像处理以及计算机视觉技术的飞速发展,让人们将目光逐渐投向智能阅卷,智能阅卷能够极大地提高阅卷的效率,降低教师的工作负担,节省家长的时间,优化教育资源的配置。以中小学生的算术题为例,考虑到算术题一般是由印刷体跟手写体构成,出版商的印刷体样式、学生的手写体风格层出不穷,还存在一定程度的涂改,基于图像处理和机器学习的传统的光学字符识别OCR(OpticalCharacterRecognition)技术无法满足复杂场景的检测任务。典型的OCR技术路线包括以下三个部分:图像预处理、文本检测和文本识别,其中影响识别准确率的技术瓶颈是文本检测和文本识别,而这两部分也是OCR技术的重中之重。在传统OCR技术中,图像预处理通常是针对图像的成像问题进行修正,常见的预处理过程包括:几何变换、畸变校正、去除模糊、图像增强和光线校正等。文本检测即检测文本的所在位置和范围及其布局,通常也包括版面分析和文字行检测等,文字检测主要解决的问题是哪里有文字,文字的范围有多大。文本识别是在文本检测的基础上,对文本内容进行识别,将图像中的文本信息转化为文本信息,文字识别主要解决的问题是每个文字是什么。
技术实现思路
专利技术目的:为了解决上述问题,本专利技术提出一个端到端的算术题批阅系统,系统主要涵盖检测跟识别两个分支,首先采用YOLOv3算法检测每道题目的边界,通过权重分配使网络更容易学习水平的边界,并在不损失精度的前提下将提取网络替换为更为轻量化的MixNet网络;在识别部分,采用精度跟效率结合的卷积递归神经网络CRNN网络,通过卷积神经网络CNN(ConvolutionalNeuralNetworks)和长短期记忆网络LSTM(LongShort-TermMemory)的组合使网络准确的学习到题目的语义信息,最后通过算术逻辑判断对错和返回正确答案。技术方案:本专利技术技术方案实现包括如下几个步骤:(1)对原始检测数据集进行预处理,通过数据增强手段扩展样本的泛化性,同时利用K均值聚类算法生成适应该场景的先验框,用于检测网络的训练;(2)将整张图像输入到轻量级MixNet网络模型中,进行图像定位和语义特征的提取,得到表示图像全局信息的多尺度特征;(3)利用特征金字塔网络FPN(FeaturePyramidNetworks)特征融合技术,融合不同尺度的特征,分别输送到对应的YOLOv3预测模块中,并根据两组先验框分别对产生的特征图进行计算,基于最佳的先验框来预测,并根据预测出的坐标、置信度、类别信息与标签信息进行损失函数的计算,通过迭代训练得到更为精确的检测模型;(4)根据检测网络输出的算术题边框,将抽取的算术题和标注的文本信息组合起来,构成识别模块的数据集;(5)将抽取的算术题图像转成灰度图送入卷积递归神经网络CRNN网络,需要先经过卷积神经网络CNN提取特征得到特征图,再转换成序列送入双向长短期记忆网络LSTM获取序列特征,最后经过联结时序分类CTC机制转录得到最终的语义信息;(6)根据识别模块得到的语义信息,进行算术逻辑的运算,从而判断出每道题目的正确与否,对于做错的题目会给出正确答案。作为优选,所述的步骤(1)首先通过LabelImg标注软件生成图片的标注框,然后利用平移、旋转、裁剪等数据增强手段扩充原始的数据集,增强数据的泛化性和鲁棒性。针对数据集中的边框信息,通过K均值聚类分析算法得到2个尺度共4个先验框,用于检测网络的训练。作为优选,所述的步骤(2)采用MixNet网络提取图像多尺度特征。通过不同卷积核的混合深度卷积结构代替深度可分离卷积结构,在极大的减少网络参数量的同时,增强了网络融合多尺度语义和定位特征的能力,从而提取到更为系统全面的特征。MixNet网络由混合深度可分离卷积模块(MDConv)组成,旨在将不同的卷积核尺寸融合到一个单独的卷积操作,使其可以易于获取具有多个分辨率的不同模式。其中MDConv卷积操作具有多个设计选择:(2.1)组大小g:决定了用于一个单独输入张量的不同类型卷积核的个数。在g=1的极端情况,MDConv等同于普通深度卷积。对于MobileNets,g=4时MDConv可以提高模型的准确性和效率。(2.2)每个组的卷积核尺寸:理论上,每个组可以有任意尺寸的卷积核。但是,如果两个组有同样尺寸的卷积核,那等同于将两个组合并为一个单独的组,因此必须限制每个组必须拥有不同尺寸的卷积核。进一步,因为小尺寸的卷积核通常拥有更少的参数和FLOPS,限制卷积核尺寸通常从3x3开始,每组单调增加2。换言之,i组的卷积核尺寸通常为2i+1。例如,一个4组的MDConv通常使用的卷积核尺寸为{3x3,5x5,7x7,9x9}。在此限制下,每个组的卷积核尺寸相对于其组大小g已经预定义好了,因而简化了设计过程。(2.3)每个组的通道大小:在此主要考虑两种通道划分方法:(a)等分:每组通道的数目一致;(b)指数划分:第i组通道数占总通道数的。例如,一个4组MDConv共有32个通道,等分将通道划分为(8,8,8,8),而指数划分将通道划分为(16,8,4,4)。作为优选,所述的步骤(3)通过特征金字塔网络FPN(FeaturePyramidNetworks)融合不同尺度的特征,采用上采样和通道拼接的方式将定位信息和语义信息有机结合,输出8倍和16倍下采样的特征图,送入到YOLOv3的预测模块。预测模块会将边框的相对位置通过如下公式转换成绝对位置,便于比较预测框和先验框的交并比,基于最佳的先验框来预测。预测模块的输入特征图通道数是(Bx(5+C)),其中B代表每个单元可以预测的边界框数量(这里取2),每个边界框都有5+C个属性,分别描述每个边界框的坐标尺寸、置信度和C类概率。如果对象的中心位于单元格的感受野(感受野是输入图像对于单元格可见的区域),则由该单元格负责预测对象。预测模块的损失函数主要由坐标损失、置信度损失和分类损失构成,公式如下:其中,S^2表示每个尺度的网格数,B表示每个尺度预测的边框数(取2),表示第i个网格的第j个box是否负责检测这个object。前两项表示坐标损失,采用均方误差函数,和用于控制中心回归和宽高回归的权重,一般设置为1,2;三、四项表示置信度损失,采用交叉熵函数,由于不负责检测的边框比重较高,通过设置=2来加速置信度的收敛;最后一项表示类别损失,采用交叉熵函数,每一个负责检测的网格计算类别概率。作为优选,所述本文档来自技高网
...

【技术保护点】
1.基于MixNet-YOLOv3和卷积递归神经网络CRNN(Convolutional Recurrent NeuralNetwork)的算术题智能批阅系统,其特征在于,包括如下步骤:/n(1)对原始检测数据集进行预处理,通过数据增强手段增强样本的泛化性,同时利用K均值聚类算法生成适应该场景的两组先验框,用于检测网络的训练;/n(2)将整张图像输入到轻量级的MixNet网络模型中,进行图像定位和语义特征的提取,得到表示图像全局信息的多尺度特征;/n(3)利用特征金字塔网络FPN(Feature Pyramid Networks) 特征融合技术,融合不同尺度的特征,分别输送到对应的YOLOv3预测模块中,并根据两组先验框分别对产生的特征图进行计算,基于最佳的先验框来预测,并根据预测出的坐标、置信度、类别信息与标签信息进行损失函数的计算,通过迭代训练得到更为精确的检测模型;/n(4)根据检测网络输出的算术题边框,将抽取的算术题和标注的文本信息组合起来,构成识别模块的数据集;/n(5)将抽取的算术题图像转成灰度图送入卷积递归神经网络CRNN网络,首先经过卷积神经网络CNN(Convolutional Neural Networks) 提取特征得到特征图,再转换成序列送入双向长短期记忆网络LSTM(Long Short-Term Memory) 获取序列特征,最后经过联结时序分类CTC(Connectionist Temporal Classification) 算法转录得到最终的语义信息;/n(6)根据识别模块得到的即得语义信息,进行算术逻辑的运算操作,从而判断出每道算术题目的正确与否,对于做错的题目会给出正确答案。/n...

【技术特征摘要】
1.基于MixNet-YOLOv3和卷积递归神经网络CRNN(ConvolutionalRecurrentNeuralNetwork)的算术题智能批阅系统,其特征在于,包括如下步骤:
(1)对原始检测数据集进行预处理,通过数据增强手段增强样本的泛化性,同时利用K均值聚类算法生成适应该场景的两组先验框,用于检测网络的训练;
(2)将整张图像输入到轻量级的MixNet网络模型中,进行图像定位和语义特征的提取,得到表示图像全局信息的多尺度特征;
(3)利用特征金字塔网络FPN(FeaturePyramidNetworks)特征融合技术,融合不同尺度的特征,分别输送到对应的YOLOv3预测模块中,并根据两组先验框分别对产生的特征图进行计算,基于最佳的先验框来预测,并根据预测出的坐标、置信度、类别信息与标签信息进行损失函数的计算,通过迭代训练得到更为精确的检测模型;
(4)根据检测网络输出的算术题边框,将抽取的算术题和标注的文本信息组合起来,构成识别模块的数据集;
(5)将抽取的算术题图像转成灰度图送入卷积递归神经网络CRNN网络,首先经过卷积神经网络CNN(ConvolutionalNeuralNetworks)提取特征得到特征图,再转换成序列送入双向长短期记忆网络LSTM(LongShort-TermMemory)获取序列特征,最后经过联结时序分类CTC(ConnectionistTemporalClassification)算法转录得到最终的语义信息;
(6)根据识别模块得到的即得语义信息,进行算术逻辑的运算操作,从而判断出每道算术题目的正确与否,对于做错的题目会给出正确答案。


2.根据权利要求1所述的基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统,其特征在于,所述的步骤(1)首先通过LabelImg标注软件生成图片的标注框,然后利用平移、旋转、裁剪等数据增强手段扩充原始的数据集,增强数据的泛化性和鲁棒性,针对数据集中的边框信息,通过K均值聚类算法得到2个尺度共4个先验框,用于检测网络的训练。


3.根据权利要求1所述的基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统,其特征在于,所述的步骤(2)采用轻量级MixNet网络提取图像多尺度特征,通过不同卷积核的混合深度卷积结构代替深度可分离卷积结构,在极大的减少网络参数量的同时,增强了网络融合多尺度语义和定位特征的能力,从而提取到更为系统全面的特征,混合深度可分离卷积模块MDConv(MixedDepthwiseConvolutionalKernel)旨在将不同的卷积核尺寸融合到一个单独的卷积操作,使其可以易于获取具有多个分辨率的不同模式,其中MDConv卷积操作具有多个设计选择:
(2.1)组大小g:决定了用于一个单独输入张量的不同类型卷积核的个数,在的极端情况,MDConv等同于普通深度卷积,在时,MDConv可以提高模型的准确性和效率;
(2.2)每个组的卷积核尺寸:限制卷积核尺寸通常从开始,每组单调增加2,的卷积核尺寸通常为;例如,一个4组的MDConv通常使用的卷积核尺寸为,在此限制下,每个组的卷积核尺寸相对于其组大小已经预定义,因而简化了设计过程;
(2.3)每个组的通道大小:采用两种通道划分方法:(a)等分:每组通道的数目一致;(b)指数划分:第通道数占总通道数的,例如,一个4组MDConv共有32个通道,等分将通道划分为,而指数划分将通道划分为。


4.根据权利要求1所述的基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统,其特征在于,所述的步骤...

【专利技术属性】
技术研发人员:刘天亮梁聪聪桂冠戴修斌
申请(专利权)人:江苏拓邮信息智能技术研究院有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1