基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题智能批阅系统技术方案

技术编号：27744159 阅读：27 留言：0更新日期：2021-03-19 13:38

本发明专利技术公开了一种基于MixNet‑YOLOv3和卷积递归神经网络CRNN(Convolutional Recurrent Neural Network)的算术题智能批阅系统，能够自动地识别试卷中每道算术题的含义并做出判断，以减轻传统手工批阅试卷带来的人力和时间成本，从而提高教学效率。智能批阅系统主要分为检测和识别两大模块。鉴于算术题分布密集、字体多变的特点和网络轻量化的需求，检测模块采用多尺度语义和定位特征融合的MixNet‑YOLOv3网络来实现算术题的边框信息提取；而在识别模块，前一模块抽取的算术题将通过基于联结时序分类CTC(Connectionist Temporal Classification)解码机制的卷积递归神经网络CRNN网络，得到算术题目的语义信息；最后通过算术逻辑运算来判断每道算术题目的正确与否。本发明专利技术创建的系统能够胜任移动设备端的算术题批阅任务。

全部详细技术资料下载

【技术实现步骤摘要】
基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题智能批阅系统
本专利技术涉及一种基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题智能批阅系统，属于计算机视觉及自然语言处理交叉的文本检测和识别领域。
技术介绍
随着科技水平的进步和教育产业的变革，传统阅卷过程中的效率低、质量和公平无法保证的问题日益凸显，一定程度阻碍了整体教学水平的提高。与此同时，数字图像处理以及计算机视觉技术的飞速发展，让人们将目光逐渐投向智能阅卷，智能阅卷能够极大地提高阅卷的效率，降低教师的工作负担，节省家长的时间，优化教育资源的配置。以中小学生的算术题为例，考虑到算术题一般是由印刷体跟手写体构成，出版商的印刷体样式、学生的手写体风格层出不穷，还存在一定程度的涂改，基于图像处理和机器学习的传统的光学字符识别OCR(OpticalCharacterRecognition)技术无法满足复杂场景的检测任务。典型的OCR技术路线包括以下三个部分：图像预处理、文本检测和文本识别，其中影响识别准确率的技术瓶颈是文本检测和文本识别，而这两部分也是OCR技术的重中之重。在传统OCR技术中，图像预处理通常是针对图像的成像问题进行修正，常见的预处理过程包括：几何变换、畸变校正、去除模糊、图像增强和光线校正等。文本检测即检测文本的所在位置和范围及其布局，通常也包括版面分析和文字行检测等，文字检测主要解决的问题是哪里有文字，文字的范围有多大。文本识别是在文本检测的基础上，对文本内容进行识别，将图像中的文本信息转化为文本...

【技术保护点】
1.基于MixNet-YOLOv3和卷积递归神经网络CRNN(Convolutional Recurrent NeuralNetwork)的算术题智能批阅系统，其特征在于，包括如下步骤：/n（1）对原始检测数据集进行预处理，通过数据增强手段增强样本的泛化性，同时利用K均值聚类算法生成适应该场景的两组先验框，用于检测网络的训练；/n（2）将整张图像输入到轻量级的MixNet网络模型中，进行图像定位和语义特征的提取，得到表示图像全局信息的多尺度特征；/n（3）利用特征金字塔网络FPN(Feature Pyramid Networks) 特征融合技术，融合不同尺度的特征，分别输送到对应的YOLOv3预测模块中，并根据两组先验框分别对产生的特征图进行计算，基于最佳的先验框来预测，并根据预测出的坐标、置信度、类别信息与标签信息进行损失函数的计算，通过迭代训练得到更为精确的检测模型；/n（4）根据检测网络输出的算术题边框，将抽取的算术题和标注的文本信息组合起来，构成识别模块的数据集；/n（5）将抽取的算术题图像转成灰度图送入卷积递归神经网络CRNN网络，首先经过卷积神经网络CNN(Convolut...

【技术特征摘要】
1.基于MixNet-YOLOv3和卷积递归神经网络CRNN(ConvolutionalRecurrentNeuralNetwork)的算术题智能批阅系统，其特征在于，包括如下步骤：
（1）对原始检测数据集进行预处理，通过数据增强手段增强样本的泛化性，同时利用K均值聚类算法生成适应该场景的两组先验框，用于检测网络的训练；
（2）将整张图像输入到轻量级的MixNet网络模型中，进行图像定位和语义特征的提取，得到表示图像全局信息的多尺度特征；
（3）利用特征金字塔网络FPN(FeaturePyramidNetworks)特征融合技术，融合不同尺度的特征，分别输送到对应的YOLOv3预测模块中，并根据两组先验框分别对产生的特征图进行计算，基于最佳的先验框来预测，并根据预测出的坐标、置信度、类别信息与标签信息进行损失函数的计算，通过迭代训练得到更为精确的检测模型；
（4）根据检测网络输出的算术题边框，将抽取的算术题和标注的文本信息组合起来，构成识别模块的数据集；
（5）将抽取的算术题图像转成灰度图送入卷积递归神经网络CRNN网络，首先经过卷积神经网络CNN(ConvolutionalNeuralNetworks)提取特征得到特征图，再转换成序列送入双向长短期记忆网络LSTM(LongShort-TermMemory)获取序列特征，最后经过联结时序分类CTC(ConnectionistTemporalClassification)算法转录得到最终的语义信息；
（6）根据识别模块得到的即得语义信息，进行算术逻辑的运算操作，从而判断出每道算术题目的正确与否，对于做错的题目会给出正确答案。

2.根据权利要求1所述的基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统，其特征在于，所述的步骤（1）首先通过LabelImg标注软件生成图片的标注框，然后利用平移、旋转、裁剪等数据增强手段扩充原始的数据集，增强数据的泛化性和鲁棒性，针对数据集中的边框信息，通过K均值聚类算法得到2个尺度共4个先验框，用于检测网络的训练。

3.根据权利要求1所述的基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统，其特征在于，所述的步骤（2）采用轻量级MixNet网络提取图像多尺度特征,通过不同卷积核的混合深度卷积结构代替深度可分离卷积结构，在极大的减少网络参数量的同时，增强了网络融合多尺度语义和定位特征的能力，从而提取到更为系统全面的特征，混合深度可分离卷积模块MDConv(MixedDepthwiseConvolutionalKernel)旨在将不同的卷积核尺寸融合到一个单独的卷积操作，使其可以易于获取具有多个分辨率的不同模式，其中MDConv卷积操作具有多个设计选择：
（2.1）组大小g：决定了用于一个单独输入张量的不同类型卷积核的个数，在的极端情况，MDConv等同于普通深度卷积，在时，MDConv可以提高模型的准确性和效率；
（2.2）每个组的卷积核尺寸：限制卷积核尺寸通常从开始，每组单调增加2，的卷积核尺寸通常为；例如，一个4组的MDConv通常使用的卷积核尺寸为，在此限制下，每个组的卷积核尺寸相对于其组大小已经预定义，因而简化了设计过程；
（2.3）每个组的通道大小：采用两种通道划分方法：(a)等分：每组通道的数目一致；(b)指数划分：第通道数占总通道数的，例如，一个4组MDConv共有32个通道，等分将通道划分为，而指数划分将通道划分为。

4.根据权利要求1所述的基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统，其特征在于，所述的步骤...

【专利技术属性】
技术研发人员：刘天亮，梁聪聪，桂冠，戴修斌，
申请(专利权)人：江苏拓邮信息智能技术研究院有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人