基于图像处理的学生文档管理系统技术方案

技术编号:12393580 阅读:92 留言:0更新日期:2015-11-26 01:09
本发明专利技术基于图像处理的学生文档管理系统,具体指一种在纸质文档条件下的基于图像处理的学生文档管理系统,涉及图像处理技术领域。该系统包括扫描学生文档获得图像,输入系统;进行文档图像去噪;从文档图像中划分出每道题目的位置;对文档图像像素进行颜色分类,筛选出红色像素点,进而找出教师于文档上批注的符号;找到每道题目区域中的符号并进行识别;将每道题目的图像,以及对应的教师反馈信息,存入至数据库等步骤。本发明专利技术在关键指标——错题识别准确率上,达到了优良的效果。先进的阅读与书写设备和先进、完善的软件,使资料的分类统计变得轻松准确,让考试、作业完全在设备上进行,为全程实现信息数字化提供技术基础。

【技术实现步骤摘要】

本专利技术涉及图像处理
,具体指一种在纸质文档条件下的基于图像处理的 学生文档管理系统。
技术介绍
中学生在日常学习中,通常都会做大量的习题和试卷,这些纸质材料日积月累地 积累下来,最后将会成为一个很有用的复习资料。学生可以通过回顾以前做过的练习,进行 查漏补缺,尤其能弥补自己的弱项。但是,学生们在管理传统纸质学习资料的过程中,会遇 到一个最大的问题:长期积累的纸质材料数量很庞大,非常不便于有针对性的查阅、检索、 复习。当然,有一些常用手段可以提高查阅效率,如将资料按科目、时间进行分类和排序等, 更有学生专门维护一本错题本,将做错的题目抄写下来,但更多的学生只能在作业和试卷 的海洋中地毯式地搜索。而且,为了维护一本错题本,学生通常也需要耗费更多额外的精 力,这无疑给他们造成了很大的负担。 对于老师而言,如何充分利用好学生日常作业和考试试卷这类资源,其实也存在 不足。由于纸质资料中的内容很难进行自动化的统计,因此老师很难获得关于学生学习质 量的量化信息。老师单凭借自己的记忆,难以准确了解每个学生的长项和弱点,更难摸清学 生每个阶段的学习状态等等。解决很多学习上的问题,很多时候要对症下药,如果能很好地 跟踪学生的作业考试情况,必然对教学产生巨大帮助。 现有的针对教学的数字化管理技术,主要集中在阅卷和批卷。譬如使用答题卡批 改选择题,这种方案一定程度实现了数字化。但是,这种技术的局限性也非常明显,它无法 应用于填空问答等需要书写的题目。又譬如通过扫描进行电子阅卷,方便了考试成绩的统 计,甚至可以实现学校间合作批改。但对于学生而言,这套系统对他们没有直接的帮助,他 们仍然只能通过传统的手段管理纸质文档,如整理错题、归类文档等。而且将这样一套系统 直接用于日常作业也并不合适,老师每天需要电脑批阅,负担更重。因此,在纸质文档数字 化管理的领域,尚未有成熟的系统可以供老师和学生使用。
技术实现思路
本专利技术的目的在于克服现有技术存在的缺失和不足,提出了一种基于图像处理的 学生文档管理系统,通过将批改好的作业、考试的试卷集中进行扫描,然后通过图像识别来 自动判别试卷中的错题,最后由电脑自动收集和归类错题,从而实现资料数字化和智能的 分类。 一种基于图像处理的学生文档管理系统,工作流程(步骤): 第一、扫描学生文档获得图像,输入系统。 第二、进行文档图像去噪。 第三、从文档图像中划分出每道题目的位置。 第四、对文档图像像素进行颜色分类,筛选出红色像素点,进而找出教师于文档上 批注的符号。 toon] 第五、找到每道题目区域中的符号并进行识别。 第六、将每道题目的图像,以及对应的教师反馈信息,存入至数据库。 由于现实中,试卷的排版、老师批改试卷的方式千差万别,可能远远超出了一般图 像处理技术可以解决的范畴,因此需要对应用环节增加一些限制,恰当的定义,使得它能够 描述实际应用中的大部分场合,并且在这个条件下能找到简洁和优美的解决方案。 据此,定义如下: 1.试卷以A4纸的大小为一页。实际中,绝大多数的试卷都是每面印一页或两页, 对于后者,本专利技术可以在扫描后将其自动拆分成两个单页,从而可以专注于单页试卷的处 理上。 2.试卷上的题目从上到下排列,文字书写顺序从左到右。上下两道题目之间有相 对充裕的间隔或留白,学生在题目下方空白处解答题目,并且空白部分通常足够学生写完 答案。页面内部不进行分栏。 3.试卷采用黑色字迹,手写或印刷均可。学生的字迹颜色为黑色或者蓝色,而老师 的批阅结果由红色笔书写。 4.每道题目,老师采用打钩或者打叉来进行评判。 5.试卷通过彩色扫描仪批量转化成数字图像格式。试卷在扫描时允许适当的倾 斜,但倾斜角度一般不超过5度。 在这项任务中,输入是同一次作业或考试的所有学生的试卷。本专利技术通过扫描仪 获得数字化的试卷图像。所期望的结果是,系统自动化地将试卷上的每一道题目的区域识 别出来,并且在该试题所在区域中检测出老师的批改记号,再对批改记号进行模式识别,从 而知道该题的正误。 本专利技术系统概述如下: 系统,加上外部设备,主要包含的六个工作流程(如附图1所示): 首先进行试卷扫描,接下来将依次进行文档图像去噪、题目位置识别、颜色分类、 符号识别四个核心步骤(工作流程)。 为了更直观地展示本专利技术的系统,下面用一个真实的扫描之后的试卷作为例子, 来展示本专利技术所能达到的效果。 首先本专利技术进行文档图像去噪,得到一张更为干净的图像。然后本专利技术尝试从试 卷中划分出每一道题目的位置,这样本专利技术将每道题目的区域单独取出来,便作为之后归 档管理的最小单位。接下来,本专利技术对试卷上的像素进行颜色分类,留下红色的像素点,然 后将它们合并成完整的符号,并在图像上用矩形来描述其位置和大小。接下来,本专利技术找到 每道题目区域中的符号并进行识别,从而知道它是勾还是叉,即对还是错。最后,本专利技术获 得了所有题目的图像,以及每道题的正误信息,就可以将它们存至数据库,以便将来错题分 类和各项统计。 文档图像去噪 试卷通过扫描而获得的数字文档图像,与人眼看到的真实图像之间,其实是有差 异的,其中除了亮度、色调等整体性的差异之外,还有一些细微的失真表现,使得在处理数 字图像时会遇到一些问题。这种失真的表现,就是需要关注的噪声。 扫描过程中最典型的噪声,是由于纸面的粗糙引起的暗纹。粗糙的纸面会形成漫 反射,在光线的扫描下会出现明暗的变化:突起的地方会显得更亮,而凹下去的地方则显得 更暗。这使得本专利技术观察扫描结果的时候,会看到许多细小的暗点。这样一些暗点,会影响 到后续工作的准确性。 为了去除这些暗点,本专利技术采用了高斯滤波的方式。如所周知,高斯滤波就是对文 档图像的局部进行加权平均的过程,即在每个像素点上,本专利技术将其像素值和周围临近的 像素值进行加权平均,算出一个新的值出来,而这种方式计算出的新的文档图像就是滤波 之后的文档图像。在本专利技术中暗的点与较为明亮的背景加权平均之后,会更接近背景的颜 色,因此在新的文档图像中看不出明显的差异。 在OpenCV库中,本身实现了这一函数,因此只需选取合适的参数并调用相应的函 数即可。参数为窗口大小,含义是每个像素与周围多少距离内的像素进行加权平均。窗口 形状为矩形,因此要设置长宽两个数值。由于输入图片本身尺寸较大,因此窗口也比较大, 经实验,设置长宽为9可以达到最好的效果。 最后需要提一句,该参数的设定,是与扫描仪的质量和文档图像大小密切相关的。 对于不同的扫描仪,该参数的最佳设置也未必一样。在实际使用系统的时候,该参数需要和 扫描仪一起预先进行调试,才能保证后续步骤稳定地运行。 题目位置识别 为了解决识别试卷上每一道题目的位置,本专利技术采用统计方法。 由于在扫描试卷时限制了倾斜角度要在一定范围内,并且通常题目在文档图像上 所占据的行里的像素较多,因此统计文档图像每一像素行中黑色像素的数量,可以画出一 张直方图。图中当前第1页1 2 3 4 本文档来自技高网
...

【技术保护点】
一种基于图像处理的学生文档管理系统,包括步骤:a.扫描学生文档获得图像,输入系统;b.文档图像去噪;c.从文档图像中划分出每道题目的位置;d.对文档图像像素进行颜色分类,筛选出红色像素点,进而找出教师于文档上批注的符号;e.根据颜色分类结果找到每道题目区域中的符号并进行识别;f.将每道题目的图像,以及对应的教师反馈信息,存入至数据库;其特征在于,所述a.扫描学生文档获得图像,包括设定:a.1文档图像每页为A4纸大小,对每面印一页或两页的在扫描后自动拆分成两个单页;a.2.试卷上的题目从上到下排列,文字书写顺序从左到右,上下两道题目之间有供答题用的间隔或留白,页面内部不进行分栏;a.3.试卷采用手写或印刷的黑色字迹,学生的字迹颜色为黑色或者蓝色,老师的批阅为红色笔手写;a.4.老师打钩、叉,评判每道题目;a.5.试卷通过彩色扫描仪转化成数字文档图像格式;所述b.采用高斯滤波的方式,进行文档图像去噪;所述c.采用统计方法,进行题目位置识别。

【技术特征摘要】

【专利技术属性】
技术研发人员:崔梓宸章雍哲
申请(专利权)人:上海市上海中学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1