System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及图像处理,尤其是一种应用于歪曲试卷的文档矫正系统。
技术介绍
1、试卷一直以来被用来检验教学成果,试卷帮助教师了解学生在每个阶段、每门课程的学习情况。如果能对试卷内容进行识别分析,记录每一位学生每一道题的答题情况,教师就可以有针对性的对不同学科的重点和难点进行合理规划,使教学和指导复习真正做到有的放矢[1]。
2、随着信息科学技术的发展,人们越来越倾向于使用计算机作为信息自动化处理工具,这种方式不仅可以节省人力和时间,而且可以有效地减少人为操作错误。实体资料信息化是计算机信息自动化处理的一个重要的应用领域,早期由于技术限制很多资料都是以纸质的方式记录,存储成本高、存储时效有限而且整理检索的成本也很高。
3、教育领域是实体资料信息化的一个主要分支,教学过程中考试是一种有效的教学评估手段,试卷信息化不仅有助于试卷电子化保存,而且可以快速有效地对试卷内容统计分析。目前ocr(optical character recognition,光学字符识别)技术对于印刷体文本识别效果比较好,在手写体数字识别和数学公式识别方面仍存在比较大的研究和应用空间[2]。
4、摄影或扫描的文档图像经常表现出各种形式的退化,包括几何扭曲、阴影、渗透、污渍等。这些退化给现有的文档分析和识别系统带来了重大的挑战,也严重损害了试卷文档的视觉吸引力和可读性。文档图像的恢复,解决扁平文档、阴影去除、干净外观恢复、去模糊或文本分割等目标,具有学术和实际意义[3]。然而,现有的方法没有对歪曲试卷的处理,即对于有两页,一整面
5、以上涉及的文献如下:
6、[1] 梁晶. 基于经典测量理论的试卷分析系统的设计与实现[d].内蒙古大学,2014.
7、[2] 谢远辉. 基于数字图像处理的试卷识别研究[d].西安电子科技大学,2021.doi:10.27389/d.cnki.gxadu.2020.001662.
8、[3] zhang j, peng d, liu c, et al. docres: a generalist modeltowardunifying document image restoration tasks[j]. arxiv preprint arxiv:2405.04408,2024.。
技术实现思路
1、为了解决现有技术存在的问题及缺陷和不足,基于transformer,希望提出一种试卷文档图像恢复的矫正模型。本专利技术的目的在于提供一种应用于歪曲试卷图像的文档矫正系统,能够处理歪曲的试卷图像,并更好地矫正歪曲的试卷图像,从而更准确的进行文字识别任务。
2、其具体采用以下技术方案:
3、一种应用于歪曲试卷的文档矫正系统,
4、包括试卷图像的分割模块和基于多头注意力机制的试卷图像矫正模块;
5、所述试卷图像的分割模块基于unet构建的分割模型以实现对于试卷文档的左缘信息和右缘信息分割,通过卷积层、残差连接以及转置卷积层提取和融合图像特征,以获得图像分割图,随后进行后处理以获得实际的掩码图;再将分割后的信息输入到基于多头注意力机制的试卷图像矫正模块中以对分割后的图形进行矫正;
6、所述基于多头注意力机制的试卷图像矫正模块采用transformer结构,包括encoder-decoder结构,采用多头注意力结构网络生成图像的光流图,通过一系列的encoder编码器块进行逐步降采样和decoder解码器块进行逐步上采样,得到矫正后的试卷文档图像。
7、进一步地,数据集的构建方式为:
8、收集原始试卷文档,进行数据预处理操作后放入样本库;
9、收集原始试卷文档数据,通过扫描获得试卷文档的真实信息;
10、通过拍摄获得歪曲试卷图像,与所述真实信息相对应,构建获得试卷文档图像数据集。
11、进一步地,对数据集的预处理包括:对收集到的歪曲试卷图像、歪曲试卷的三维坐标图和光流图进行数据预处理,包括数据清洗、数据裁剪,然后将进行预处理后的数据放入样本库。
12、进一步地,训练分割模型和文档矫正模型的过程包括:
13、构建并训练分割模型;自样本库中提取任意歪曲试卷图像,获取试卷图像的边缘信息;
14、基于所述分割模型得到的左缘信息和右缘信息,构建并训练基于多头注意力机制的文档矫正模型;
15、以得到最终的试卷图像矫正模型,包括试卷图像的分割模块和基于多头注意力机制的试卷图像矫正模块。
16、进一步地,构建并训练分割模型;自样本库中提取任意歪曲试卷图像,获取试卷图像的边缘信息具体包括:
17、数据导入,模型的输入包括图像、三维坐标图和光流图,对于图像进行裁剪:首先由三维坐标图生成掩码图:通过提取三维坐标图这一彩色图像的三个通道数据,将非零的rgb像素标记为白色,其余为黑色,确定掩码图中最边缘的点,根据最边缘的四个点将图像裁剪得到,然后将、、统一缩放成大小为256*256,格式都转换成numpy,分别得到、、;
18、获取数据,通过unet架构的深度学习模型对图像边缘进行分割,输入为图像,结合卷积层、残差连接以及转置卷积层提取和融合图像特征,首先通过5层卷积结构,网络逐步获取图像1/4、1/8、1/16、1/32上的特征,分别记为;这些特征通过残差块进行增强,并在上采样过程中与下采样阶段保留的特征进行横向连接,得到通道数增加的特征表示;
19、经过多层卷积和残差连接后,特征通过上采样和转置卷积逐步恢复特征图的空间分辨率;特征融合后为,再通过多次残差块处理和sigmoid激活函数的二值化边界输出,得到关键实体三维坐标图;
20、在训练阶段,模型的输出与真实的三维坐标图之间的差异通过损失函数进行计算,以调整网络参数;
21、(1)
22、(2)。
23、进一步地,基于所述分割模型得到的左缘信息和右缘信息,构建并训练基于多头注意力机制的文档矫正模型:
24、基于所述关键实体三维坐标图,模型的输入包括、、;
25、获取数据,通过encoder结构,模型从输入图像中获取特征表示,记为,再经过relu激活函数处理以引入非线性;
26、将特征表示通过一系列encoder编码器块进行逐步降采样,同时增加通道数,以获取图像1/4、1/8、1/16、1/32上的特征,分别记为,再通过卷积层进一步降采样;
27、在编码器阶段之后,特征通过decoder解码器块进行逐步上采样,得到,同时减少通道数、进行特征融合得到特征,解码器阶段还使用上采样层恢复特征的空间分辨率;
28、在解码器的最后阶段,更新模型用于估计图像中像素点的光流,得到光流特征;最后,模型将光流特征上采样至与原始图像相同的分辨率,以生成最终的光流图;
29、在训练阶段,模型的本文档来自技高网...
【技术保护点】
1.一种应用于歪曲试卷的文档矫正系统,其特征在于:
2.根据权利要求1所述的一种应用于歪曲试卷的文档矫正系统,其特征在于:
3.根据权利要求2所述的一种应用于歪曲试卷的文档矫正系统,其特征在于:对数据集的预处理包括:对收集到的歪曲试卷图像、歪曲试卷的三维坐标图和光流图进行数据预处理,包括数据清洗、数据裁剪,然后将进行预处理后的数据放入样本库。
4.根据权利要求1所述的一种应用于歪曲试卷的文档矫正系统,其特征在于:
5.根据权利要求4所述的一种应用于歪曲试卷的文档矫正系统,其特征在于:
6.根据权利要求5所述的一种应用于歪曲试卷的文档矫正系统,其特征在于:
7.根据权利要求6所述的一种应用于歪曲试卷的文档矫正系统,其特征在于:对于待处理的歪曲试卷图像,将图像信息输入训练完成的最终的模型,先得到进行分割后试卷的三维坐标图,在此基础上,预测图像的光流图,最后将和进行网格采样,得到矫正后的试卷图像。
8.根据权利要求7所述的一种应用于歪曲试卷的文档矫正系统,其特征在于:还包括关键文字展示模块,用于在试卷文
9.根据权利要求7所述的一种应用于歪曲试卷的文档矫正系统,其特征在于:还包括OCR识别模块,用于对校正后的试卷文档图像进行OCR识别,得到识别后的试卷数据。
10.一种应用于歪曲试卷的文档矫正方法,其特征在于:基于UNet构建的分割模型以实现对于试卷文档的左缘信息和右缘信息分割,通过卷积层、残差连接以及转置卷积层提取和融合图像特征,以获得图像分割图,随后进行后处理以获得实际的掩码图;再将分割后的信息输入到Transformer结构中以对分割后的图形进行矫正,包括Encoder-Decoder结构,并采用多头注意力结构网络生成图像的光流图,通过一系列的Encoder编码器块进行逐步降采样和Decoder解码器块进行逐步上采样,得到矫正后的试卷文档图像。
...【技术特征摘要】
1.一种应用于歪曲试卷的文档矫正系统,其特征在于:
2.根据权利要求1所述的一种应用于歪曲试卷的文档矫正系统,其特征在于:
3.根据权利要求2所述的一种应用于歪曲试卷的文档矫正系统,其特征在于:对数据集的预处理包括:对收集到的歪曲试卷图像、歪曲试卷的三维坐标图和光流图进行数据预处理,包括数据清洗、数据裁剪,然后将进行预处理后的数据放入样本库。
4.根据权利要求1所述的一种应用于歪曲试卷的文档矫正系统,其特征在于:
5.根据权利要求4所述的一种应用于歪曲试卷的文档矫正系统,其特征在于:
6.根据权利要求5所述的一种应用于歪曲试卷的文档矫正系统,其特征在于:
7.根据权利要求6所述的一种应用于歪曲试卷的文档矫正系统,其特征在于:对于待处理的歪曲试卷图像,将图像信息输入训练完成的最终的模型,先得到进行分割后试卷的三维坐标图,在此基础上,预测图像的光流图,最后将和进行网格采样,得到矫正后的试卷图像...
【专利技术属性】
技术研发人员:周欣玥,江楠峰,满旺,何一凡,王大寒,朱顺痣,
申请(专利权)人:厦门理工学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。