一种去除文档图像透字的方法及装置制造方法及图纸

技术编号：42752033 阅读：4 留言：0更新日期：2024-09-18 13:42

本申请公开了一种去除文档图像透字的方法。对文档图像进行切边，仅保留文档区域。采用双边滤波方式构建训练数据集。构建一种基于卷积神经网络的深度学习模型，采用一种端到端的强化式NUNet网络结构。采用所述训练数据集对所述深度学习模型进行训练，使其同时对文档图像进行透字去除与图像特征提取；图像特征提取用来在去除透字过程中提升图像的清晰度。采用训练好的所述深度学习模型对输入的文档图像进行处理后输出，所述处理是在去除透字的同时提升图像的清晰度。本申请不仅可以高效的去除文档图像中透字的区域，还可以充分保留文档正面字符，提高文档图像的清晰度和可读性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及一种去除文档图像的透字现象并提高文档图像清晰度的方法。

技术介绍

1、文档的透字现象是指由于纸张过薄或质量较差，使得纸张背面的文字或图案透过纸张呈现在纸张正面。如果文档出现透字，那么拍摄或扫描得到的文档图像也就出现透字。透字现象会导致文档、文档图像的可读性和可视性下降，特别是当正面和背面的内容相似或重叠时。

2、现有的去除文档图像透字的方法是采用中值滤波、高斯滤波等滤波方法。中值滤波通过将像素值替换为其邻域像素值的中值来减少噪声，高斯滤波通过将每个像素的值与其周围像素的值进行加权平均来达到平滑效果。其缺点在于：第一，难以在去除透字与保留图像细节之间取得平衡。第二，处理速度较慢，难以满足用户对实时性和高效性的需求。其原因在于中值滤波和高斯滤波的基本原理都是通过平滑图像来减少噪声，虽然可以有效地去除图像中的噪声，但同时会模糊图像边缘，使得图像细节丢失。此外，对于一个n×n大小的图像和一个k×k大小的滤波窗口，中值滤波在最坏情况下需要对每个像素进行k2logk2次比较操作，高斯滤波则需要k2次乘法和加法操作，因此处理速度较慢。

技术实现思路

1、本申请所要解决的技术问题是针对文档图像出现透字的情况，如何去除透字内容、增强文档图像的清晰度。

2、为解决上述技术问题，本申请提出了一种去除文档图像透字的方法，包括如下步骤。步骤s1：对文档图像进行切边，去除非文档区域，仅保留文档区域。步骤s2：采用双边滤波方式构建训练数据集；首先拍摄和/或收集含有透字现象的文档

3、优选地，所述步骤s2中，对文档图像进行双边滤波采用如下设定：第一，空间域滤波器的直径设置为0；第二，色彩域滤波器的标准差设为25；第三，空间域滤波器的标准差设为20。

4、优选地，所述步骤s2中，对含有透字现象的文档图像经过两次双边滤波后，得到前景完整且透字去除的文档图像。

5、可选地，所述步骤s2中，对所述训练数据集进行数据增强；包括对一对训练数据同时进行随机颜色变换、随机裁剪、随机加入模糊或噪声、随机图案覆盖的任意一种或多种。

6、进一步地，所述步骤s3中，所述端到端的强化式nunet网络结构是指：输入图像通过下采样过程中的多层下采样模块逐层提取图像特征，并逐层减小图像的特征大小；输入图像与第一层下采样模块之间、每两层相邻的下采样模块之间、最后一层下采样模块之后都有一层密集残差模块和特征注意力融合单元用于提取不同尺度的图像中的细微特征；下采样过程得到的图像特征再通过上采样过程中的多层上采样模块逐层恢复图像的特征大小，最终得到和原图尺寸一致的处理后图片；第一层上采样模块之前、每两层相邻的上采样模块之间、最后一层上采样模块和输出图像之间都有一层密集残差模块和特征注意力融合单元用来将低层次特征融入到图片深层信息的高层次特征中。

7、进一步地，所述步骤s3中，每个密集残差模块中依次具有五层卷积层和一个特征相加单元，每个下采样模块中依次具有两层卷积层，每个上采样模块中依次具有一层反卷积层和一层卷积层；在密集残差模块和下采样模块中使用多层卷积层有助于网络提取不同尺度的特征，能通过滑动窗口捕捉局部区域信息，能够有效地提取图像中细微但重要的元素和特征，包括图像中的边缘、纹理、颜色变化和小的结构。

8、进一步地，所述步骤s3中，所述端到端的强化式nunet网络结构在同层的相邻模块之间、以及在相邻层的不同模块之间具有多个跳连接，部分跳连接还与特征注意力融合单元相结合；这些跳连接和特征注意力融合单元允许信息在网络的不同层中传递，避免深层网络的信息丢失，并可以将低层次特征融入到高层次特征中，使得高层次特征中包含更多的细节信息，从而实现更准确的图像重建。

9、优选地，所述步骤s4中，训练过程中采用adam优化器训练100轮；学习率初始化为1×10-3，每经过20轮学习率降低为原来的0.5倍。

10、优选地，所述步骤s4中，训练过程中的损失函数采用平滑的l1损失函数和感知损失函数相结合，经过反向传播优化所有的网络参数。

11、本申请还提出了一种去除文档图像透字的装置，包括图像切边模块、训练数据构建模块、模型构建模块、模型训练模块、模型应用模块。所述图像切边模块用于对文档图像进行切边，去除非文档区域，仅保留文档区域。所述训练数据构建模块用于采用双边滤波方式构建训练数据集；首先拍摄和/或收集含有透字现象的文档图像，并裁剪出文档区域；然后将裁剪后的文档图像使用双边滤波方式过滤，滤除文档中透字的区域；双边滤波处理前、后的文档图像构成一对训练数据。所述模型构建模块用于构建一种基于卷积神经网络的深度学习模型，所述深度学习模型采用一种端到端的强化式nunet网络结构。所述模型训练模块用于采用所述训练数据集对所述深度学习模型进行训练，使其同时对文档图像进行透字去除与图像特征提取；图像特征提取用来在去除透字过程中提升图像的清晰度。所述模型应用模块用于采用训练好的所述深度学习模型对输入的文档图像进行处理后输出，所述处理是在去除透字的同时提升图像的清晰度。

12、本申请取得的技术效果是：可以作用于各种文档图像上，不仅可以高效的去除文档图像中透字的区域，还可以充分保留文档正面字符，提高文档图像的清晰度和可读性，为图像处理、文档数字化、印刷业等领域带来实质性的改进。

本文档来自技高网...

【技术保护点】

1.一种去除文档图像透字的方法，其特征是，包括如下步骤；

2.根据权利要求1所述的去除文档图像透字的方法，其特征是，所述步骤S2中，对文档图像进行双边滤波采用如下设定：第一，空间域滤波器的直径设置为0；第二，色彩域滤波器的标准差设为25；第三，空间域滤波器的标准差设为20。

3.根据权利要求1所述的去除文档图像透字的方法，其特征是，所述步骤S2中，对含有透字现象的文档图像经过两次双边滤波后，得到前景完整且透字去除的文档图像。

4.根据权利要求1所述的去除文档图像透字的方法，其特征是，所述步骤S2中，对所述训练数据集进行数据增强；包括对一对训练数据同时进行随机颜色变换、随机裁剪、随机加入模糊或噪声、随机图案覆盖的任意一种或多种。

5.根据权利要求1所述的去除文档图像透字的方法，其特征是，所述步骤S3中，所述端到端的强化式NUNet网络结构是指：输入图像通过下采样过程中的多层下采样模块逐层提取图像特征，并逐层减小图像的特征大小；输入图像与第一层下采样模块之间、每两层相邻的下采样模块之间、最后一层下采样模块之后都有一层密集残差模块和特征注

6.根据权利要求5所述的去除文档图像透字的方法，其特征是，所述步骤S3中，每个密集残差模块中依次具有五层卷积层和一个特征相加单元，每个下采样模块中依次具有两层卷积层，每个上采样模块中依次具有一层反卷积层和一层卷积层；

7.根据权利要求5所述的去除文档图像透字的方法，其特征是，所述步骤S3中，所述端到端的强化式NUNet网络结构在同层的相邻模块之间、以及在相邻层的不同模块之间具有多个跳连接，部分跳连接还与特征注意力融合单元相结合；这些跳连接和特征注意力融合单元允许信息在网络的不同层中传递，避免深层网络的信息丢失，并可以将低层次特征融入到高层次特征中，使得高层次特征中包含更多的细节信息，从而实现更准确的图像重建。

8.根据权利要求1所述的去除文档图像透字的方法，其特征是，所述步骤S4中，训练过程中采用Adam优化器训练100轮；学习率初始化为1×10-3，每经过20轮学习率降低为原来的0.5倍。

9.根据权利要求1所述的去除文档图像透字的方法，其特征是，所述步骤S4中，训练过程中的损失函数采用平滑的L1损失函数和感知损失函数相结合，经过反向传播优化所有的网络参数。

10.一种去除文档图像透字的装置，其特征是，包括图像切边模块、训练数据构建模块、模型构建模块、模型训练模块、模型应用模块；

...

【技术特征摘要】

1.一种去除文档图像透字的方法，其特征是，包括如下步骤；

2.根据权利要求1所述的去除文档图像透字的方法，其特征是，所述步骤s2中，对文档图像进行双边滤波采用如下设定：第一，空间域滤波器的直径设置为0；第二，色彩域滤波器的标准差设为25；第三，空间域滤波器的标准差设为20。

3.根据权利要求1所述的去除文档图像透字的方法，其特征是，所述步骤s2中，对含有透字现象的文档图像经过两次双边滤波后，得到前景完整且透字去除的文档图像。

4.根据权利要求1所述的去除文档图像透字的方法，其特征是，所述步骤s2中，对所述训练数据集进行数据增强；包括对一对训练数据同时进行随机颜色变换、随机裁剪、随机加入模糊或噪声、随机图案覆盖的任意一种或多种。

5.根据权利要求1所述的去除文档图像透字的方法，其特征是，所述步骤s3中，所述端到端的强化式nunet网络结构是指：输入图像通过下采样过程中的多层下采样模块逐层提取图像特征，并逐层减小图像的特征大小；输入图像与第一层下采样模块之间、每两层相邻的下采样模块之间、最后一层下采样模块之后都有一层密集残差模块和特征注意力融合单元用于提取不同尺度的图像中的细微特征；下采样过程得到的图像特征再通过上采样过程中的多层上采样模块逐层恢复图像的特征大小，最终得到和原图尺寸一致的处理后图片；第一层上采样模块之前、每两层相邻的上采样模块之间、最后一层上采样模块和输出图像之间都有...

【专利技术属性】
技术研发人员：周辉，熊学辰，郭丰俊，刘鹏伟，龙腾，张彬，镇立新，
申请(专利权)人：上海合合信息科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人