一种基于深度学习的文档图像去模糊方法、系统及设备技术方案

技术编号：41476542 阅读：39 留言：0更新日期：2024-05-30 14:28

本发明专利技术公开一种基于深度学习的文档图像去模糊方法、系统及设备，涉及图像复原与重建领域。本发明专利技术首先基于原始清晰文档图像，通过生成模糊核的方式来批量生成模糊程度不一的模糊文档图像；然后将模糊文档图像与对应的原始清晰文档图像构成图像数据集；构建包括残差骨干网络和特征融合模块的卷积神经网络模型；采用图像数据集对卷积神经网络模型进行训练和测试，得到训练好的卷积神经网络模型作为文档图像的去模糊模型；将待去模糊的文档图像输入到去模糊模型中，通过端到端的方式直接输出对应的清晰文档图像。采用本发明专利技术方法去除模糊后的文档图像具有较高的内容质量，整体具有良好的视觉感知效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像复原与重建，特别是涉及一种基于深度学习的文档图像去模糊方法、系统及设备。

技术介绍

1、本专利技术针对的数据是含有大量数字信息的文本图像以及表格图像，其中以表格形式存储的数据居多，并且多是通过光学扫描仪器对原文件进行扫描，或者是相机进行直接拍摄；在一张图像中可能存在多种结构：英文、中文、数字、表格、符号等相互组合，并且由于外界因素如硬件、光线、抖动等造成相同内容的图像可能外在表现也不同。因此从数据层面而言，它的数据风格各异、结构较为复杂。

2、根据所识别图像的环境，可将应用场景分为清晰且具有固定模式的简单场景以及非清晰且模式不定的复杂场景。复杂场景的文本识别的难度极高，原因包括但不限于：图片背景极为丰富，经常面临低亮度、低对比度、光照不均、透视变形和残缺遮挡等问题，而且文本的布局可能存在扭曲、褶皱、换向等问题，其中的文字也会存在字体多样、字号字重颜色不一的问题。在很多实际情况下拍摄设备发生抖动、对焦偏差产生的失焦或者被拍摄对象处在运动中产生抖动模糊，还有文本印刷质量低下、书页陈旧破损、背景干扰过多或者光线条件差等问题，都会产生这类文本图像。

3、传统的文档去模糊方法有基于边缘增强的算法，因为文档图像通常具有轮廓清晰的边缘特征，因此可以通过增强边缘信息来实现内容上的增强，也可以达到去模糊的预期效果，首先应用边缘检测算法检测出字符等细节的边缘，之后再使用卷积、二值化等操作间接增强图像的对比度，实现字符边缘增强的效果，比如常用的边缘检测canny算法。另外也有使用自然图像先验知识学习来获得重建

4、近年来，随着深度学习的发展，卷积神经网络被广泛运用于图像处理领域，并在各个子领域都取得了不错的成绩，xu等人第一次将传统优化与神经网络结合起来，实现了早期的深度学习去模糊的效果，为了恢复出更好的图像，近年来一些基于空间反卷积和深度神经网络的方法相继被提出，这些方法大致分为两类，一类是基于反卷积去噪，另一类是基于先验去噪。sun等人提出一种卷积神经网络来估计模糊核的盲区模糊方法，但模型鲁棒性不强，重建出的图像视觉效果并不好。

5、因此如何对这类复杂场景下的文档图像进行较为合适的去模糊处理，在不损失文档图像内容完整性的同时又能最大程度的保留文档的细节信息成为当下亟需解决的技术问题。

技术实现思路

1、针对上述
技术介绍
中提出的问题，本专利技术提供一种基于深度学习的文档图像去模糊方法、系统及设备，以提升去模糊后图像的质量和视觉效果。

2、为实现上述目的，本专利技术提供了如下方案：

3、一方面，本专利技术提供一种基于深度学习的文档图像去模糊方法，包括：

4、获取文档内容不同的多张原始清晰文档图像；

5、基于原始清晰文档图像，通过生成模糊核的方式来批量生成模糊程度不一的模糊文档图像；

6、将模糊文档图像与对应的原始清晰文档图像构成图像数据集；

7、构建包括残差骨干网络和特征融合模块的卷积神经网络模型；

8、采用图像数据集对卷积神经网络模型进行训练和测试，得到训练好的卷积神经网络模型作为文档图像的去模糊模型；

9、将待去模糊的文档图像输入到去模糊模型中，通过端到端的方式直接输出对应的清晰文档图像。

10、可选地，所述基于原始清晰文档图像，通过生成模糊核的方式来批量生成模糊程度不一的模糊文档图像，具体包括：

11、根据运动模糊核或高斯模糊核生成公式来批量生成不同模糊程度的模糊核；

12、将模糊核与原始清晰文档图像进行卷积操作，从而批量生成文档内容不一且模糊程度不一的模糊文档图像。

13、可选地，所述残差骨干网络包括尺寸预处理模块、池化层以及多个残差块；所述预尺寸预处理模块由一个卷积核大小为7×7、步长为2且填充为3的卷积层以及紧跟的批归一化层和relu激活函数层构成；所述池化层是一个卷积核大小为3×3、步长为2且填充为1的卷积层；所述池化后面连接多个残差块。

14、可选地，所述残差块由两层卷积核大小为3×3、步长为1且填充为1的卷积层构成，每层卷积层后紧跟批归一化层，并且在卷积层之间加入relu激活函数层。

15、可选地，所述特征融合模块包括五层卷积模块以及全局跳跃连接；其中前四层卷积模块都使用了卷积核尺寸为1×1和3×3的卷积层，每层卷积层后紧跟批归一化层和relu激活函数层；最后一层卷积模块则先是一层3×3的卷积层，再紧跟批归一化层和relu激活函数层，然后是一层降维的1×1的卷积层。

16、可选地，所述采用图像数据集对卷积神经网络模型进行训练和测试，得到训练好的卷积神经网络模型作为文档图像的去模糊模型，具体包括：

17、卷积神经网络模型训练过程中，将卷积神经网络模型输出的去模糊文档图像和原始清晰文档图像使用均方误差作为损失函数更新误差参数；将所述误差参数反向传播给参数优化器，并采用学习率算法根据损失更新参数，直至达到训练完成条件。

18、另一方面，本专利技术还提供一种基于深度学习的文档图像去模糊系统，包括：

19、原始清晰文档图像获取模块，用于获取文档内容不同的多张原始清晰文档图像；

20、模糊文档图像生成模块，用于基于原始清晰文档图像，通过生成模糊核的方式来批量生成模糊程度不一的模糊文档图像；

21、图像数据集构建模块，用于将模糊文档图像与对应的原始清晰文档图像构成图像数据集；

22、卷积神经网络模型构建模块，用于构建包括残差骨干网络和特征融合模块的卷积神经网络模型；

23、去模糊模型训练模块，用于采用图像数据集对卷积神经网络模型进行训练和测试，得到训练好的卷积神经网络模型作为文档图像的去模糊模型；

24、文档图像去模糊模块，用于将待去模糊的文档图像输入到去模糊模型中，通过端到端的方式直接输出对应的清晰文档图像。

25、再一方面，本专利技术还提供一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的基于深度学习的文档图像去模糊方法。

26、可选地，所述存储器为非暂态计算机可读存储介质。

27、根据本专利技术提供的具体实施例，本专利技术公开了以下技术效果：

28、本专利技术提供了一种基于深度学习的文档图像去模糊方法、系统及设备，通过构建包括残差骨干网络和特征融合模块的卷积神经网络模型作为文档图像去模糊模型并采用模糊文档图像对该模型进行训练，得到训练后的文档图像去模糊模型，通过不断地训练使得损失函数收敛到一定小值，在验证图像集上的表现良好，去除模糊后的文档图像具有较高的内容质量，非常接近清晰的原始文档图像，整体具有良好的视觉感知效果。进一步地，本专利技术去模糊模型通过端到端的方式处理模糊文档图像，避免了估计模糊核带来的误差和问题，提升了去模糊的质量和效率本文档来自技高网...

【技术保护点】

1.一种基于深度学习的文档图像去模糊方法，其特征在于，包括：

2.根据权利要求1所述的基于深度学习的文档图像去模糊方法，其特征在于，所述基于原始清晰文档图像，通过生成模糊核的方式来批量生成模糊程度不一的模糊文档图像，具体包括：

3.根据权利要求1所述的基于深度学习的文档图像去模糊方法，其特征在于，所述残差骨干网络包括尺寸预处理模块、池化层以及多个残差块；所述预尺寸预处理模块由一个卷积核大小为7×7、步长为2且填充为3的卷积层以及紧跟的批归一化层和ReLU激活函数层构成；所述池化层是一个卷积核大小为3×3、步长为2且填充为1的卷积层；所述池化后面连接多个残差块。

4.根据权利要求3所述的基于深度学习的文档图像去模糊方法，其特征在于，所述残差块由两层卷积核大小为3×3、步长为1且填充为1的卷积层构成，每层卷积层后紧跟批归一化层，并且在卷积层之间加入ReLU激活函数层。

5.根据权利要求1所述的基于深度学习的文档图像去模糊方法，其特征在于，所述特征融合模块包括五层卷积模块以及全局跳跃连接；其中前四层卷积模块都使用了卷积核尺寸为1×1和3×

6.根据权利要求1所述的基于深度学习的文档图像去模糊方法，其特征在于，所述采用图像数据集对卷积神经网络模型进行训练和测试，得到训练好的卷积神经网络模型作为文档图像的去模糊模型，具体包括：

7.一种基于深度学习的文档图像去模糊系统，其特征在于，包括：

8.一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-6中任一项所述的基于深度学习的文档图像去模糊方法。

9.根据权利要求8所述的电子设备，其特征在于，所述存储器为非暂态计算机可读存储介质。

...

【技术特征摘要】

1.一种基于深度学习的文档图像去模糊方法，其特征在于，包括：

3.根据权利要求1所述的基于深度学习的文档图像去模糊方法，其特征在于，所述残差骨干网络包括尺寸预处理模块、池化层以及多个残差块；所述预尺寸预处理模块由一个卷积核大小为7×7、步长为2且填充为3的卷积层以及紧跟的批归一化层和relu激活函数层构成；所述池化层是一个卷积核大小为3×3、步长为2且填充为1的卷积层；所述池化后面连接多个残差块。

4.根据权利要求3所述的基于深度学习的文档图像去模糊方法，其特征在于，所述残差块由两层卷积核大小为3×3、步长为1且填充为1的卷积层构成，每层卷积层后紧跟批归一化层，并且在卷积层之间加入relu激活函数层。

5.根据权利要求1所述的基于深度学习的文档图像去模糊方...

【专利技术属性】
技术研发人员：徐国明，周扬，宛新文，金睿，席宇亮，袁宏武，曹旭妍，杨雨木，
申请(专利权)人：安徽大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人