一种将图像中文字与背景进行图层分离的方法及系统技术方案

技术编号：41250201 阅读：2 留言：0更新日期：2024-05-09 23:59

本发明专利技术公开了一种将图像中文字与背景进行图层分离的方法。在输入图像中检测文字行的位置，得到文字行区域和非文字行区域。采用第一阶段分层网络根据输入图像和文字行区域预测得到粗粒度背景和文字掩码。采用第二阶段分层网络根据粗粒度背景和文字掩码预测得到细粒度背景；细粒度背景就是背景图层；输入图像和文字掩码叠加后得到文字图层。本发明专利技术采用一个神经网络即分层网络同时实现文字图层提取和背景图层修复；该神经网络分为多个阶段，降低每个阶段的神经网络的学习难度，使最终分离效果更精确。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种图像处理方法，特别是涉及一种分离图像中背景图层与文字图层的方法。

技术介绍

1、图像中通常包含有丰富的文字及背景信息，如果将图像中的全部文字提取为文字图层，除文字以外的其余内容作为背景图层，则分离图像中的文字图层与背景图层具有广泛的应用价值。例如在文档处理分析领域可以提供更加准确的数据支持，对于图像编辑和修复需求可大大提高处理效率。

2、图像中的背景中可能包含各种纹理、颜色，文字可能有不同的字体、大小、颜色与布局排列，背景与文字可能相互干扰，拍摄图像的角度、光线条件等千变万化，这些都对分离图像中的背景及文字图层带来挑战，导致分离结果模糊或分离不干净。

技术实现思路

1、本专利技术所要解决的技术问题是如何将图像中的文字与背景进行图层分离，使分离后的两图层干净、清晰，避免背景图层中的原文字区域出现擦除不干净、擦除后与周围区域融合不自然等情况。

2、为解决上述技术问题，本专利技术提出了一种将图像中文字与背景进行图层分离的方法，包括如下步骤。步骤s1：在输入图像中检测文字行的位置，得到文字行区域和非文字行区域。步骤s2：采用第一阶段分层网络根据输入图像和文字行区域预测得到粗粒度背景和文字掩码。步骤s3：采用第二阶段分层网络根据粗粒度背景和文字掩码预测得到细粒度背景；细粒度背景就是背景图层；输入图像和文字掩码叠加后得到文字图层。

3、优选地，所述步骤s1中，采用光学字符识别ocr模型检测并获取图像中的文字行位置。

4、进一步地

5、进一步地，所述步骤s2中，第一阶段分层网络、第二阶段分层网络均采用一种具有编码器和解码器结构的神经网络；其中，编码器用于对图像进行压缩以提取图像特征，解码器用于将所提取的图像特征进行恢复或重建。

6、进一步地，所述步骤s2中，第一阶段分层网络中包含一个编码器和两个解码器，这两个解码器分别用来预测粗糙的背景和文字掩码；这两个解码器共享一个编码器提取图像特征。

7、进一步地，所述步骤s2中，所述文字掩码中的各像素采用某一图像参数的三个不同取值来区分每个像素是属于三个类别——文字区域、背景区域、文字和背景重叠区域——中的哪一类。所述步骤s3中，第二阶段分层网络根据文字掩码所区分的文字区域、背景区域、文字和背景重叠区域采用空间分离注意力机制。

8、进一步地，将步骤s2修改为步骤s2a，将步骤s3修改为步骤s3a，同时在步骤s3a后增加步骤s4a。步骤s2a：采用第一阶段分层网络根据缩小尺寸的输入图像和缩小尺寸的文字行区域预测得到缩小尺寸的粗粒度背景和缩小尺寸的文字掩码。步骤s3a：采用第二阶段分层网络根据缩小尺寸的粗粒度背景和缩小尺寸的文字掩码预测得到缩小尺寸的细粒度背景。步骤s4a：采用第三阶段分层网络根据原始尺寸的输入图像、缩小尺寸的细粒度背景、缩小尺寸的文字掩码、以及第二阶段分层网络里唯一解码器最后一层的特征得到原始尺寸的细粒度背景和原始尺寸的文字掩码；原始尺寸的细粒度背景就是背景图层；原始尺寸的输入图像和原始尺寸的文字掩码叠加后得到文字图层。

9、进一步地，在没有第三阶段分层网络时，所述第一阶段分层网络、第二阶段分层网络是一个神经网络即分层网络的两个部分；在有第三阶段分层网络时，所述第一阶段分层网络、第二阶段分层网络、第三阶段分层网络是一个神经网络即分层网络的三个部分；所述分层网络采用一种用于图像去水印、或者用于从图像中提取特定目标、或者用于图像修复处理的神经网络实现。

10、本专利技术还提出了一种将图像中文字与背景进行图层分离的系统，包括检测单元、第一粗分离单元、第一细修复单元。所述检测单元用来在输入图像中检测文字行的位置，得到文字行区域和非文字行区域。所述第一粗分离单元用来采用第一阶段分层网络根据输入图像和文字行区域预测得到粗粒度背景和文字掩码。所述第一细修复单元用来采用第二阶段分层网络根据粗粒度背景和文字掩码预测得到细粒度背景；细粒度背景就是背景图层；输入图像和文字掩码叠加后得到文字图层。

11、进一步地，第一粗分离单元改为第二粗分离单元，第一细修复单元改为第二细修复单元，增加尺寸恢复单元。所述第二粗分离单元用来采用第一阶段分层网络根据缩小尺寸的输入图像和缩小尺寸的文字行区域预测得到缩小尺寸的粗粒度背景和缩小尺寸的文字掩码。所述第二细修复单元用来采用第二阶段分层网络根据缩小尺寸的粗粒度背景和缩小尺寸的文字掩码预测得到缩小尺寸的细粒度背景。所述尺寸恢复单元用来采用第三阶段分层网络根据原始尺寸的输入图像、缩小尺寸的细粒度背景、缩小尺寸的文字掩码、以及第二阶段分层网络里唯一解码器最后一层的特征得到原始尺寸的细粒度背景和原始尺寸的文字掩码；原始尺寸的细粒度背景就是背景图层；原始尺寸的输入图像和原始尺寸的文字掩码叠加后得到文字图层。

12、本专利技术取得的技术效果是：采用一个神经网络(即分层网络)同时实现文字图层提取和背景图层修复；该神经网络分为多个阶段，降低每个阶段的神经网络的学习难度，使最终分离效果更精确。

本文档来自技高网...

【技术保护点】

1.一种将图像中文字与背景进行图层分离的方法，其特征是，包括如下步骤；

2.根据权利要求1所述的将图像中文字与背景进行图层分离的方法，其特征是，所述步骤S1中，采用光学字符识别OCR模型检测并获取图像中的文字行位置。

3.根据权利要求1所述的将图像中文字与背景进行图层分离的方法，其特征是，所述步骤S1中，采用包围盒掩码区分输入图像的文字行区域和非文字行区域；所述包围盒掩码中的各像素采用某一图像参数的不同取值来区分该像素是否属于某一文字行的最小外接矩形；如果某像素属于任意文字行的最小外接矩形，则该像素属于文字行区域；如果某像素不属于全部文字行的最小外接矩形，则该像素属于非文字行区域。

4.根据权利要求1所述的将图像中文字与背景进行图层分离的方法，其特征是，所述步骤S2中，第一阶段分层网络、第二阶段分层网络均采用一种具有编码器和解码器结构的神经网络；其中，编码器用于对图像进行压缩以提取图像特征，解码器用于将所提取的图像特征进行恢复或重建。

5.根据权利要求4所述的将图像中文字与背景进行图层分离的方法，其特征是，所述步骤S2中，第一阶段分

6.根据权利要求4所述的将图像中文字与背景进行图层分离的方法，其特征是，所述步骤S2中，所述文字掩码中的各像素采用某一图像参数的三个不同取值来区分每个像素是属于三个类别——文字区域、背景区域、文字和背景重叠区域——中的哪一类；所述步骤S3中，第二阶段分层网络根据文字掩码所区分的文字区域、背景区域、文字和背景重叠区域采用空间分离注意力机制。

7.根据权利要求1所述的将图像中文字与背景进行图层分离的方法，其特征是，将步骤S2修改为步骤S2a，将步骤S3修改为步骤S3a，同时在步骤S3a后增加步骤S4a；

8.根据权利要求1或7所述的将图像中文字与背景进行图层分离的方法，其特征是，在没有第三阶段分层网络时，所述第一阶段分层网络、第二阶段分层网络是一个神经网络即分层网络的两个部分；在有第三阶段分层网络时，所述第一阶段分层网络、第二阶段分层网络、第三阶段分层网络是一个神经网络即分层网络的三个部分；所述分层网络采用一种用于图像去水印、或者用于从图像中提取特定目标、或者用于图像修复处理的神经网络实现。

9.一种将图像中文字与背景进行图层分离的系统，其特征是，包括检测单元、第一粗分离单元、第一细修复单元；

10.根据权利要求9所述的将图像中文字与背景进行图层分离的系统，其特征是，第一粗分离单元改为第二粗分离单元，第一细修复单元改为第二细修复单元，增加尺寸恢复单元；

...

【技术特征摘要】

1.一种将图像中文字与背景进行图层分离的方法，其特征是，包括如下步骤；

2.根据权利要求1所述的将图像中文字与背景进行图层分离的方法，其特征是，所述步骤s1中，采用光学字符识别ocr模型检测并获取图像中的文字行位置。

3.根据权利要求1所述的将图像中文字与背景进行图层分离的方法，其特征是，所述步骤s1中，采用包围盒掩码区分输入图像的文字行区域和非文字行区域；所述包围盒掩码中的各像素采用某一图像参数的不同取值来区分该像素是否属于某一文字行的最小外接矩形；如果某像素属于任意文字行的最小外接矩形，则该像素属于文字行区域；如果某像素不属于全部文字行的最小外接矩形，则该像素属于非文字行区域。

4.根据权利要求1所述的将图像中文字与背景进行图层分离的方法，其特征是，所述步骤s2中，第一阶段分层网络、第二阶段分层网络均采用一种具有编码器和解码器结构的神经网络；其中，编码器用于对图像进行压缩以提取图像特征，解码器用于将所提取的图像特征进行恢复或重建。

5.根据权利要求4所述的将图像中文字与背景进行图层分离的方法，其特征是，所述步骤s2中，第一阶段分层网络中包含一个编码器和两个解码器，这两个解码器分别用来预测粗糙的背景和文字掩码；这两个解码器共享一个编码器提取图像特征。

6.根据权利要求4所述的将图像中文字与背景...

【专利技术属性】
技术研发人员：龙伟，曹俊燕，郭丰俊，牛力，丁凯，龙腾，镇立新，
申请(专利权)人：上海合合信息科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人