一种成本高效的场景文字检测方法及系统技术方案

技术编号:32754687 阅读:16 留言:0更新日期:2022-03-23 18:50
本发明专利技术公开一种成本高效的场景文字检测方法及系统,属于图像字体识别领域,本发明专利技术首先在预训练阶段提出一种无监督域适应方法,通过消除虚拟数据和真实数据的域差异,使虚拟数据在特征上更接近真实数据,从而获得一个较好的迁移学习初始模型;其次在微调阶段提出一个半监督主动学习方法,根据真实数据的标注信息量自适应选择数据进行标注,然后同时利用有标注和无标注的真实数据进行训练,在较小标注成本的条件下尽可能提升场景文字检测性能。本的条件下尽可能提升场景文字检测性能。本的条件下尽可能提升场景文字检测性能。

【技术实现步骤摘要】
一种成本高效的场景文字检测方法及系统


[0001]本专利技术属于图像字体识别领域,具体涉及一种成本高效的场景文字检测方法及系统。

技术介绍

[0002]面向场景图像的文字检测与识别是计算机视觉领域的研究热点。近年来,随着深度学习的发展,场景文字的检测和识别技术取得了很大的进展。然而,深度学习模型的训练需要大量的标注数据,获取这些标注数据是非常昂贵和耗时的。为了缓解此问题,许多研究者利用大规模自动标注的虚拟数据来替代真实数据进行训练。目前,文字识别模型在虚拟与真实数据集上训练的性能是可比的,而文字检测模型在虚拟数据集上训练的性能还明显落后于在真实数据集上训练的性能。在现有的文字检测工作中,常采用一种迁移学习方法,即先将文字检测模型在大规模虚拟数据集上预训练,然后在特定场景的真实目标数据集上微调。
[0003]在预训练阶段,无标注的真实数据集没有被利用,这使得仅在虚拟数据集上预训练的模型在迁移时难以适应真实目标数据集的分布,导致次优的迁移学习性能。
[0004]在微调阶段,现有方法在整个真实目标数据集上微调仍需要很大的标注成本,而且忽略了对不同图像进行标注其获取的信息量是不同的,有的标注信息是冗余的。

技术实现思路

[0005]本专利技术的目的是提出一种成本高效的场景文字检测方法及系统,在有效节省数据标注成本的条件下获得可观的性能。首先,在预训练阶段提出一种无监督域适应方法,通过消除虚拟数据和真实数据的域差异,使虚拟数据在特征上更接近真实数据,从而获得一个较好的迁移学习初始模型。其次,在微调阶段提出一个半监督主动学习方法,根据真实数据的标注信息量自适应选择数据进行标注,然后同时利用有标注和无标注的真实数据进行训练,在较小标注成本的条件下尽可能提升场景文字检测性能。
[0006]本专利技术实现上述目的所采用的技术方案如下:
[0007]一种成本高效的场景文字检测方法,包括以下步骤:
[0008]利用作为源域的有标注的虚拟数据和作为目标域的无标注的真实数据,该虚拟数据和真实数据均为图像数据,对加入了熵感知的全局对齐模块和文字区域对齐模块的场景文字检测网络进行预训练,其中熵感知的全局对齐模块对源域和目标域的特征图进行对齐来减小域差异,文字区域对齐模块对分类分支网络预测的分类置信度大于置信度阈值的文字候选区域的特征进行对齐,训练后得到预训练模型;
[0009]利用预训练模型进行基于不确定性度量的主动学习,从目标域的真实数据中选取若干图像进行人工标注,得到人工标注的真实数据,利用该人工标注的真实数据重新训练一个新的场景文字检测网络;
[0010]利用预训练模型和重新训练后的场景文字检测网络,对目标域剩余的真实数据进
行增强伪标注,得到增强伪标注的真实数据;
[0011]利用所述人工标注的真实数据和所述增强伪标注的真实数据,对预训练模型进行微调;
[0012]对微调后的预训练模型移除熵感知的全局对齐模块和文字区域对齐模块,得到参数更新后的场景文字检测网络,利用该参数更新后的场景文字检测网络处理待检测场景图像,得到任意形状的文字检测结果;
[0013]所述场景文字检测网络包括特征提取模块、区域候选网络模块、感兴趣区域对齐网络模块和检测头网络模块,对输入的图像数据进行处理的步骤包括:利用特征提取模块的卷积神经网络提取场景图像的特征图;利用区域候选网络模块从特征图中选择文字候选区域;利用感兴趣区域对齐网络模块根据特征图和文字候选区域,获得文字候选区域的特征;利用检测头网络模块的分类分支、回归分支、分割分支对文字候选区域的特征进行处理,分类分支预测文字候选区域属于文字区域的置信度分数,回归分支预测文字候选区域与实际文字区域的位置偏移量,分割分支预测文字候选区域中文字的掩膜信息,并根据掩膜信息产生最终的任意形状的文字检测结果。
[0014]进一步地,预训练的损失为L
pre
=L
base
+λ1L1+λ2L2+λ3L3,其中,L
base
为预训练时场景文字检测网络产生的损失,L1,L2为预训练时熵感知的全局对齐模块产生的损失,L3为预训练时文字区域对齐模块产生的损失,λ1,λ2,λ3为权重参数。
[0015]进一步地,预训练时的场景文字检测网络产生的损失为:
[0016]L
base
=L
rpn
+L
cls
+L
reg
+L
seg
[0017]其中,L
rpn
、L
cls
、L
reg
和L
seg
分别表示区域候选网络模块、分类分支、回归分支和分割分支产生的损失;
[0018]重新训练新的场景文字检测网络的损失和微调时的损失均等于L
base

[0019]进一步地,熵感知的全局对齐模块包括两个域判别器D1,D2和两个相应的梯度反转层GRL,结构为GRL+D1+GRL+D2;文字区域对齐模块包括一个域判别器D3和一个相应的梯度反转层GRL,结构为GRL+D3;其中域判别器用于最大化虚拟数据与真实数据的特征差异,输出域判别概率图;梯度反转层用于使模型的反向传播梯度经过该层时正负号取反,实现域判别器与特征提取模块的对抗学习。
[0020]进一步地,熵感知的全局对齐模块对源域和目标域的特征图进行对齐时,产生的损失为:
[0021][0022]其中,是源域图像,是目标域图像,分别是卷积神经网络输出源域图像和目标域图像的特征图的第k个位置的特征,log以2为底。
[0023]进一步地,熵感知的全局对齐模块的D1输出的域判别概率图表示为d
k
=D1(G(x
k
)),利用信息熵函数计算域判别的熵h
k
=H(d
k
)=

d
k
·
log(d
k
)

(1

d
k
)
·
log(1

d
k
);然后对齐两个域的域判别的熵,损失为:
[0024][0025]其中,是源域图像的域判别的熵,是目标域图像的域判别的熵。
[0026]进一步地,文字区域对齐模块对分类分支网络预测的分类置信度大于置信度阈值的文字候选区域的特征进行对齐产生的损失为:
[0027][0028]其中,分别是源域图像和目标域图像中的第i个文字候选区域,分别是的特征,log以2为底。
[0029]进一步地,基于不确定性度量的主动学习是指利用一数据选取模型从目标域的无标注的真实数据集中迭代选取数据进行人工标注,其步骤包括:
[0030]初始时,数据选取模型M0利用预训练模型初始化,无标注数据池U0存放目标域的全部无标注的真实数据图像,人工标注数据池L0为空;
[0031]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种成本高效的场景文字检测方法,其特征在于,包括以下步骤:利用作为源域的有标注的虚拟数据和作为目标域的无标注的真实数据,该虚拟数据和真实数据均为图像数据,对加入了熵感知的全局对齐模块和文字区域对齐模块的场景文字检测网络进行预训练,其中熵感知的全局对齐模块对源域和目标域的特征图进行对齐来减小域差异,文字区域对齐模块对分类分支网络预测的分类置信度大于置信度阈值的文字候选区域的特征进行对齐,训练后得到预训练模型;利用预训练模型进行基于不确定性度量的主动学习,从目标域的真实数据中选取若干图像进行人工标注,得到人工标注的真实数据,利用该人工标注的真实数据重新训练一个新的场景文字检测网络;利用预训练模型和重新训练后的场景文字检测网络,对目标域剩余的真实数据进行增强伪标注,得到增强伪标注的真实数据;利用所述人工标注的真实数据和所述增强伪标注的真实数据,对预训练模型进行微调;对微调后的预训练模型移除熵感知的全局对齐模块和文字区域对齐模块,得到参数更新后的场景文字检测网络,利用该参数更新后的场景文字检测网络处理待检测场景图像,得到任意形状的文字检测结果;所述场景文字检测网络包括特征提取模块、区域候选网络模块、感兴趣区域对齐网络模块和检测头网络模块,对输入的图像数据进行处理的步骤包括:利用特征提取模块的卷积神经网络提取场景图像的特征图;利用区域候选网络模块从特征图中选择文字候选区域;利用感兴趣区域对齐网络模块根据特征图和文字候选区域,获得文字候选区域的特征;利用检测头网络模块的分类分支、回归分支、分割分支对文字候选区域的特征进行处理,分类分支预测文字候选区域属于文字区域的置信度分数,回归分支预测文字候选区域与实际文字区域的位置偏移量,分割分支预测文字候选区域中文字的掩膜信息,并根据掩膜信息产生最终的任意形状的文字检测结果。2.如权利要求1所述的方法,其特征在于,预训练的损失为L
pre
=L
base
+λ1L1+λ2L2+λ3L3,其中,L
base
为预训练时场景文字检测网络产生的损失,L1,L2为预训练时熵感知的全局对齐模块产生的损失,L3为预训练时文字区域对齐模块产生的损失,λ1,λ2,λ3为权重参数。3.如权利要求2所述的方法,其特征在于,预训练时的场景文字检测网络产生的损失为:L
base
=L
rpn
+L
cls
+L
reg
+L
seg
其中,L
rpn
、L
cls
、L
reg
和L
seg
分别表示区域候选网络模块、分类分支、回归分支和分割分支产生的损失;重新训练新的场景文字检测网络的损失和微调时的损失均等于L
base
。4.如权利要求2所述的方法,其特征在于,熵感知的全局对齐模块包括两个域判别器D1,D2和两个相应的梯度反转层GRL,结构为GRL+D1+GRL+D2;文字区域对齐模块包括一个域判别器D3和一个相应的梯度反转层GRL,结构为GRL+D3;其中域判别器用于最大化虚拟数据与真实数据的特征差异,输出域判别概率图;梯度反转层用于使模型的反向传播梯度经过该层时正负号取反,实现域判别器与特征提取模块的对抗学习。5.如权利要求4所述的方法,其特征在于,熵感知的全局对齐模块对源域和目标域的特
征图进行对齐时,产生的损失为:其中,是源域图像,是目标域图像,分别是卷积神经网络输出源域图像和目标域图像的特征图的第k个位置的特征,log以2为底;熵感知的全局对齐模块的D1输出的域判别概率图表示为d
k
=D1(G(x
k

【专利技术属性】
技术研发人员:曾港艳张远周宇杨晓萌王伟平
申请(专利权)人:中国传媒大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1