当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于MSDNet和空间划分的场景文本检测方法技术

技术编号:26378228 阅读:23 留言:0更新日期:2020-11-19 23:46
本发明专利技术提供了一种基于MSDNet和空间划分的场景文本检测方法,包括选取MSDNet网络模型,确定初始预训练模型;搭建空间划分网络;搭建回归网络;构造分类loss;空间划分集成;使用concat‑nms算法第一步后处理;使用box‑fix算法第二步后处理;使用tensorflow深度学习框架对已有的数据进行训练;使用已训练好的模型进行场景文本检测。本发明专利技术提供的方法可以自由地根据硬件条件和速度要求来选择不同的模型输出端口,通过提出的concat‑nms和box‑fix算法,来生成任意长的和更精确的文本框,在场景文本检测方面取得了令人满意的实验结果。因此,相较于现有技术,本方法灵活性好、分类精度较高、模型训练简单且实用性高。

【技术实现步骤摘要】
一种基于MSDNet和空间划分的场景文本检测方法
本专利技术涉及计算机视觉领域,尤其涉及一种基于MSDNet和空间划分的场景文本检测方法。
技术介绍
在计算机视觉领域,文本检测,即从图片中准确检测出文字区域是一个重要问题,它为理解图片提供了前提条件。自深度学习以来,CTPN,EAST等算法通过使用神经网络模型,使文本检测取得了突破性进展。现阶段,文本检测算法主要分为一阶段算法和二阶段算法。其中,一阶段算法主要以CTPN(DetectingTextinNaturalImagewithConnectionistTextProposalNetwork)和EAST(AnEfficientandAccurateSceneTextDetector)算法为代表。二阶段算法主要是基于Mask-Rcnn进行语义分割。由于二阶段算法需要设置很多anchor并进行roi池化,检测速度比较慢。现有的场景文本检测方法存在很多不足之处。具体的,第一,现有的场景文本检测方法并没有提供一个根据硬件条件和用户需求自动修改模型复杂度的模型框架;第二,现有的场景文本检测模型中,由于正负样本不均衡给模型的训练带来了困难;第三,现有的场景文本检测方法中所采用的基于回归的一阶段算法难以检测任意长的文本。
技术实现思路
本专利技术提供了一种基于MSDNet和空间划分的场景文本检测方法,以解决现有的文本检测方法的检测模型复杂度无法调整、检测模型训练困难且难以实现任意长文本检测,而导致现有的文本检测方法灵活性差、模型训练困难且实用性低这一问题。<br>本专利技术所述的一种基于MSDNet网络和空间划分的场景文本检测方法,包括如下步骤:步骤1,构建特征金字塔,确定初始预训练的多尺度密集网络MSDNet的网络模型,用于提供backbone网络;其中,MSDNet的中文全称为多尺度密集网络,英文全称为MultiscaleDenseNetwork。步骤2:在所述backbone网络的基础上,构建空间划分网络,即构建多个线性分类器,用于对图像中的文本区域进行检测并输出文本区域划分结果;步骤3:在所述backbone网络的基础上,构建边框回归网络,用于输出边框回归结果;步骤4:确定所述空间划分网络的学习任务,即所述空间划分网络中每个线性分类器应学习的点和使用的分类loss;步骤5:结合所述空间划分网络的学习任务和文本区域划分结果,对所述文本区域划分结果进行空间划分集成,获得空间划分集成结果;步骤6:通过concat-nms算法,根据所述边框回归结果和空间划分集成结果进行第一步后处理,获得第一步后处理结果;步骤7:通过box-fix算法,根据所述第一步后处理结果进行第二步后处理,获得第二步后处理结果;步骤8:使用tensorflow深度学习框架构建结合MSDNet和空间划分的检测模型,并对已有的数据进行训练,获得已训练好的检测模型;步骤9:使用所述已训练好的检测模型进行场景文本检测。进一步地,在一种实现方式中,所述MSDNet网络模型具备多个输出端口,用于自由地根据硬件条件选择所述输出端口;每个所述输出端口具备不同的模型复杂度,用于平衡对文本检测的检测效率和检测精确度。进一步地,在一种实现方式中,所述步骤2包括:构建所述空间划分网络后,生成每个所述线性分类器对应的掩码;每个所述掩码即为线性分类器所要分类的图像区域,所述空间划分网络即空间划分树;所述空间划分树的第i层对应于所述MSDNet网络模型的第i个输出端口,采用所述MSDNet网络模型的第i个输出端口所对应的线性分类器在第i-1层的划分结果上进一步分类;所述MSDNet网络模型具备5个输出端口,通过所述5个输出端口所对应的线性分类器对5个输出端口进行空间划分,即通过不停地划分数据集,实现在子空间中的分类,获得高精度的分类结果,即所述文本区域划分结果;文本区域检测为二分类任务,通过第一个所述输出端口进行文本区域检测,此时,第一个所述输出端口所对应的线性分类器将文本区域划分为二,获得两个区域;再用第二个所述输出端口所对应的线性分类器分别对划分获得的两个区域再分类;依次递推,通过所述5个输出端口所对应的线性分类器,最终将所述文本区域划分为32个区域,作为文本区域划分结果;其中,每个所述二分类任务的输出层采用softmax二分类。进一步地,在一种实现方式中,所述步骤3中,边框回归结果即通过神经网络学习并计算出图像中文本框内的当前像素点的五个参数,所述五个参数包括当前像素点所在文本标准边框的倾斜度,以及所述当前像素点距离文本标准边框的距离,所述文本标准边框包括用于构成文本标准边框的上、下、左和右四条线段。进一步地,在一种实现方式中,所述步骤4中的分类loss为带裁剪的平衡交叉熵loss,所述带裁剪的平衡交叉熵loss的公式如下:其中,yi是真实标签,yi′是预测标签,yi的取值为0或1,yi′的取值范围为[0,1],n是文本样本点的数量,n的取值范围为[0,250000],m是背景样本点的数量,m的取值范围为[0,250000]。进一步地,在一种实现方式中,所述步骤5包括:根据以下公式,获得所述MSDNet网络模型中深度为3的空间划分树的分类结果:output=p1p2p4+p1(1-p2)p5+(1-p1)p3p6+(1-p1)(1-p3)p7其中,output表示MSDNet网络模型中深度为3的空间划分树的分类结果;所述空间划分树将图像划分为两个区域,当深度i=1时,p1=1的区域为文本区域,p1=0的区域为背景区域;当深度i=2时,p1=1区域中p2=1的区域为文本区域,p1=0区域中p3=1的区域为文本区域;当深度i=3时,p2=1区域中p4=1的区域为文本区域,p2=0区域中p5的区域为文本区域,p3=1区域中p6=1的区域为文本区域,p3=0区域中p7=1的区域为文本区域,pi的值为每个线性分类器根据生成的掩码和采用的loss学习得到的分类结果,其中pi的取值为0或1;根据所述MSDNet网络模型中深度为3的空间划分树的分类结果,推算出所述空间划分树深度为5的空间划分树的最终分类结果,记为scoremap,取值范围为[0,1];并设定阈值0.7,用于对scoremap进行二值化;如果scoremap中像素点的值大于或等于0.7,则设定scoremap中所述像素点的值为1;如果scoremap中像素点的值小于0.7,则设定scoremap中所述像素点的值为0;所述MSDNet网络模型最终将图像划分为32个区域,每个所述区域都是对应的分类器所确认的文本区域或背景区域。进一步地,在一种实现方式中,所述步骤6包括:根据所述边框回归结果和空间划分集成结果,计算得到每个scoremap上的像素点所对应的文本框;如果所述像素点被预测为背景,即所述像素点scoremap的值小于0.7,则判断所述像素点没有文本框;如果所述像素点本文档来自技高网...

【技术保护点】
1.一种基于MSDNet网络和空间划分的场景文本检测方法,其特征在于,包括如下步骤:/n步骤1,构建特征金字塔,确定初始预训练的多尺度密集网络MSDNet的网络模型,用于提供backbone网络;/n步骤2:在所述backbone网络的基础上,构建空间划分网络,即构建多个线性分类器,用于对图像中的文本区域进行检测并输出文本区域划分结果;/n步骤3:在所述backbone网络的基础上,构建边框回归网络,用于输出边框回归结果;/n步骤4:确定所述空间划分网络的学习任务,即所述空间划分网络中每个线性分类器应学习的点和使用的分类loss;/n步骤5:结合所述空间划分网络的学习任务和文本区域划分结果,对所述文本区域划分结果进行空间划分集成,获得空间划分集成结果;/n步骤6:通过concat-nms算法,根据所述边框回归结果和空间划分集成结果进行第一步后处理,获得第一步后处理结果;/n步骤7:通过box-fix算法,根据所述第一步后处理结果进行第二步后处理,获得第二步后处理结果;/n步骤8:使用tensorflow深度学习框架构建结合MSDNet和空间划分的检测模型,并对已有的数据进行训练,获得已训练好的检测模型;/n步骤9:使用所述已训练好的检测模型进行场景文本检测。/n...

【技术特征摘要】
1.一种基于MSDNet网络和空间划分的场景文本检测方法,其特征在于,包括如下步骤:
步骤1,构建特征金字塔,确定初始预训练的多尺度密集网络MSDNet的网络模型,用于提供backbone网络;
步骤2:在所述backbone网络的基础上,构建空间划分网络,即构建多个线性分类器,用于对图像中的文本区域进行检测并输出文本区域划分结果;
步骤3:在所述backbone网络的基础上,构建边框回归网络,用于输出边框回归结果;
步骤4:确定所述空间划分网络的学习任务,即所述空间划分网络中每个线性分类器应学习的点和使用的分类loss;
步骤5:结合所述空间划分网络的学习任务和文本区域划分结果,对所述文本区域划分结果进行空间划分集成,获得空间划分集成结果;
步骤6:通过concat-nms算法,根据所述边框回归结果和空间划分集成结果进行第一步后处理,获得第一步后处理结果;
步骤7:通过box-fix算法,根据所述第一步后处理结果进行第二步后处理,获得第二步后处理结果;
步骤8:使用tensorflow深度学习框架构建结合MSDNet和空间划分的检测模型,并对已有的数据进行训练,获得已训练好的检测模型;
步骤9:使用所述已训练好的检测模型进行场景文本检测。


2.根据权利要求1所述的一种基于MSDNet网络和空间划分的场景文本检测方法,其特征在于,所述MSDNet网络模型具备多个输出端口,用于自由地根据硬件条件选择所述输出端口;每个所述输出端口具备不同的模型复杂度,用于平衡对文本检测的检测效率和检测精确度。


3.根据权利要求2所述的一种基于MSDNet网络和空间划分的场景文本检测方法,其特征在于,所述步骤2包括:
构建所述空间划分网络后,生成每个所述线性分类器对应的掩码;每个所述掩码即为线性分类器所要分类的图像区域,所述空间划分网络即空间划分树;
所述空间划分树的第i层对应于所述MSDNet网络模型的第i个输出端口,采用所述MSDNet网络模型的第i个输出端口所对应的线性分类器在第i-1层的划分结果上进一步分类;
所述MSDNet网络模型具备5个输出端口,通过所述5个输出端口所对应的线性分类器对5个输出端口进行空间划分,即通过不停地划分数据集,实现在子空间中的分类,获得高精度的分类结果,即所述文本区域划分结果;
文本区域检测为二分类任务,通过第一个所述输出端口进行文本区域检测,此时,第一个所述输出端口所对应的线性分类器将文本区域划分为二,获得两个区域;再用第二个所述输出端口所对应的线性分类器分别对划分获得的两个区域再分类;依次递推,通过所述5个输出端口所对应的线性分类器,最终将所述文本区域划分为32个区域,作为文本区域划分结果;其中,每个所述二分类任务的输出层采用softmax二分类。


4.根据权利要求3所述的一种基于MSDNet网络和空间划分的场景文本检测方法,其特征在于,所述步骤3中,边框回归结果即通过神经网络学习并计算出图像中文本框内的当前像素点的五个参数,所述五个参数包括当前像素点所在文本标准边框的倾斜度,以及所述当前像素点距离文本标准边框的距离,所述文本标准边框包括用于构成文本标准边框的上、下、左和右四条线段。


5.根据权利要求4所述的一种基于MSDNet网络和空间划分的场景文本检测方法,其特征在于,所述步骤4中的分类loss为带裁剪的平衡交叉熵loss,所述带裁剪的平衡交叉熵loss的公式如下:









其中,yi是真实标签,y′i是预测标签,yi的取值为0或1,y′i的取值范围为[0,1],n是文本样本点的数量,n的取值范围为[0,250000],m是背景样本点的数量,m的取值范围为[0,250000]。


6.根据权利要求5所述的一种基于MSDNet网络和空间划分的场景文本检测方法,其特征在于,所述步骤5包括:
根据以下公式,获得所述MSDNet网络模型中深度为3的空间划分树的分类结果:
output=p1p2p4+p...

【专利技术属性】
技术研发人员:杨育彬刘一帆
申请(专利权)人:南京大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1