本发明专利技术公开了一种基于图像矩矫正的深度学习文本字符检测方法,所述方法具体包括以下步骤:数据集准备、人工修正预标注不准的box框,根据所述box框生成高斯热图形式的热图标签、定义神经网络结构和损失函数、预训练、扩充实际场景的训练样本集、对扩充后的训练样本集进行自适应二值化操作,计算每个字符的Hu矩特征向量,取向量均值作为字符的辅助标签、修改损失函数形式进行微调训练和模型测试与验证;该方法通过热图标签和矩特征向量标签联合构成优化损失函数,提升了字符box框的准确性,解决了字符边框过度分割以及欠分割的问题;通过对样本集扩充后进行预处理,弥补了字符级标注不足的问题,其字符检测泛化能力更好。
【技术实现步骤摘要】
一种基于图像矩矫正的深度学习文本字符检测方法
本专利技术属于目标检测领域,特别涉及一种基于图像矩矫正的深度学习文本字符检测方法。
技术介绍
目前,文本检测在计算机视觉领域有着广泛的应用,如用于实时翻译、图像检索、场景解析、地理定位、盲导航等,从而在场景理解和文本分析具有极高的应用价值和研究意义。现有的文本检测方法分为以下几类:1.传统的图像处理方法,基于手工设计的特征检测,如MSER(最大稳定极值区域)和SWT(笔画宽度变换),该方法主要处理印刷字体以及打印扫描场景的文本检测,对于自然场景的文本检测效果较差;2.基于深度学习的Two-stage方法,生成候选区域并提取对应的特征,进行网络训练微调,输出对应的文本区域框,该方法的优点是精度较高,对小尺度的目标检测也有不错的性能,共享计算量,缺点是推理速度慢,训练周期较长;3.基于深度学习的One-stage方法,直接略过生成候选框步骤,进行端到端地预测目标的文本区域框,优点是推理速度快,缺点比two-stage的精度低,小目标检测效果不好。现有的文本检测算法技术大部分是基于输出文本行区域位置坐标,例如现有的文本检测技术中的基准网络CTPN基于Two-stage方法进行了改进,在fasterRCNN的基础上,结合了目标文本的水平排列或竖直排列的特殊性改进的,输出的是文本行区域。现有的文本检测算法技术并未精确到字符级的文本检测,因而提供的信息有限。现有的字符级的文本检测算法是基于语义分割思想,标签将高斯中心热图替代像素级块状热图,采用区域得分或紧密型得分两个指标优化网络,后处理通过对概率图进行二值化处理,得到最终的字符边框。字符级的文本检测不仅可以输出单个字符框体坐标,也可以输出文本行区域的坐标,其输出的信息更加丰富,可以满足客户更大的需求。但现有的字符级文本检测的算法受参数以及所在的复杂的中文文本场景的影响,分割的字符边框会出现过度分割或欠分割现象,分别对应于如图4的矩形框和加黑矩形框。
技术实现思路
针对上述问题,本专利技术提出了一种基于图像矩矫正的深度学习文本字符检测方法,所述方法包括以下步骤:A:数据集准备,对所述数据集中随机采样的样本进行预标注,保存所述样本每个字符的box框;B:人工修正预标注不准的所述box框,根据所述box框生成高斯热图形式的热图标签;C:定义神经网络结构和损失函数losscross;D:采用所述步骤C中的所确定的网络结构和损失函数losscross进行初步的预训练;E:扩充实际场景的训练样本集;F:对所述步骤E扩充后的训练样本集进行自适应二值化操作,计算每个字符的Hu矩特征向量,取向量均值作为字符的辅助标签;G:修改损失函数形式,添加正则项分支,使用所述扩充后的训练样本集用修改后损失函数loss进行微调训练;H:模型测试与验证,通过对所述预标注生成的高斯热图修改其参数theta,画出在不同的theta阈值下,字符box框的准确率变化曲线,从而根据需求选择合适的参数theta。进一步,所述步骤A中数据集主要包括ICDAR2017、ICDAR2019和CTW中的数据,采用EasyOCR训练的公开字符级分割模型对所述数据集中随机采样的样本进行预标注。进一步,所述步骤B中预标注不准具体指的是所述字符box框过度分割或者是欠分割;所述过度分割指所述字符box框未将当前字符全部纳入box框中,所述欠分割是指所述字符box框中除了当前字符外还有其它字符或者符号。进一步,所述步骤B中采用透视变换将所述box框映射到二维高斯图上,生成高斯热图形式的标签。进一步,所述步骤C中确定神经网络结构具体操作如下:网络输入预定大小的样本,采取VGG16基准网络作为特征提取网络,U-net作为解码网络;输出表示置信度区域的像素得分矩阵;所述步骤C中损失函数losscross由以下方法确定:损失函数losscross采用像素级的交叉熵损失,即通过对标签热图设定所述theta阈值,大于所述theta阈值的则认为是字符区域,用类别1表示,小于所述theta阈值的则为非字符区域,用类别0表示。进一步,所述步骤E中扩充实际场景的训练样本集的方法是随机截图或不同角度下拍摄电脑屏幕含有文档的界面,用预训练好的模型进行预标注,用所述步骤B中的方式进行人工修正。进一步,所述theta阈值通过以下步骤得到:对所述热图标签进行高斯平滑处理,计算其梯度图;根据分水岭算法确定不同阈值下的联通区域,取每个所述联通区域下的最小外接矩形,即为所述阈值下的字符边框;随机统计抽样多个字,判断对应的不同所述阈值下最小外接边框的准确性,取准确率最高的所述阈值作为所述theta阈值。进一步,所述步骤G中修改后损失函数loss为所述步骤C中的损失函数losscross加L2损失:loss=losscross+m*lossL2其中表示样本矩特征的L2损失,m表示样本数,K表示单个样本的字符个数,yij表示第i个样本中第j个字符对应的矩特征向量的均值,f(xij)表示网络输出预测的第i个样本中第j个字符对应的矩特征向量的均值。进一步,所述步骤H中模型的测试与验证中的样本为任意选取的电脑文档拍摄或截图的文本场景中的字符。本专利技术的优点:本专利技术的检测方法提出了通过一种基于图像矩特征来表示单个字符的中心,提供更加鲁棒的辅助信息,即通过高斯热图和矩特征联合构成优化损失函数,来提升字符box框的准确性,结合分割任务(热图标签)和回归任务(矩特征标签)来提高模型的字符检测分割能力,解决了字符边框过度分割以及欠分割的问题;除此之外,通过对屏幕截图中的文本场景来合成样本,预训练出初步的字符文本检测模型,随后在真实的文本样本中进行预标注,人工进行修正文本并计算出真实样本中每个字符的矩特征,作为训练微调中的损失函数的正则项。该预处理方式一方面弥补了字符级标注不足的问题,另一方面在实际的打印拍照或截图的文本场景中,其字符检测泛化能力更好。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示出了现有技术的字符分割算法流程图;图2示出了本专利技术实施例的字符分割算法流程图;图3示出了本专利技术样本标签高斯图的示例图;图4示出了过度分割或欠分割现象的示例图。具体实施方本文档来自技高网...
【技术保护点】
1.一种基于图像矩矫正的深度学习文本字符检测方法,其特征在于,所述方法包括以下步骤:/nA:数据集准备,对所述数据集中随机采样的样本进行预标注,保存所述样本每个字符的box框;/nB:人工修正预标注不准的所述box框,根据所述box框生成高斯热图形式的热图标签;/nC:定义神经网络结构和损失函数loss
【技术特征摘要】
1.一种基于图像矩矫正的深度学习文本字符检测方法,其特征在于,所述方法包括以下步骤:
A:数据集准备,对所述数据集中随机采样的样本进行预标注,保存所述样本每个字符的box框;
B:人工修正预标注不准的所述box框,根据所述box框生成高斯热图形式的热图标签;
C:定义神经网络结构和损失函数losscross;
D:采用所述步骤C中的所确定的网络结构和损失函数losscross进行初步的预训练;
E:扩充实际场景的训练样本集;
F:对所述步骤E扩充后的训练样本集进行自适应二值化操作,计算每个字符的Hu矩特征向量,取向量均值作为字符的辅助标签;
G:修改损失函数形式,添加正则项分支,使用所述扩充后的训练样本集用修改后损失函数loss进行微调训练;
H:模型测试与验证,通过对所述预标注生成的高斯热图修改其参数theta,画出在不同的theta阈值下,字符box框的准确率变化曲线,从而根据需求选择合适的参数theta。
2.根据权利要求1所述的一种基于图像矩矫正的深度学习文本字符检测方法,其特征在于,
所述步骤A中数据集主要包括ICDAR2017、ICDAR2019和CTW中的数据,采用EasyOCR训练的公开字符级分割模型对所述数据集中随机采样的样本进行预标注。
3.根据权利要求1所述的一种基于图像矩矫正的深度学习文本字符检测方法,其特征在于,
所述步骤B中预标注不准具体指的是所述字符box框过度分割或者是欠分割;
所述过度分割指所述字符box框未将当前字符全部纳入box框中,所述欠分割是指所述字符box框中除了当前字符外还有其它字符或者符号。
4.根据权利要求1所述的一种基于图像矩矫正的深度学习文本字符检测方法,其特征在于,
所述步骤B中采用透视变换将所述box框映射到二维高斯图上,生成高斯热图形式的标签。
5.根据权利要求1所述的一种基于图像矩矫正的深度学习文本字符检测方法,其特征在于,
所述步骤C中确定神经网络结构具...
【专利技术属性】
技术研发人员:田辉,刘其开,
申请(专利权)人:合肥高维数据技术有限公司,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。