倾斜文本检测模型训练方法和票证图像文本检测方法技术

技术编号:21893140 阅读:27 留言:0更新日期:2019-08-17 14:59
本发明专利技术公开了一种倾斜文本检测模型训练方法和票证图像文本检测方法,该训练方法应用于包括第一网络单元、第二网络单元和第三网络单元的倾斜文本检测模型,其中,所述倾斜文本检测模型的文本训练,包括:将已标注的票证图像通过第一网络单元进行特征提取以获取特征图,并获取所述特征图中各像素点的水平候选框;对各水平候选框进行第一阶段回归并通过第二网络单元输出最小水平外接矩形建议框;将各最小水平外接建议框进行第二阶段回归。根据本发明专利技术的技术方案,可以实现对票证图像中的倾斜文本进行文本区域的检测,并且能在真实样本量不足时也能达到较高准确率,鲁棒性强等。

Training Method of Tilt Text Detection Model and Text Detection Method of Ticket Image

【技术实现步骤摘要】
倾斜文本检测模型训练方法和票证图像文本检测方法
本专利技术涉及文本检测
,尤其涉及一种倾斜文本检测模型训练方法和票证图像文本检测方法。
技术介绍
随着智能手机技术的发展,用户在办理金融保险业务时使用手机拍摄各类票据、证照(如房产证等)上传作为业务凭证越来越流行,通过OCR技术识别所拍摄图片中的文字信息用于信息录入或信息审核比对可以提高效率降低成本,提升用户体验。在现有OCR技术框架中,文本检测是关键一环。然而由于手机拍摄图片容易出现倾斜、透视变换、模糊等问题,票证图片中的倾斜文本检测具有较大挑战。传统的倾斜文本检测方法一方面需要复杂的多步骤处理,比如基于图像处理的方法,由于图片情况各异,需要反复调整参数阈值,鲁棒性差;另一方面则需要较大的训练样本量,比如基于深度学习的某些方法,当真实样本不足时采用基于图像变换的数据增广策略扩充训练样本,然而在如房产证等实际票证场景中识别效果并不好。
技术实现思路
鉴于上述问题,本专利技术提出一种倾斜文本检测模型训练方法和票证图像文本检测方法,可解决现有文本检测模型的准确率不高及真实样本较少时需要进行样本扩充处理等难题。本专利技术一实施例提出一种倾斜文本检测模型训练方法,应用于包括第一网络单元、第二网络单元和第三网络单元的倾斜文本检测模型,其中,所述倾斜文本检测模型的文本训练,包括:将已标注的票证图像通过所述第一网络单元进行特征提取以获取特征图,并对所述特征图中每一像素点生成初始水平候选框,将各像素点的初始水平候选框经过筛选处理后得到水平候选框;对各水平候选框进行第一阶段回归以获取每一水平候选框的第一标签,并将各水平候选框通过所述第二网络单元进行区域建议以输出每一水平候选框的类别预测和对应的第一预测偏移量,根据各水平候选框和所述第一预测偏移量计算及输出所述票证图像的最小水平外接建议框;对各最小水平外接建议框进行第二阶段回归以获取每一最小水平外接建议框的第二标签,并将所述特征图与各最小水平外接建议框通过所述第三网络单元进行区域预测以输出每一最小水平外接建议框的预测类别和对应的第二预测偏移量及第三预测偏移量;根据所述第一标签和所述第二标签设计目标损失函数,并利用预定数量的训练样本对所述倾斜文本检测模型进行迭代训练。进一步地,所述第一标签包括水平候选框的类别标签和第一偏移量标签,所述“对各水平候选框进行第一阶段回归以获取每一水平候选框的第一标签”包括:获取所述已标注的票证图像中各文本区域的人工标注旋转矩形框并计算每一旋转矩形框对应的最小水平外接矩形框;分别计算当前的水平候选框与各最小水平外接矩形框的第一重叠系数,并根据所述第一重叠系数和第一组预设阈值的大小确定所述当前的水平候选框的类别标签,所述类别标签包括前景类和背景类;将与所述当前的水平候选框的第一重叠系数最大的最小水平外接矩形框作为第一参考候选框,并计算所述当前的水平候选框与所述第一参考候选框的第一偏移量标签。进一步地,所述第二标签包括最小水平外接建议框的类别标签、第二偏移量标签和第三偏移量标签,所述“对各最小水平外接建议框进行第二阶段回归以获取每一最小水平外接建议框的第二标签”包括:分别计算当前的最小水平外接建议框与各最小水平外接矩形框的第二重叠系数,并根据所述第二重叠系数和第二组预设阈值的大小确定所述当前的最小水平外接建议框的类别标签;将与所述当前的最小水平外接建议框的第二重叠系数最大的最小水平外接矩形框作为第二参考候选框,并计算所述当前的最小水平外接建议框与所述第二参考候选框的第二偏移量标签;计算所述当前的最小水平外接建议框和与所述第二参考候选框对应的旋转矩形框的第三偏移量标签。进一步地,所述第一网络单元包括至少一卷积层,所述至少一卷积层用于对所述已标注的票证图像进行特征提取;所述第二网络单元包括第一卷积层、第二卷积层和第三卷积层,各个所述水平候选框依次输入所述第一卷积层后输出第一分支和第二分支,所述第一分支经过所述第二卷积层后输出所述水平候选框的预测类别;所述第二分支经过所述第三卷积层后输出所述水平候选框对应的第一预测偏移量。进一步地,所述第三网络单元包括最大池化层、第四卷积层、平均池化层、第一全连接层和第二全连接层;所述特征图和所述最小水平外接建议框依次输入所述最大池化层、第四卷积层和平均池化层后输出第一支路和第二支路,所述第一支路经过所述第一全连接层后输出所述最小水平外接建议框的预测类别;所述第二支路经过所述第二全连接层后输出所述最小水平外接建议框对应的第二预测偏移量和第三预测偏移量。进一步地,所述“利用预定数量的训练样本对所述倾斜文本检测模型进行迭代训练”包括:根据第一预设训练步数和第一预设学习率对所述倾斜文本检测模型进行第一阶段训练;根据第二预设训练步数和第二预设学习率对所述倾斜文本检测模型进行第二阶段训练。本专利技术另一实施例提出一种票证图像文本检测方法,采用上述的倾斜文本检测模型对目标票证图像进行文本检测,以获取所述目标票证图像的最小水平外接建议框的预测类别和对应的第二预测偏移量及第三预测偏移量;根据所述最小水平外接建议框的预测类别和所述第二预测偏移量及第三预测偏移量计算及输出所述目标票证图像的最小水平外接预测框和旋转矩形预测框;根据所述最小水平外接预测框和所述旋转矩形预测框按照预设规则确定所述目标票证图像的最终旋转矩形预测框。进一步地,若所述最终旋转矩形预测框的标签为(x,y,w,h,α),其中,x和y分别为中心点横坐标和纵坐标,w为宽,h为高,α为相对于预设方向上的倾斜角,则所述“根据所述最小水平外接预测框和所述旋转矩形预测框按照预设规则确定所述目标票证图像的最终旋转矩形预测框”包括:x:取所述最小水平外接预测框的中心点横坐标;y:取所述最小水平外接预测框的中心点纵坐标;w:取所述旋转矩形预测框的宽度方向上的位于同一边框线上的两个顶点之间的距离;h:取所述旋转矩形预测框的高度方向上的位于同一边框线上的两个顶点之间的距离;α:取所述旋转矩形预测框的位于同一边框线上的两个顶点所确定的直线与横坐标方向的夹角或所述直线与纵坐标方向的夹角。进一步地,在上述的票证图像文本检测方法,还包括:采用非极大值抑制算法对所述最终旋转矩形预测框进行过滤,以得到所述目标票证图像的旋转矩形检测框。本专利技术又一实施例还提出一种计算机设备,所述计算机设备包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述计算机设备执行上述的倾斜文本检测模型训练方法。本专利技术的技术方案采用两阶段回归处理来实现文本检测,可以实现对票证图像中的倾斜文本进行文本区域的检测,并且能在真实样本量不足时也能达到较高准确率,鲁棒性强等。附图说明为了更清楚地说明本专利技术的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对本专利技术保护范围的限定。图1为本专利技术实施例的倾斜文本检测模型训练方法的流程示意图;图2为本专利技术实施例的倾斜文本检测模型训练方法的第一阶段处理流程示意图;图3为本专利技术实施例的倾斜文本检测模型训练方法的第二阶段处理流程示意图;图4为本专利技术实施例的倾斜文本检测模型训练方法的应用示意图;图5为本专利技术实施例的倾斜文本检测模型训练装置的结构示意图。具体实施方式下本文档来自技高网...

【技术保护点】
1.一种倾斜文本检测模型训练方法,其特征在于,应用于包括第一网络单元、第二网络单元和第三网络单元的倾斜文本检测模型,其中,所述倾斜文本检测模型的文本训练,包括:将已标注的票证图像通过所述第一网络单元进行特征提取以获取特征图,并对所述特征图中每一像素点生成初始水平候选框,将各像素点的初始水平候选框经过筛选处理后得到水平候选框;对各水平候选框进行第一阶段回归以获取每一水平候选框的第一标签,并将各水平候选框通过所述第二网络单元进行区域建议以输出每一水平候选框的预测类别和对应的第一预测偏移量,根据各水平候选框和所述第一预测偏移量计算及输出所述票证图像的最小水平外接建议框;对各最小水平外接建议框进行第二阶段回归以获取每一最小水平外接建议框的第二标签,并将所述特征图与各最小水平外接建议框通过所述第三网络单元进行区域预测以输出每一最小水平外接建议框的预测类别和对应的第二预测偏移量及第三预测偏移量;根据所述第一标签和所述第二标签设计目标损失函数,并利用预定数量的训练样本对所述倾斜文本检测模型进行训练。

【技术特征摘要】
1.一种倾斜文本检测模型训练方法,其特征在于,应用于包括第一网络单元、第二网络单元和第三网络单元的倾斜文本检测模型,其中,所述倾斜文本检测模型的文本训练,包括:将已标注的票证图像通过所述第一网络单元进行特征提取以获取特征图,并对所述特征图中每一像素点生成初始水平候选框,将各像素点的初始水平候选框经过筛选处理后得到水平候选框;对各水平候选框进行第一阶段回归以获取每一水平候选框的第一标签,并将各水平候选框通过所述第二网络单元进行区域建议以输出每一水平候选框的预测类别和对应的第一预测偏移量,根据各水平候选框和所述第一预测偏移量计算及输出所述票证图像的最小水平外接建议框;对各最小水平外接建议框进行第二阶段回归以获取每一最小水平外接建议框的第二标签,并将所述特征图与各最小水平外接建议框通过所述第三网络单元进行区域预测以输出每一最小水平外接建议框的预测类别和对应的第二预测偏移量及第三预测偏移量;根据所述第一标签和所述第二标签设计目标损失函数,并利用预定数量的训练样本对所述倾斜文本检测模型进行训练。2.根据权利要求1所述的倾斜文本检测模型训练方法,其特征在于,所述第一标签包括水平候选框的类别标签和第一偏移量标签,所述“对各水平候选框进行第一阶段回归以获取每一水平候选框的第一标签”包括:获取所述已标注的票证图像中各文本区域的人工标注旋转矩形框并计算每一旋转矩形框对应的最小水平外接矩形框;分别计算当前的水平候选框与各最小水平外接矩形框的第一重叠系数,并根据所述第一重叠系数和第一组预设阈值的大小确定所述当前的水平候选框的类别标签,所述类别标签包括前景类和背景类;将与所述当前的水平候选框的第一重叠系数最大的最小水平外接矩形框作为第一参考候选框,并计算所述当前的水平候选框与所述第一参考候选框的第一偏移量标签。3.根据权利要求2所述的倾斜文本检测模型训练方法,其特征在于,所述第二标签包括最小水平外接建议框的类别标签、第二偏移量标签和第三偏移量标签,所述“对各最小水平外接建议框进行第二阶段回归以获取每一最小水平外接建议框的第二标签”包括:分别计算当前的最小水平外接建议框与各最小水平外接矩形框的第二重叠系数,并根据所述第二重叠系数和第二组预设阈值的大小确定所述当前的最小水平外接建议框的类别标签;将与所述当前的最小水平外接建议框的第二重叠系数最大的最小水平外接矩形框作为第二参考候选框,并计算所述当前的最小水平外接建议框与所述第二参考候选框的第二偏移量标签;计算所述当前的最小水平外接建议框和与所述第二参考候选框对应的旋转矩形框的第三偏移量标签。4.根据权利要求2所述的倾斜文本检测模型训练方法,其特征在于,所述第一网络单元包括至少一卷积层,所述至少一卷积层用于对所述已标注的票证图像进行特征提取;所述第二网络单元包括第一卷积层、第二卷积层和第三卷积层,各个所述水平...

【专利技术属性】
技术研发人员:田强邓冠群李树凯
申请(专利权)人:阳光保险集团股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1