一种证件图像处理方法、装置、存储介质及电子设备制造方法及图纸

技术编号:37676233 阅读:9 留言:0更新日期:2023-05-26 04:41
本申请实施例公开一种证件图像处理方法、装置、存储介质及电子设备,包括:基于训练集对字符检测任务和文本行分割任务进行训练,获得初始证件图像文本行分割模型;利用该模型对证件样本图像进行处理,获得key字符的第一预测外接矩形框信息、key字符的索引、预测的key字符的置信度、value文本行区域的第二预测外接矩形框信息及value文本行预测图像;基于上述信息确定第一损失值及证件样本图像中第一区域、第二区域和第三区域,为区域分配权重;根据value文本行预测图像、value字符的真值标记、value文本行预测图像中像素点的权重及证件样本图像大小计算第二损失值;根据损失值对模型参数进行调整,继续训练模型直至满足收敛条件时获得目标证件图像文本行分割模型。时获得目标证件图像文本行分割模型。时获得目标证件图像文本行分割模型。

【技术实现步骤摘要】
一种证件图像处理方法、装置、存储介质及电子设备


[0001]本申请实施例属于图像处理
,尤其涉及一种证件图像处理方法、装置、存储介质及电子设备。

技术介绍

[0002]证件图像中文字的印刷很多分步进行的,首先印刷文档的一些key(关键字),在应用场景中再根据需要印刷value(值)信息,key往往是固定的,value是变化的。因为是分步进行的,很容易出现文本行中关键文本行印刷粘连的问题,主要是指key和value文本行印刷有重叠,导致将两个文本行定位成一个文本行。实际证件图像中这两个文本行在垂直方向有重叠粘连或者在水平方向有重叠粘连,或者二者兼而有之。如图1所示,“证件号”为key文本行,“123456”为value文本行,key和value有重叠。
[0003]但是,在证件图像中的关键文本行印刷粘连的情况下,会导致基于神经网络模型对证件图像进行文本识别的结果不准确。

技术实现思路

[0004]本申请提供了一种证件图像处理方法、装置、存储介质及电子设备,能够解决在证件图像中的关键文本行印刷粘连的情况下,会导致基于神经网络模型对证件图像进行文本识别的结果不准确的问题。
[0005]具体的技术方案如下:
[0006]第一方面,本申请实施例提供了一种证件图像处理方法,所述方法包括:
[0007]基于训练集分别对字符检测任务和文本行分割任务进行训练,获得初始证件图像文本行分割模型,所述训练集包括多张证件样本图像和所述多张证件样本图像对应的真值标注文件,所述证件样本图像中存在重叠的key文本行区域和所述key文本行区域对应的value文本行区域,且所述真值标注文件包括每张所述证件样本图像中key字符的第一外接矩形框真值标记、所述key字符的索引标记、value文本行区域的第二外接矩形框真值标记以及所述value字符的真值标记,所述key字符为所述key文本行区域中的字符,所述value字符为所述value文本行区域中的字符;
[0008]利用所述初始证件图像文本行分割模型对所述证件样本图像进行处理,获得所述key字符的第一预测外接矩形框信息、所述第一预测外接矩形框信息所对应key字符的索引、预测的所述key字符的置信度、value文本行区域的第二预测外接矩形框信息,以及从每张所述证件样本图像中分割出的value文本行预测图像,所述value文本行预测图像中包括预测的完整的value文本行,且仅包括value字符;
[0009]根据所述第一预测外接矩形框信息、所述第一外接矩形框真值标记、所述第二预测外接矩形框信息和所述第二外接矩形框真值标记,计算第一损失值;
[0010]根据所述第一预测外接矩形框信息、所述第一预测外接矩形框信息所对应key字符的索引、所述置信度、所述第二预测外接矩形框信息、第一置信度范围和第二置信度范
围,确定每张所述证件样本图像中的第一区域、第二区域和第三区域,并为所述第一区域、所述第二区域和所述第三区域分配权重,所述第一置信度范围包括所述置信度大于或者等于第一置信度阈值,所述第二置信度范围包括所述置信度小于或者等于第二置信度阈值,所述第一置信度阈值大于所述第二置信度阈值,所述第一区域仅包含所述key字符,所述第三区域包括key字符和value字符,所述第二区域仅包含所述value字符;
[0011]根据所述value文本行预测图像、所述value字符的真值标记、所述value文本行预测图像包含的每个像素点的权重以及所述证件样本图像的大小,计算第二损失值,所述像素点的权重为所述像素点所属区域的权重;
[0012]根据所述第一损失值和所述第二损失值,对初始证件图像文本行分割模型的模型参数进行调整,并继续对调整后的初始证件图像文本行分割模型中的所述字符检测任务和所述文本行分割任务进行训练,直至满足收敛条件时,获得目标证件图像文本行分割模型。
[0013]在一种实施方式中,所述根据所述第一预测外接矩形框信息、所述第一预测外接矩形框信息所对应key字符的索引、所述置信度、所述第二预测外接矩形框信息、第一置信度范围和第二置信度范围,确定每张所述证件样本图像中的第一区域、第二区域和第三区域,包括:
[0014]针对每张证件样本图像,根据所述证件样本图像的所述第一预测外接矩形框信息和所述第二预测外接矩形框信息,确定所述证件样本图像中的目标文本行区域,所述目标文本行区域包括所述key文本行区域和所述key文本行区域对应的value文本行区域的并集;
[0015]按照所述第一预测外接矩形框信息所对应key字符的索引从小到大的顺序,遍历所述第一预测外接矩形框信息对应的所述置信度是否满足所述第一置信度范围,直至首次不满足所述第一置信度范围时停止遍历,并根据第一目标信息确定所述第一区域的右边界和所述第三区域的左边界,所述第一区域的左边界为所述目标文本行区域的左边界,所述第一目标信息为遍历的最后一个满足所述第一置信度范围的所述置信度所对应的所述第一预测外接矩形框信息;
[0016]除遍历的满足所述第一置信度范围的所述置信度外,删除剩余的所述置信度中满足所述第二置信度范围的所述置信度;
[0017]根据第二目标信息确定所述第三区域的右边界和所述第二区域的左边界,所述第二区域的右边界为所述目标文本行区域的右边界,所述第二目标信息为删除操作后剩余的所述置信度所对应的最大索引的所述第一预测外接矩形框信息。
[0018]在一种实施方式中,当所述第一预测外接矩形框信息包括第一预测外接矩形框的左上角点坐标、所述第一预测外接矩形框的高度和所述第一预测外接矩形框的宽度时,所述根据第一目标信息确定所述第一区域的右边界和所述第三区域的左边界,包括:
[0019]根据所述第一目标信息中包含的所述左上角点坐标、所述第一预测外接矩形框的高度和所述第一预测外接矩形框的宽度,计算所述第一目标信息所对应第一预测外接矩形框的右边界,并将所述第一目标信息所对应第一预测外接矩形框的右边界确定为所述第一区域的右边界和所述第三区域的左边界;
[0020]和/或,所述根据第二目标信息确定所述第三区域的右边界和所述第二区域的左边界,包括:
[0021]根据所述第二目标信息中包含的所述左上角点坐标、所述第一预测外接矩形框的高度和所述第一预测外接矩形框的宽度,计算所述第二目标信息所对应第一预测外接矩形框的右边界,并将所述第二目标信息所对应第一预测外接矩形框的右边界确定为所述第三区域的右边界和所述第二区域的左边界。
[0022]在一种实施方式中,所述根据所述value文本行预测图像、所述value字符的真值标记、所述value文本行预测图像包含的每个像素点的权重以及所述证件样本图像的大小,计算第二损失值,包括:
[0023]根据第一像素集合中的像素值、第二像素集合中的像素值、对应的所述像素点的权重以及所述证件样本图像的大小,分别计算所述第一像素集合和所述第二像素集合的相似度、目标平均绝对值以及召回率,所述第一像素集合为所述value本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种证件图像处理方法,其特征在于,所述方法包括:基于训练集分别对字符检测任务和文本行分割任务进行训练,获得初始证件图像文本行分割模型,所述训练集包括多张证件样本图像和所述多张证件样本图像对应的真值标注文件,所述证件样本图像中存在重叠的key文本行区域和所述key文本行区域对应的value文本行区域,且所述真值标注文件包括每张所述证件样本图像中key字符的第一外接矩形框真值标记、所述key字符的索引标记、value文本行区域的第二外接矩形框真值标记以及所述value字符的真值标记,所述key字符为所述key文本行区域中的字符,所述value字符为所述value文本行区域中的字符;利用所述初始证件图像文本行分割模型对所述证件样本图像进行处理,获得所述key字符的第一预测外接矩形框信息、所述第一预测外接矩形框信息所对应key字符的索引、预测的所述key字符的置信度、value文本行区域的第二预测外接矩形框信息,以及从每张所述证件样本图像中分割出的value文本行预测图像,所述value文本行预测图像中包括预测的完整的value文本行,且仅包括value字符;根据所述第一预测外接矩形框信息、所述第一外接矩形框真值标记、所述第二预测外接矩形框信息和所述第二外接矩形框真值标记,计算第一损失值;根据所述第一预测外接矩形框信息、所述第一预测外接矩形框信息所对应key字符的索引、所述置信度、所述第二预测外接矩形框信息、第一置信度范围和第二置信度范围,确定每张所述证件样本图像中的第一区域、第二区域和第三区域,并为所述第一区域、所述第二区域和所述第三区域分配权重,所述第一置信度范围包括所述置信度大于或者等于第一置信度阈值,所述第二置信度范围包括所述置信度小于或者等于第二置信度阈值,所述第一置信度阈值大于所述第二置信度阈值,所述第一区域仅包含所述key字符,所述第三区域包括key字符和value字符,所述第二区域仅包含所述value字符;根据所述value文本行预测图像、所述value字符的真值标记、所述value文本行预测图像包含的每个像素点的权重以及所述证件样本图像的大小,计算第二损失值,所述像素点的权重为所述像素点所属区域的权重;根据所述第一损失值和所述第二损失值,对初始证件图像文本行分割模型的模型参数进行调整,并继续对调整后的初始证件图像文本行分割模型中的所述字符检测任务和所述文本行分割任务进行训练,直至满足收敛条件时,获得目标证件图像文本行分割模型。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一预测外接矩形框信息、所述第一预测外接矩形框信息所对应key字符的索引、所述置信度、所述第二预测外接矩形框信息、第一置信度范围和第二置信度范围,确定每张所述证件样本图像中的第一区域、第二区域和第三区域,包括:针对每张证件样本图像,根据所述证件样本图像的所述第一预测外接矩形框信息和所述第二预测外接矩形框信息,确定所述证件样本图像中的目标文本行区域,所述目标文本行区域包括所述key文本行区域和所述key文本行区域对应的value文本行区域的并集;按照所述第一预测外接矩形框信息所对应key字符的索引从小到大的顺序,遍历所述第一预测外接矩形框信息对应的所述置信度是否满足所述第一置信度范围,直至首次不满足所述第一置信度范围时停止遍历,并根据第一目标信息确定所述第一区域的右边界和所述第三区域的左边界,所述第一区域的左边界为所述目标文本行区域的左边界,所述第一
目标信息为遍历的最后一个满足所述第一置信度范围的所述置信度所对应的所述第一预测外接矩形框信息;除遍历的满足所述第一置信度范围的所述置信度外,删除剩余的所述置信度中满足所述第二置信度范围的所述置信度;根据第二目标信息确定所述第三区域的右边界和所述第二区域的左边界,所述第二区域的右边界为所述目标文本行区域的右边界,所述第二目标信息为删除操作后剩余的所述置信度所对应的最大索引的所述第一预测外接矩形框信息。3.根据权利要求2所述的方法,其特征在于,当所述第一预测外接矩形框信息包括第一预测外接矩形框的左上角点坐标、所述第一预测外接矩形框的高度和所述第一预测外接矩形框的宽度时,所述根据第一目标信息确定所述第一区域的右边界和所述第三区域的左边界,包括:根据所述第一目标信息中包含的所述左上角点坐标、所述第一预测外接矩形框的高度和所述第一预测外接矩形框的宽度,计算所述第一目标信息所对应第一预测外接矩形框的右边界,并将所述第一目标信息所对应第一预测外接矩形框的右边界确定为所述第一区域的右边界和所述第三区域的左边界;和/或,所述根据第二目标信息确定所述第三区域的右边界和所述第二区域的左边界,包括:根据所述第二目标信息中包含的所述左上角点坐标、所述第一预测外接矩形框的高度和所述第一预测外接矩形框的宽度,计算所述第二目标信息所对应第一预测外接矩形框的右边界,并将所述第二目标信息所对应第一预测外接矩形框的右边界确定为所述第三区域的右边界和所述第二区域的左边界。4.根据权利要求1所述的方法,其特征在于,所述根据所述value文本行预测图像、所述value字符的真值标记、所述value文本行预测图像包含的每个像素点的权重以及所述证件样本图像的大小,计算第二损失值,包括:根据第一像素集合中的像素值、第二像素集合中的像素值、对应的所述像素点的权重以及所述证件样本图像的大小,分别计算所述第一像素集合和所述第二像素集合的相似度、目标平均绝对值以及召回率,所述第一像素集合为所述value文本行预测...

【专利技术属性】
技术研发人员:门靖洋
申请(专利权)人:北京中卡信安电子设备有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1