文本检测方法、装置、设备及存储介质制造方法及图纸

技术编号:35752910 阅读:19 留言:0更新日期:2022-11-26 18:59
本申请提供一种文本检测方法、装置、设备及存储介质,涉及图像处理领域。该处理方法包括:获取待检测图像,待检测图像中包括结构化文本,待检测图像的结构化文本包括多个字段;基于待检测图像和文本检测模型,检测待检测图像中的每个字段的位置;其中,文本检测模型是基于N个类别的样本图像训练得到,N个类别样本图像是对M个样本图像聚类后得到,样本图像中包括结构化文本,样本图像中的结构化文本包括多个字段,N个类别的样本图像中不同类别的样本图像里的字段的位置分布不同,N个类别中每个类别的样本图像的数量均大于第一阈值,N和M均为为大于或等于2的整数。该方法适用于结构化文本检测过程中,用于提高对结构化文本检测的准确性。的准确性。的准确性。

【技术实现步骤摘要】
文本检测方法、装置、设备及存储介质


[0001]本申请涉及图像处理领域,尤其涉及一种文本检测方法、装置、设备及存储介质。

技术介绍

[0002]结构化文本是指具有一定布局结构的文本。例如,身份证、护照、票据、以及驾驶证等。当前在日常生活中或办公领域都存在着从包括结构化文本的图像中提取字符信息的需求。例如,从发票图像中提取发票的金额、日期;从身份证图像中提取身份证的姓名、身份证号等。
[0003]目前的从包括结构化文本的图像中提取字符信息的方案一般为包括两大部分:结构化文本检测、以及字符内容识别。其中,结构化文本检测可以通过基于深度学习的检测模型来实现。
[0004]但是,利用深度学习模型进行结构化文本检测在存在多种布局结构下可能检测不准确。

技术实现思路

[0005]基于上述技术问题,本申请提供一种文本检测方法、装置、设备及存储介质,可以将带有字段位置标注的样本图像划分为不同的种类,并对不同种类的带有字段位置标注的样本图像进行均衡处理,可以得到比例均衡的不同类别的训练样本,提高深度学习模型在多种布局结构下对结构化文本的检测准确率。
[0006]第一方面,本申请提供一种文本检测方法,该方法包括:获取待检测图像,待检测图像中包括结构化文本,待检测图像的结构化文本包括多个字段;基于待检测图像和文本检测模型,检测待检测图像中的每个字段的位置;其中,文本检测模型是基于N个类别的样本图像训练得到,N个类别样本图像是对M个样本图像聚类后得到,样本图像中包括结构化文本,样本图像中的结构化文本包括多个字段,N个类别的样本图像中不同类别的样本图像里的字段的位置分布不同,N个类别中每个类别的样本图像的数量均大于第一阈值,N和M均为为大于或等于2的整数。
[0007]本申请提供的文本检测方法,可以将获取到的M个结构化文本图像按照字段的位置分布,划分为N个不同的类别,能够有效地将具有相同或相似的布局结构的样本图像进行分类,且不同类别的样本图像的图像数量较为均衡,均大于第一阈值。利用比例均衡的训练图像,可以使得深度学习模型充分学习到不同类别的训练图像的特征,从而提高深度学习模型在多种不同布局结构下对结构化文本中的字段的位置的识别准确率,从而提高结构化文本检测的准确率。可选地,在获取待检测图像之前,该方法还包括:获取M个样本图像,M个样本图像中的每个样本图像中标记有至少两个字段的位置;根据每个样本图像中标记的至少两个字段的位置关系,将M个样本图像分为N个类别;对目标类别的样本图像进行过采样,以增加目标类别的样本图像的数量,目标类别的样本图像是N个类别的样本图像中样本图像数量小于第一阈值的一个类别的样本图像;基于过采样后的N个类别的样本图像,训练得
到文本检测模型。
[0008]一种可能的实现方式中,根据每个样本图像中标记的至少两个字段的位置关系,将M个样本图像分为N个类别,包括:对每个样本图像中标记的至少两个字段之间的位置关系进行编码,得到与每个样本图像对应的特征向量;对与M个样本图像对应的M个特征向量进行多次聚类处理,以将M个特征向量分为N个类别;基于N个类别的特征向量确定N个类别的样本图像。
[0009]可选地,针对多次聚类中的第一次聚类,对与M个样本图像对应的M个特征向量进行多次聚类处理,包括:对M个特征向量进行聚类处理,将M个特征向量分为C个类别;计算C个类别的特征向量的类间特征向量距离、以及C个类别中每个类别的特征向量的类内特征向量距离;根据类间特征向量距离和类内特征向量距离,确定第一次聚类的聚类评分。
[0010]可选地,针对多次聚类,对与M个样本图像对应的M个特征向量进行多次聚类处理,以将M个特征向量分为N个类别,包括:若多次聚类对应的多个聚类评分连续下降的次数达到第二阈值,则将聚类评分下降之前出现聚类评分拐点的聚类结果确定为目标聚类结果;目标聚类结果对应的类别数量为N。
[0011]可选地,针对多次聚类,对与M个样本图像对应的M个特征向量进行多次聚类处理,以将M个特征向量分为N个类别,包括:若多次聚类对应的多个聚类评分连续下降的次数未达到次数阈值,且当前聚类的类别数量达到第三阈值,则将聚类得到的类别数量为第三阈值的第k次聚类和得到类别数量为参考阈值的第j次聚类之间的多次聚类中,聚类评分最高的一次聚类结果确定为目标聚类结果;其中,k和j的差值为第三阈值,k和j取正整数,目标聚类结果对应的类别数量为N。
[0012]一种可能的实现方式中,若第一阈值与目标类别的样本图像的数量的差值,大于目标类别的样本图像的数量,则对目标类别的样本图像进行过采样,以增加目标类别的样本图像的数量,包括:将目标类别的样本图像中的一个或多个样本图像的副本补充进目标类别的样本图像中。
[0013]另一种可能的实现方式中,若第一阈值与目标类别的样本图像的数量的差值,小于或等于目标类别的样本图像的数量,则对目标类别的样本图像进行过采样,以增加目标类别的样本的数量,包括:在目标类别的样本图像中确定样本子集,样本子集包括目标类别的样本图像中的至少一个样本图像;计算每个剩余图像对应的特征向量与样本子集对应的特征向量之间的特征向量距离;剩余图像为目标类别的样本图像中除样本子集之外的图像;将与样本子集对应的特征向量之间的特征向量距离最大的特征向量所对应的剩余图像加入样本子集,直至样本子集内的样本图像的数量等于第一阈值与目标类别的样本图像的数量的差值;将样本子集补充至目标类别的样本图像中。
[0014]应理解,剩余图像对应的特征向量与样本子集对应的特征向量之间的特征向量距离越大,剩余图像与样本子集中的样本图像之间的差异越大,将差异较大的样本图像补充至需要补充图像数量的目标类别的样本图像中,有利于提高样本图像的多样性,利用多样性的样本图像对深度学习模型进行训练,可以进一步提高模型的性能。
[0015]可选地,剩余图像包括第一剩余图像;计算每个剩余图像对应特征向量与样本子集对应的特征向量之间的特征向量距离,包括:计算第一剩余图像对应特征向量分别与样本子集中每个样本图像对应的特征向量之间的特征向量距离,得到第一剩余图像对应的多
个特征向量距离;将多个特征向量距离中最小的一个确定为第一剩余图像对应的特征向量与样本子集对应的特征向量之间的特征向量距离。
[0016]可选地,该方法还包括:基于待检测图像中的每个字段的位置,识别每个字段的内容。
[0017]第二方面,本申请提供一种文本检测装置,该装置包括用于上述第一方面所述的方法的各个模块。
[0018]第三方面,本申请提供一种计算机程序产品,当该计算机程序产品在计算设备上运行时,使得计算设备执行上述第一方面所述相关方法的步骤,以实现上述第一方面所述的方法。
[0019]第四方面,本申请提供一种计算设备,该计算设备包括处理器和存储器;存储器存储有处理器可执行的指令;处理器被配置为执行指令时,使得计算设备实现上述第一方面所述的方法。
[0020]第五方面,本申请提供一种计算机可读存储介质,该计算机可读存储介质本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本检测方法,其特征在于,所述方法包括:获取待检测图像,所述待检测图像中包括结构化文本,所述待检测图像的结构化文本包括多个字段;基于所述待检测图像和文本检测模型,检测所述待检测图像中的每个字段的位置;其中,所述文本检测模型是基于N个类别的样本图像训练得到,所述N个类别样本图像是对M个样本图像聚类后得到,所述样本图像中包括结构化文本,所述样本图像中的结构化文本包括多个字段,所述N个类别的样本图像中不同类别的样本图像里的字段的位置分布不同,所述N个类别中每个类别的样本图像的数量均大于第一阈值,N和M均为为大于或等于2的整数。2.根据权利要求1所述的方法,其特征在于,在所述获取待检测图像之前,所述方法还包括:获取M个样本图像,所述M个样本图像中的每个样本图像中标记有至少两个字段的位置;根据所述每个样本图像中标记的至少两个字段的位置关系,将所述M个样本图像分为N个类别;对目标类别的样本图像进行过采样,以增加所述目标类别的样本图像的数量,所述目标类别的样本图像是所述N个类别的样本图像中样本图像数量小于所述第一阈值的一个类别的样本图像;基于过采样后的所述N个类别的样本图像,训练得到所述文本检测模型。3.根据权利要求2所述的方法,其特征在于,所述根据所述每个样本图像中标记的所述至少两个字段的位置关系,将所述M个样本图像分为N个类别,包括:对所述每个样本图像中标记的所述至少两个字段之间的位置关系进行编码,得到与所述每个样本图像对应的特征向量;对与所述M个样本图像对应的M个特征向量进行多次聚类处理,以将所述M个特征向量分为N个类别;基于所述N个类别的特征向量确定所述N个类别的样本图像。4.根据权利要求3所述的方法,其特征在于,针对所述多次聚类中的第一次聚类,所述对与所述M个样本图像对应的M个特征向量进行多次聚类处理,包括:对所述M个特征向量进行聚类处理,将所述M个特征向量分为C个类别;计算所述C个类别的特征向量的类间特征向量距离、以及所述C个类别中每个类别的特征向量的类内特征向量距离;根据所述类间特征向量距离和所述类内特征向量距离,确定所述第一次聚类的聚类评分。5.根据权利要求4所述的方法,其特征在于,针对多次聚类,所述对与所述M个样本图像对应的M个特征向量进行多次聚类处理,以将所述M个特征向量分为N个类别,包括:若所述多次聚类对应的多个聚类评分连续下降的次数达到第二阈值,则将聚类评分下降之前出现聚类评分拐点的聚类结果确定为目标聚类结果;所述目标聚类结果对应的类别数量为N。6.根据权利要求4所述的方法,其特征在于,针对多次聚类,所述对与所述M个样本图像
对应的M个特征向量进行多次聚类处理,以将所述M个特征向量分为N个类别,包括:若所述多次聚类对应的多个聚类评分连续下降的次数未达到第二阈值,且当前聚类的类别数量达到第三阈值,则将聚类得到的类别数量为第三阈值的第k次聚类和得到类别数量为参考阈值的第j次聚类之间的多次聚类中,聚类评分最高的一次聚类结果确定为目标聚类结果;其中,k和j的差值为所述第三阈值,k和j取正整数,所述目标聚类结果对应的类别数量为N。7.根据权利要求2

6任一项所述的方法,其特征在于,若所述第一阈值与所述目标类别的样本图像的数量的差值,大于所述目标类别的样本图像的数量,则所述对所述目标类别的样本图像进行过采样,以增加所述目标类别的样本图像的数量,包括:将所述目标类别的样本图像中的一个或多个样本图像的副本补充进所述目标类别的样本图像中。8.根据权利要求2

6任一项所述的方法,其特征在于,若所述第一阈值与所述目标类别的样本图像的数量的差值,小于或等于所述目标类别的样本图像的数量,则所述对所述目标类别的样本图像进行过采样,以增加所述目标类别的样本的数量,包括:在所述目标类别的样本图像中确定样本子集,所述样本子集包括所述目标类别的样本图像中的至少一个样本图像;计算每个剩余图像对应的特征向量与所述样本子集对应的特征向量之间的特征向量距离;所述剩余图像为所述目标类别的样本图像中除所述样本子集之外的图像;将与所述样本子集对应的特征向量之间的特征向量距离最大的特征向量所对应的剩余图像加入所述样本子集,直至所述样本子集内的样本图像的数量等于所述差值;将所述样本子集补充至所述目标类别的样本图像中。9.根据权利要求8所述的方法,其特征在于,所述剩余图像包括第一剩余图像;所述计算每个剩余图像对应特征向量与所述样本子集对应的特征向量之间的特征向量距离,包括:计算所述第一剩余图像对应特征向量分别与所述样本子集中每个样本图像对应的特征向量之间的特征向量距离,得到所述第一剩余图像对应的多个特征向量距离;将所述多个特征向量距离中最小的一个确定为所述第一剩余图像对应的特征向量与所述样本子集对应的特征向量之...

【专利技术属性】
技术研发人员:许涛
申请(专利权)人:上海高德威智能交通系统有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1