深度学习模型训练方法、文本行检测方法、装置及设备制造方法及图纸

技术编号:39191439 阅读:12 留言:0更新日期:2023-10-27 08:38
本公开公开了一种深度学习模型训练方法、文本行检测方法、装置及设备,涉及人工智能技术领域,尤其涉及计算机视觉和深度学习技术领域,可用于光学字符识别场景。具体实现方案为:利用目标检测模型分别处理无标签样本集包括的多个第一样本图像,得到多个第一样本图像各自的伪标签,其中,目标检测模型包括利用标注样本集训练得到。利用多个第一样本图像、多个第一样本图像各自的伪标签和标注样本集训练初始模型,得到深度学习模型。得到深度学习模型。得到深度学习模型。

【技术实现步骤摘要】
深度学习模型训练方法、文本行检测方法、装置及设备


[0001]本公开涉及人工智能
,尤其涉及计算机视觉和深度学习
,可用于光学字符识别场景。更具体地,公开了一种深度学习模型训练方法、文本行检测方法、装置、电子设备以及存储介质。

技术介绍

[0002]文本行检测是计算机视觉领域的一个重要任务,它是指在图像中定位和识别文本行的过程。在许多应用场景中,如车牌识别、身份证识别、票据识别等,文本行检测技术的准确性直接影响到整个系统的性能表现。

技术实现思路

[0003]本公开提供了一种深度学习模型训练方法、文本行检测方法、装置、电子设备以及存储介质。
[0004]根据本公开的一方面,提供了一种深度学习模型训练方法,包括:利用目标检测模型分别处理无标签样本集包括的多个第一样本图像,得到上述多个第一样本图像各自的伪标签,其中,上述目标检测模型包括利用标注样本集训练得到;以及利用上述多个第一样本图像、上述多个第一样本图像各自的伪标签和上述标注样本集训练初始模型,得到深度学习模型。。
[0005]根据本公开的另一方面,提供了一种文本行检测方法,包括:利用深度学习模型处理待检测图像,得到文本行检测结果;其中,上述深度学习模型包括利用如上所述的深度学习模型训练方法训练得到。
[0006]根据本公开的另一方面,提供了一种深度学习模型训练装置,包括:第一处理模块,用于利用目标检测模型分别处理无标签样本集包括的多个第一样本图像,得到上述多个第一样本图像各自的伪标签,其中,上述目标检测模型包括利用标注样本集训练得到;以及训练模块,用于利用上述多个第一样本图像、上述多个第一样本图像各自的伪标签和上述标注样本集训练初始模型,得到深度学习模型。
[0007]根据本公开的另一方面,提供了一种文本行检测装置,包括:第二处理模块,用于利用深度学习模型处理待检测图像,得到文本行检测结果;其中,上述深度学习模型包括利用如上所述的深度学习模型训练方法训练得到。
[0008]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与上述至少一个处理器通信连接的存储器;其中,上述存储器存储有可被上述至少一个处理器执行的指令,上述指令被上述至少一个处理器执行,以使上述至少一个处理器能够执行如上所述的方法。
[0009]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,上述计算机指令用于使上述计算机执行如上所述的方法。
[0010]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,上述计算
机程序在被处理器执行时实现如上所述的方法。
[0011]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0012]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0013]图1示意性示出了根据本公开实施例的可以应用深度学习模型训练方法或文本行检测方法及装置的示例性系统架构。
[0014]图2示意性示出了根据本公开实施例的深度学习模型训练方法的流程图。
[0015]图3示意性示出了根据本公开实施例的深度学习模型训练方法的示意图。
[0016]图4示意性示出了根据本公开另一实施例的深度学习模型训练方法的示意图。
[0017]图5示意性示出了根据本公开实施例的文本行检测方法的流程图。
[0018]图6示意性示出了根据本公开实施例的深度学习模型训练装置的框图。
[0019]图7示意性示出了根据本公开实施例的文本行检测装置的框图。
[0020]图8示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。
具体实施方式
[0021]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0022]文本行检测可以用于在图像中定位和识别文本行。文本行的种类繁多,涵盖了各种大小、字体、方向、颜色、背景等因素的变化,这给文本行检测任务带来了很大的挑战。因此,为了提高文本行检测技术的准确性和鲁棒性,以及针对不同场景的泛化性,需要使用大量的数据来训练文本行检测模型。
[0023]在相关技术中,文本行检测方法通常需要大量的标注数据来训练模型,但是标注数据的获取需要耗费大量的时间和人力成本,并且标注数据的覆盖范围可能不够广泛,导致模型的泛化性能不佳。此外,小模型由于参数量的限制,往往需要在不同场景训练不同的文本行检测模型,这就会带来许多问题,比如维护多个模型需要消耗大量的时间和资源,同时也容易出现模型精度不稳定的问题。为了增强文本行检测模型在不同场景的泛化能力,需要使用大模型来提高其表征能力。然而由于大模型的参数量巨大,直接在大规模数据上进行训练会带来很高的计算成本。
[0024]有鉴于此,本公开的实施例提供了一种深度学习模型训练方法、文本行检测方法、装置、电子设备以及存储介质,可以通过半监督训练的方法,利用大量无标签数据来提高模型的泛化能力,以及文本行检测的准确性和鲁棒性,可以应用于各种文本行检测场景,如车牌识别、身份证识别、票据识别等,为实际应用场景中的文本识别任务提供更好的解决方案。
[0025]具体地,深度学习模型训练方法包括:利用目标检测模型分别处理无标签样本集包括的多个第一样本图像,得到多个第一样本图像各自的伪标签,其中,目标检测模型包括
利用标注样本集训练得到。利用多个第一样本图像、多个第一样本图像各自的伪标签和标注样本集训练初始模型,得到深度学习模型。
[0026]图1示意性示出了根据本公开实施例的可以应用深度学习模型训练方法或文本行检测方法及装置的示例性系统架构。
[0027]需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的
技术实现思路
,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如,在另一实施例中,可以应用深度学习模型训练方法或文本行检测方法及装置的示例性系统架构可以包括终端设备,但终端设备可以无需与服务器进行交互,即可实现本公开实施例提供的深度学习模型训练方法或文本行检测方法及装置。
[0028]如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。
[0029]终端设备101、102、103可以是各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。可选地,终端设备101、1 02、103可以配置有GPU,用于完成深度学习模型的训练。可选地,终端设备101、102、103可以配置有摄像设备,用于实现第一样本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种深度学习模型训练方法,包括:利用目标检测模型分别处理无标签样本集包括的多个第一样本图像,得到所述多个第一样本图像各自的伪标签,其中,所述目标检测模型包括利用标注样本集训练得到;以及利用所述多个第一样本图像、所述多个第一样本图像各自的伪标签和所述标注样本集训练初始模型,得到深度学习模型。2.根据权利要求1所述的方法,其中,所述利用目标检测模型分别处理无标签样本集包括的多个第一样本图像,得到所述多个第一样本图像各自的伪标签,包括:对于每个所述第一样本图像,对所述第一样本图像进行数据增强处理,得到多个第二样本图像;利用所述目标检测模型分别处理所述多个第二样本图像,得到多个第一标签;以及基于所述多个第一标签,确定所述第一样本图像的伪标签。3.根据权利要求2所述的方法,其中,所述基于所述多个第一标签,确定所述第一样本图像的伪标签,包括:基于所述多个第一标签各自包括的置信度数值,对所述多个第一标签进行非极大值抑制处理,得到所述第一样本图像的伪标签。4.根据权利要求2所述的方法,其中,所述对所述第一样本图像进行数据增强处理,得到多个第二样本图像,包括:对所述第一样本图像进行多次尺度变换,得到所述多个第二样本图像,其中,所述多次尺度变换各自所使用的缩放比例不同。5.根据权利要求4所述的方法,其中,所述基于所述多个第一标签,确定所述第一样本图像的伪标签,包括:对于每个所述第二样本图像,基于生成所述第二样本图像时所使用的缩放比例,对所述第一标签进行还原处理,得到第二标签;以及基于所述多个第二标签,确定所述第一样本图像的伪标签。6.根据权利要求1所述的方法,其中,所述利用所述多个第一样本图像、所述多个第一样本图像各自的伪标签和所述标注样本集训练初始模型,得到深度学习模型,包括:对所述多个第一样本图像和所述标注样本集进行采样处理,得到训练样本集;以及利用所述训练样本集训练所述初始模型,得到所述深度学习模型。7.根据权利要求1所述的方法,还包括:基于所述多个第一样本图像各自的伪标签包括的置信度数值,确定第一置信度阈值;以及基于所述第一置信度阈值,将所述多个第一样本图像划分为第一样本子集和第二样本子集,其中,与所述第一样本子集包括的第一样本图像相关的置信度数值大于或等于所述第一置信度阈值,与所述第二样本子集包括的第一样本图像相关的置信度数值小于所述第一置信度阈值。8.根据权利要求7所述的方法,其中,所述初始模型包括回归分支网络和分类分支网络;其中,所述利用所述多个第一样本图像、所述多个第一样本图像各自的伪标签和所述标注样本集训练初始模型,得到深度学习模型,包括:
利用所述第一样本子集和所述标注样本集训练所述回归分支网络;以及利用所述第一样本子集、所述第二样本子集和所述标注样本集训练所述分类分支网络。9.根据权利要求7所述的方法,其中,所述基于所述多个第一样本图像各自的伪标签包括的置信度数值,确定第一置信度阈值,包括:基于所述多个第一样本图像各自的伪标签包括的置信度数值,确定与多个预设置信区间各自相关的比例数据;以及基于与多个预设置信区间各自相关的比例数据和所述多个预设置信区间各自的区间端点值,确定所述第一置信度阈值。10.根据权利要求1所述的方法,其中,所述标注样本集包括多个标注样本图像和所述多个标注样本图像各自的标签;其中,所述利用所述多个第一样本图像、所述多个第一样本图像各自的伪标签和所述标注样本集训练初始模型,得到深度学习模型,包括:基于所述多个第一样本图像、所述多个第一样本图像各自的伪标签和所述多个第一样本图像各自的掩膜值,得到第一损失;基于损失多个标注样本图像和所述多个标注样本图像各自的标签,得到第二损失;以及利用所述第一损失和损失第二损失,调整所述初始模型的模型参数,以最终训练得到所述深度学习模型。11.根据权利要求10所述的方法,还包括:基于所述多个第一样本图像各自的伪标签包括的置信度数值,确定第二置信度阈值;以及基于所述多个第一样本图像各自的伪标签和所述第二置信度阈值,确定所述多个第一样本图像各自的掩膜值。12.根据权利要求1~11所述的方法,还包括:基于预设评价参数,从所述标注样本集中筛选得到所述第一样本图像。13.根据权利要求1~11所述的方法,还包括:从前端图像识别服务的回流数据中筛选得到所述第一样本图像。14.根据权利要求1~11所述的方法,还包括:基于预设场景特征,从共享资源中筛选得到所述第一样本图像。15.一种文本行检测方法,包括:利用深度学习模型处理待检测图像,得到文本行检测结果;其中,所述深度学习模型包括利用根据权利要求1~14中任一项所述的深度学习模型训练方法训练得到。16.一种深度学习模型训练装置,包括:第一处理模块,用于利用目标检测模型分别处理无标签样本集包括的多个第一样本图像,得到所述多个第一样本图像各自的伪标签,其中,所述目标检测模型包括利用标注样本集训练得到;以及训练模块,用于利用所述多个第一样本图像、所述多个第一样本图像各自的伪标签和
所述标注样本集训练初始模型,得到深度学习模型。17.根据权利要求16所述的装置,其中,所述第一处理模块包括第一处理单元、第二处...

【专利技术属性】
技术研发人员:万星宇吕鹏原范森章成全姚锟
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1