System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及文本分析,特别是涉及一种基于文本检测模型的模型训练方法、文本检测方法、终端设备以及计算机存储介质。
技术介绍
1、随着深度学习技术的发展,基于深度学习模型的文本检测已经广泛应用于工业界和学术界,如旅游即时翻译,纸质文档电子化,招牌识别,图片文字审核等。
2、基于深度学习的文本检测算法需要大量的标注数据进行训练,但是标注文本检测的数据,相比图像分类任务来说,需要更高的标注成本,会耗费大量的时间和人力。
技术实现思路
1、为解决上述技术问题,本申请提出了一种基于文本检测模型的模型训练方法、文本检测方法、终端设备以及计算机存储介质。
2、为解决上述技术问题,本申请提出了一种基于文本检测模型的模型训练方法,所述模型训练方法包括:
3、获取初始化文本检测模型,其中,所述初始化文本检测模型通过真实标注标签训练得到;
4、将训练图像输入所述初始化文本检测模型,获取所述初始化文本检测模型输出的伪标注标签;
5、利用所述伪标注标签对所述初始化文本检测模型训练,得到所述文本检测模型。
6、其中,所述获取所述初始化文本检测模型输出的伪标注标签之后,所述模型训练方法还包括:
7、对所述伪标注标签的文本图像进行文本识别,获取文本识别结果;
8、基于所述文本识别结果的文本字符个数和文本尺寸的大小关系将不符合文本过滤条件的伪标注标签删除。
9、其中,所述文本尺寸为文本行长宽比例;
1
11、基于所述文本行长宽比例设置文本过滤上限和文本过滤下限;
12、将所述文本字符个数低于所述文本过滤下限或者高于所述文本过滤上限的伪标注标签删除。
13、其中,所述获取所述初始化文本检测模型输出的伪标注标签之后,所述模型训练方法还包括:
14、获取所述伪标注标签的检测置信度;
15、将所述检测置信度低于预设阈值的伪标注标签删除。
16、其中,所述利用所述伪标注标签对所述初始化文本检测模型训练,得到所述文本检测模型,包括:
17、利用所述伪标注标签,生成中等质量训练数据;
18、基于所述中等质量训练数据对所述初始化文本检测模型训练,得到第一中间文本检测模型;
19、利用所述真实标注标签,生成高质量训练数据;
20、利用所述高质量训练数据对所述第一中间文本检测模型训练,得到所述文本检测模型。
21、其中,所述利用所述伪标注标签,生成中等质量训练数据之前,所述模型训练方法还包括:
22、利用无标注标签,生成低质量训练数据;
23、基于所述低质量训练数据对所述初始化文本检测模型训练,得到第二中间文本检测模型。
24、其中,所述获取所述初始化文本检测模型输出的伪标注标签之后,所述模型训练方法还包括:
25、将所述伪标注标签通过预先训练的图像分类模型,将所述伪标注标签划分为高质量训练数据、中等质量训练数据和/或低质量训练数据;
26、所述利用所述伪标注标签对所述初始化文本检测模型训练,得到所述文本检测模型,包括:
27、利用所述高质量训练数据、所述中等质量训练数据和/或所述低质量训练数据按照质量从低到高依次对所述初始化文本检测模型训练,得到所述文本检测模型。
28、其中,所述模型训练方法,还包括:
29、利用所述真实标注标签、伪标注标签以及无标注标签训练所述图像分类模型。
30、为解决上述技术问题,本申请还提出一种文本检测方法,所述文本检测方法包括:
31、获取待检测文本图像;
32、将所述待检测文本图像输入预先训练的文本检测模型;
33、基于所述文本检测模型的输出,获取所述待检测文本图像中的文本信息;
34、其中,所述文本检测模型通过上述的模型训练方法训练得到。
35、为解决上述技术问题,本申请还提出一种终端设备,所述终端设备包括存储器以及与所述存储器耦接的处理器;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现如上述的基于文本检测模型的模型训练方法,和/或文本检测方法。
36、为解决上述技术问题,本申请还提出一种计算机存储介质,所述计算机存储介质用于存储程序数据,所述程序数据在被计算机执行时,用以实现上述的基于文本检测模型的模型训练方法,和/或文本检测方法。
37、与现有技术相比,本申请的有益效果是:终端设备获取初始化文本检测模型,其中,所述初始化文本检测模型通过真实标注标签训练得到;将训练图像输入所述初始化文本检测模型,获取所述初始化文本检测模型输出的伪标注标签;利用所述伪标注标签对所述初始化文本检测模型训练,得到所述文本检测模型。通过上述模型训练方法,可以生成大批量的文本检测伪标签数据,用于模型的预训练迭代,可以极大提升模型的检测性能。
本文档来自技高网...【技术保护点】
1.一种基于文本检测模型的模型训练方法,其特征在于,所述模型训练方法包括:
2.根据权利要求1所述的模型训练方法,其特征在于,
3.根据权利要求2所述的模型训练方法,其特征在于,
4.根据权利要求1至3任一项所述的模型训练方法,其特征在于,
5.根据权利要求1所述的模型训练方法,其特征在于,
6.根据权利要求5所述的模型训练方法,其特征在于,
7.根据权利要求1所述的模型训练方法,其特征在于,
8.根据权利要求7所述的模型训练方法,其特征在于,
9.一种文本检测方法,其特征在于,所述文本检测方法包括:
10.一种终端设备,其特征在于,所述终端设备包括存储器以及与所述存储器耦接的处理器;
11.一种计算机存储介质,其特征在于,所述计算机存储介质用于存储程序数据,所述程序数据在被计算机执行时,用以实现如权利要求1至8任一项所述的模型训练方法,和/或权利要求9所述的文本检测方法。
【技术特征摘要】
1.一种基于文本检测模型的模型训练方法,其特征在于,所述模型训练方法包括:
2.根据权利要求1所述的模型训练方法,其特征在于,
3.根据权利要求2所述的模型训练方法,其特征在于,
4.根据权利要求1至3任一项所述的模型训练方法,其特征在于,
5.根据权利要求1所述的模型训练方法,其特征在于,
6.根据权利要求5所述的模型训练方法,其特征在于,
7.根据权利要求1所述的模型训练方...
【专利技术属性】
技术研发人员:林建民,
申请(专利权)人:广州视源电子科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。