System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及模型训练,尤其涉及一种模型训练及使用模型标注的方法及相关装置。
技术介绍
1、常规的数据标注作业依赖大量的人工标注,人工作业成本较高。目前相关技术中,通过训练好的模型来对数据进行预标注,但是,相关技术中,用模型进行预标注的效果有限,存在较多模型预标注错误,从而需要大量的人工进行修改,不仅无法降低人工作业成本,甚至会增加人工作业成本。
技术实现思路
1、有鉴于此,本申请的目的在于提出一种模型训练及使用模型标注的方法及相关装置,用以提高模型对数据进行预标注的准确率,从而减少了人工进行修改的情况,降低人工作业成本。
2、基于上述目的,本申请提供了一种模型训练的方法,包括:
3、通过多个待标注数据对目标模型进行多次训练;
4、其中,每次训练所述目标模型的过程包括:
5、通过所述目标模型对多个所述待标注数据进行识别,得到每个所述待标注数据的置信度;基于每个所述待标注数据的置信度从所有所述待标注数据中确定目标数据;获取所述目标数据的标注结果,得到完成标注的所述目标数据;基于完成标注的所述目标数据训练所述目标模型。
6、基于同一专利技术构思,本申请示例性实施例还提供了一种使用模型标注的方法,包括:
7、采用如上所述的模型训练方法训练所述目标模型;
8、通过所述目标模型对未标注数据进行标注。
9、基于同一专利技术构思,本申请示例性实施例还提供了一种模型训练的装置,包括:
10、第一
11、其中,所述第一训练模块包括单次训练单元,所述单次训练单元用于:
12、通过所述目标模型对多个所述待标注数据进行识别,得到每个所述待标注数据的置信度;基于每个所述待标注数据的置信度从所有所述待标注数据中确定目标数据;获取所述目标数据的标注结果,得到完成标注的所述目标数据;基于完成标注的所述目标数据训练所述目标模型。
13、基于同一专利技术构思,本申请示例性实施例还提供了一种使用模型训练的装置,包括:
14、第二训练模块,采用如上所述的模型训练方法训练所述目标模型;
15、标注模块,通过所述目标模型对未标注数据进行标注。
16、基于同一专利技术构思,本申请示例性实施例还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,所述处理器执行所述程序时实现如上所述的模型训练或使用模型标注的方法。
17、基于同一专利技术构思,本申请示例性实施例还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行如上所述的模型训练或使用模型标注的方法。
18、基于同一专利技术构思,本申请示例性实施例还提供了一种计算机程序产品,包括计算机程序指令,当所述计算机程序指令在计算机上运行时,使得计算机执行如上所述的模型训练或使用模型标注的方法。
19、从上面所述可以看出,本申请提供的模型训练及使用模型标注的方法及相关装置,通过多个待标注数据对目标模型进行多次训练;其中,每次训练所述目标模型的过程包括:通过所述目标模型对多个所述待标注数据进行识别,得到每个所述待标注数据的置信度;基于每个所述待标注数据的置信度从所有所述待标注数据中确定目标数据;获取所述目标数据的标注结果,得到完成标注的所述目标数据;基于完成标注的所述目标数据训练所述目标模型,在每次模型训练中通过模型识别的置信度筛选出目标数据,并通过目标数据对模型进行训练,从而有针对性的对模型能力薄弱点进行训练,进而让模型能力在标注过程中更加适配待标注数据内容特性与标签,提高了模型识别数据的准确率。
本文档来自技高网...【技术保护点】
1.一种模型训练的方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,基于每个所述待标注数据的置信度从所有所述待标注数据中确定目标数据,具体包括:
3.根据权利要求1所述的方法,其特征在于,基于每个所述待标注数据的置信度从所有所述待标注数据中确定目标数据,具体包括:
4.根据权利要求2所述的方法,其特征在于,确定所述预设排名的步骤包括:
5.根据权利要求1所述的方法,其特征在于,在基于每个所述待标注数据的置信度从所有所述待标注数据中确定目标数据之后,每次训练所述目标模型的过程还包括:
6.根据权利要求5所述的方法,其特征在于,在基于所述目标类别获取补充数据之后,每次训练所述目标模型的过程还包括:
7.根据权利要求1所述的方法,其特征在于,在通过多个待标注数据对目标模型进行多次训练之前,所述方法还包括:
8.根据权利要求1所述的方法,其特征在于,所述预标注数据包括多个类别,且每个类别的所述预标注数据的数量相同。
9.根据权利要求1所述的方法,其特征在于,在通过多个待标注数
10.根据权利要求1所述的方法,其特征在于,在通过多个待标注数据对目标模型进行多次训练之后,所述方法还包括:
11.一种使用模型标注的方法,其特征在于,包括:
12.一种模型训练的装置,其特征在于,包括:
13.一种使用模型标注的装置,其特征在于,包括:
14.一种电子设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,所述处理器执行所述程序时实现如权利要求1至11中任意一项所述的方法。
15.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行根据权利要求1至11中任一项所述的方法。
16.一种计算机程序产品,其特征在于,包括计算机程序指令,当所述计算机程序指令在计算机上运行时,使得计算机执行如权利要求1至11任一项所述的方法。
...【技术特征摘要】
1.一种模型训练的方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,基于每个所述待标注数据的置信度从所有所述待标注数据中确定目标数据,具体包括:
3.根据权利要求1所述的方法,其特征在于,基于每个所述待标注数据的置信度从所有所述待标注数据中确定目标数据,具体包括:
4.根据权利要求2所述的方法,其特征在于,确定所述预设排名的步骤包括:
5.根据权利要求1所述的方法,其特征在于,在基于每个所述待标注数据的置信度从所有所述待标注数据中确定目标数据之后,每次训练所述目标模型的过程还包括:
6.根据权利要求5所述的方法,其特征在于,在基于所述目标类别获取补充数据之后,每次训练所述目标模型的过程还包括:
7.根据权利要求1所述的方法,其特征在于,在通过多个待标注数据对目标模型进行多次训练之前,所述方法还包括:
8.根据权利要求1所述的方法,其特征在于,所述预标注数据包括多个类别,且每个类别的所述预标注数据的数量相同。
...
【专利技术属性】
技术研发人员:刘海丰,杨楠,许瑾,毛占磊,邵燕明,李浩杰,张阳,周子鸣,杨光,徐珂珂,孙胜坤,孙文佳,
申请(专利权)人:抖音视界有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。