System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本说明书涉及计算机,尤其涉及一种基于数据质量的数据存储方法、介质及设备。
技术介绍
1、目前,随着人工智能的高速发展,由此训练出的大模型在计算机视觉、自然语言处理或者推荐系统等领域都取得了巨大的成功,如自然语言处理中的语义理解和生成、计算机视觉中的图像识别和分类等。
2、然而,巨大的成功也伴随着一个问题:训练大模型需要大量的训练数据和计算资源。在获取训练数据之后,通常会将这些训练数据存储在执行模型训练任务的计算节点以及计算节点以外的存储器中,以便在模型训练过程中读取训练数据进行模型训练任务。但是,计算节点读取训练数据的效率较低,导致模型训练的效率降低。
3、为此,本说明书提供了一种基于数据质量的数据存储方法、介质及设备。
技术实现思路
1、本说明书提供一种基于数据质量的数据存储方法、介质及设备,以部分的解决现有技术存在的上述问题。
2、本说明书采用下述技术方案:
3、本说明书提供了一种基于数据质量的数据存储方法,包括:
4、获取初始数据集;
5、针对所述初始数据集中的每个数据,将该数据分别输入预设的各标注模型,得到每个标注模型针对该数据的标注结果,作为该数据对应的标注集;
6、根据所述初始数据集中每个数据对应的标注集,在所述初始数据集中进行数据筛选,以构建出目标数据集;
7、确定预设的计算节点在执行目标模型的模型训练任务时的数据访问信息,以及确定所述目标数据集中各数据对应的数据特性信息,
8、根据所述数据访问信息以及所述目标数据集中包含的各数据对应的数据特性信息,确定所述计算节点在执行所述目标模型的模型训练任务时所述目标数据集中各数据的存储位置,并按照所述存储位置,将所述目标数据集作为训练样本进行存储。
9、可选的,针对所述初始数据集中的每个数据,将该数据分别输入预设的各标注模型,具体包括:
10、确定所述初始数据集中各数据的数据特性信息;
11、根据所述数据特性信息,确定与所述初始数据集匹配的分类器,所述分类器用于对所述初始数据集中的各数据的数据质量进行区分;
12、将所述初始数据集中的每个数据分别输入所述分类器,得到所述初始数据集中每个数据对应的数据质量的分类结果;
13、根据所述分类结果,从所述初始数据集中筛选出高于预设数据质量的数据,以构建中间数据集;
14、针对所述中间数据集中的每个数据,将该数据分别输入预设的各标注模型。
15、可选的,根据所述初始数据集中每个数据对应的标注集,在所述初始数据集中进行数据筛选,以构建出目标数据集,具体包括:
16、针对所述初始数据集中每个数据,根据该数据对应的标注集,将该数据与所述标注集中每一个标注结果进行组合,得到各筛选数据;
17、将所述各筛选数据分别输入预设模型,确定所述预设模型的输出的各反馈信息;
18、根据所述各反馈信息,从所述各筛选数据中,确定反馈信息符合预设预期的筛选数据;
19、根据所述反馈信息符合预设预期的筛选数据,构建目标数据集。
20、可选的,根据所述数据访问信息以及所述目标数据集中包含的各数据对应的数据特性信息,确定所述计算节点在执行所述目标模型的模型训练任务时所述目标数据集中各数据的存储位置,并按照所述存储位置,将所述目标数据集作为训练样本进行存储,具体包括:
21、根据所述数据访问信息,确定所述计算节点在执行所述目标模型的模型训练任务时每一轮模型训练所需的训练数据的类型,以及所述训练数据的获取顺序;
22、根据每一轮训练所需的训练数据的类型以及数据特性信息,从所述目标数据集中,确定所述计算节点执行所述目标模型的模型训练任务时每一轮模型训练所需的训练样本;
23、确定所述目标数据集中除确定出的训练样本以外的数据在存储节点中的存储位置并存储,按照所述获取顺序,确定所述每一轮模型训练所需的训练样本在所述计算节点的缓存层中的存储位置并存储,其中,所述计算节点从所述缓存层获取数据的速率大于从所述存储节点获取数据的速率。
24、可选的,根据所述数据访问信息以及所述目标数据集中包含的各数据对应的数据特性信息,确定所述计算节点在执行所述目标模型的模型训练任务时所述目标数据集中各数据的存储位置,并按照所述存储位置,将所述目标数据集作为训练样本进行存储,具体包括:
25、根据所述数据访问信息,确定所述计算节点在执行所述目标模型的模型训练任务时每一轮模型训练所需的训练数据的类型,以及所述训练数据的获取顺序;
26、根据每一轮训练所需的训练数据的类型以及数据特性信息,从所述初始数据集、所述中间数据集以及所述目标数据集中,确定所述计算节点执行所述目标模型的模型训练任务时每一轮模型训练所需的训练样本;
27、按照所述获取顺序,将确定出的训练样本依次存储至所述计算节点的第一缓存层;
28、从所述初始数据集中,确定除所述确定出的训练样本以外的数据作为第一其余训练样本,从所述中间数据集中,确定除所述确定出的训练样本以外的数据作为第二其余训练样本,从所述目标数据集中,确定除所述确定出的训练样本以外的数据作为第三其余训练样本;
29、根据所述数据特性信息包含的关联关系,将所述第三其余训练样本中的数据存储至所述计算节点的第一缓存层,将所述第二其余训练样本中的数据存储至所述计算节点的第二缓存层,以及将所述第一其余训练样本中的数据存储至存储节点,其中,所述计算节点获取数据的速率由快到慢依次为从所述第一缓存层获取数据的速率、从所述第二缓存层获取数据的速率以及从所述存储节点获取数据的速率。
30、可选的,所述方法还包括:
31、获取所述计算节点执行所述目标模型的模型训练任务时每一轮模型训练所产生的中间结果;
32、针对每一轮模型训练所产生的中间结果,根据该轮模型训练的中间结果在该轮模型训练的调用规律信息,判断该轮模型训练的中间结果在预设的时间内是否被调用;
33、若是,则将该轮模型训练的中间结果存储至所述计算节点的第一缓存层,以使所述计算节点从所述第一缓存层访问该轮模型训练的中间结果;
34、若否,则将该轮模型训练的中间结果压缩并存储至所述计算节点的第二缓存层,以使所述计算节点从所述第二缓存层访问该轮模型训练的中间结果。
35、可选的,所述方法还包括:
36、当所述计算节点执行所述目标模型的模型训练任务的模型训练轮数达到预设轮数时,通过所述第一缓存层中存储的所述第三其余训练样本训练所述目标模型。
37、可选的,根据所述数据访问本文档来自技高网...
【技术保护点】
1.一种基于数据质量的数据存储方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,针对所述初始数据集中的每个数据,将该数据分别输入预设的各标注模型,具体包括:
3.如权利要求1所述的方法,其特征在于,根据所述初始数据集中每个数据对应的标注集,在所述初始数据集中进行数据筛选,以构建出目标数据集,具体包括:
4.如权利要求1所述的方法,其特征在于,根据所述数据访问信息以及所述目标数据集中包含的各数据对应的数据特性信息,确定所述计算节点在执行所述目标模型的模型训练任务时所述目标数据集中各数据的存储位置,并按照所述存储位置,将所述目标数据集作为训练样本进行存储,具体包括:
5.如权利要求2所述的方法,其特征在于,根据所述数据访问信息以及所述目标数据集中包含的各数据对应的数据特性信息,确定所述计算节点在执行所述目标模型的模型训练任务时所述目标数据集中各数据的存储位置,并按照所述存储位置,将所述目标数据集作为训练样本进行存储,具体包括:
6.如权利要求5所述的方法,其特征在于,所述方法还包括:
7.如权利要
8.如权利要求1所述的方法,其特征在于,根据所述数据访问信息以及所述目标数据集中包含的各数据对应的数据特性信息,确定所述计算节点在执行所述目标模型的模型训练任务时所述目标数据集中各数据的存储位置,具体包括:
9.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1~7任一项所述的方法。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1~7任一项所述的方法。
...【技术特征摘要】
1.一种基于数据质量的数据存储方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,针对所述初始数据集中的每个数据,将该数据分别输入预设的各标注模型,具体包括:
3.如权利要求1所述的方法,其特征在于,根据所述初始数据集中每个数据对应的标注集,在所述初始数据集中进行数据筛选,以构建出目标数据集,具体包括:
4.如权利要求1所述的方法,其特征在于,根据所述数据访问信息以及所述目标数据集中包含的各数据对应的数据特性信息,确定所述计算节点在执行所述目标模型的模型训练任务时所述目标数据集中各数据的存储位置,并按照所述存储位置,将所述目标数据集作为训练样本进行存储,具体包括:
5.如权利要求2所述的方法,其特征在于,根据所述数据访问信息以及所述目标数据集中包含的各数据对应的数据特性信息,确定所述计算节点在执行所述目标模型的模型训练任务...
【专利技术属性】
技术研发人员:程稳,杨弢,梅飞,何水兵,朱晓明,曾令仿,
申请(专利权)人:之江实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。