System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 数据处理方法、装置、设备、存储介质和程序产品制造方法及图纸_技高网

数据处理方法、装置、设备、存储介质和程序产品制造方法及图纸

技术编号:44496416 阅读:0 留言:0更新日期:2025-03-04 18:03
本申请涉及一种数据处理方法、装置、设备、存储介质和程序产品。该方法包括:根据待训练模型的多个训练数据文件,对各训练数据文件中每个训练数据生成唯一索引,得到全局索引表;对全局索引表中的索引进行随机打乱处理,得到全局随机索引表;根据全局随机索引表,确定待训练模型的各轮训练的训练数据索引集;各训练数据索引集用于对待训练模型进行模型训练;各训练数据在模型训练中均匀分布,且每个训练数据在各轮训练中被选中的概率均相同。采用本方法能够实现全局数据的均匀分布,降低训练数据在训练过程中出现数据偏差,提高模型的性能。

【技术实现步骤摘要】

本申请涉及人工智能,特别是涉及一种数据处理方法、装置、设备、存储介质和程序产品


技术介绍

1、随着人工智能技术的发展,大规模机器学习模型因其强大的语言理解能力和广泛的知识储备,在多种领域中得到了广泛引用。

2、相关技术,在大规模机器学习模型的训练过程中,例如,进行多语种数据的混合训练,通常是对多语种数据在单个节点或小范围内的数据进行打乱处理,并基于打乱后的多语种数据对进行模型训练。

3、然而,相关技术中对训练数据打乱的方式,无法实现全局数据的均匀分布,导致训练数据在训练过程中出现数据偏差,影响模型的性能。


技术实现思路

1、基于此,有必要针对上述技术问题,提供一种数据处理方法、装置、设备、存储介质和程序产品,能够实现全局数据的均匀分布,降低训练数据在训练过程中出现数据偏差,提高模型的性能。

2、第一方面,本申请实施例提供了一种数据处理方法,该方法包括:

3、根据待训练模型的多个训练数据文件,对各训练数据文件中每个训练数据生成唯一索引,得到全局索引表;

4、对全局索引表中的索引进行随机打乱处理,得到全局随机索引表;

5、根据全局随机索引表,确定待训练模型的各轮训练的训练数据索引集;各训练数据索引集用于对待训练模型进行模型训练;各训练数据在模型训练中均匀分布,且每个训练数据在各轮训练中被选中的概率均相同。

6、在其中一个实施例中,根据待训练模型的多个训练数据文件,对各训练数据文件中每个训练数据生成唯一索引,包括:

7、对各训练数据文件中的训练数据依次进行扫描,按照扫描顺序对各训练数据文件中的训练数据进行排序,得到每个训练数据的排序编号;

8、将各训练数据的排序编号作为对应训练数据的唯一索引。

9、在其中一个实施例中,根据待训练模型的多个训练数据文件,对各训练数据文件中每个训练数据生成唯一索引,包括:

10、获取各训练数据文件中每个训练数据的数据特征信息;数据特征信息为用于描述和区分不同训练数据的数据属性;

11、根据各训练数据的数据特征信息,生成每个训练数据的唯一索引。

12、在其中一个实施例中,对全局索引表中的索引进行随机打乱处理,得到全局随机索引表,包括:

13、获取全局索引表对应的随机参数;随机参数用于指定随机数生成的范围和条件;

14、根据随机参数,对全局索引表中的索引进行随机打乱处理,得到多个随机数;

15、根据多个随机数,构建全局随机索引表。

16、在其中一个实施例中,根据全局随机索引表,确定待训练模型的各轮训练的训练数据索引集,包括:

17、根据全局随机索引表,生成各轮训练的数据索引列表;

18、根据各训练数据文件,对各数据索引列表进行归并处理,得到各轮训练的训练数据索引集。

19、在其中一个实施例中,根据全局随机索引表,生成各轮训练的数据索引列表,包括:

20、获取各轮训练的所需训练数据量;

21、按照全局随机索引表中各索引的顺序,依次从全局随机索引表中提取与各所需训练数据量匹配的索引;

22、根据与各所需训练数据量匹配的索引,生成各轮训练的数据索引列表。

23、在其中一个实施例中,根据各训练数据文件,对各数据索引列表进行归并处理,得到各轮训练的训练数据索引集,包括:

24、对于任意一轮训练,获取当前训练轮次的训练数据索引集中各索引的所属训练数据文件;

25、根据各所属训练数据文件,将属于同一训练数据文件的索引归并,得到多个索引子列表;

26、根据各索引子列表,确定当前训练轮次的训练数据索引集。

27、在其中一个实施例中,全局索引表中包括各训练数据的唯一索引与各训练数据所在的训练数据文件之间的映射关系;获取当前训练轮次的训练数据索引集中各索引的所属训练数据文件,包括:

28、对于训练数据索引集中的任意一个索引,将映射关系中与索引相对应的训练数据文件,确定为索引的所属训练数据文件。

29、在其中一个实施例中,该方法还包括:

30、对于各轮训练中的当前训练轮次,将当前训练轮次的训练数据索引集分配至待训练模型对应的至少一个训练节点,指示各训练节点根据训练数据索引集从训练数据文件中读取对应的训练数据进行模型训练。

31、在其中一个实施例中,将当前训练轮次的训练数据索引集分配至待训练模型对应的至少一个训练节点,包括:

32、获取训练数据索引集中索引子列表的列表数量;

33、若各训练节点的数量与列表数量相同,则向各训练节点分别分配一个索引子列表;

34、若各训练节点的数量与列表数量不同,则根据预设的分配策略,向各训练节点分配索引子列表。

35、第二方面,本申请实施例还提供了一种数据处理装置,该装置包括:

36、索引生成模块,用于根据待训练模型的多个训练数据文件,对各训练数据文件中每个训练数据生成唯一索引,得到全局索引表;

37、索引打乱模块,用于对全局索引表中的索引进行随机打乱处理,得到全局随机索引表;

38、训练集确定模块,用于根据全局随机索引表,确定待训练模型的各轮训练的训练数据索引集;各训练数据索引集用于对待训练模型进行模型训练;各训练数据在模型训练中均匀分布,且每个训练数据在各轮训练中被选中的概率均相同。

39、第三方面,本申请实施例还提供了一种计算机设备。计算机设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述第一方面中任一实施例中的步骤。

40、第四方面,本申请实施例还提供了一种计算机可读存储介质。计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述第一方面中任一实施例中的步骤。

41、第五方面,本申请实施例还提供了一种计算机程序产品。计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述第一方面中任一实施例中的步骤。

42、本申请实施例提供的数据处理方法、装置、设备、存储介质和程序产品,根据待训练模型的多个训练数据文件,对各训练数据文件中每个训练数据生成唯一索引,得到全局索引表,然后对全局索引表中的索引进行随机打乱处理,得到全局随机索引表,之后根据全局随机索引表,确定待训练模型的各轮训练的训练数据索引集,其中,各训练数据索引集用于对待训练模型进行模型训练,各训练数据在模型训练中均匀分布,且每个训练数据在各轮训练中被选中的概率均相同。该方法中,对每个训练数据生成唯一索引,该唯一索引可以使得每个训练数据都能够被唯一标识,便于对各训练数据进行全局数据的统一管理。再根据各训练数据的唯一索引生成全局索引表,在全局索引表中对各索引进行随机打乱,由于随机打乱的对象是数据索引,所以即使全局索引表中包括了全部训练数据的索引,也使得数据体量大大减本文档来自技高网...

【技术保护点】

1.一种数据处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述根据待训练模型的多个训练数据文件,对各所述训练数据文件中每个训练数据生成唯一索引,包括:

3.根据权利要求1所述的方法,其特征在于,所述根据待训练模型的多个训练数据文件,对各所述训练数据文件中每个训练数据生成唯一索引,包括:

4.根据权利要求1-3任一项所述的方法,其特征在于,所述对所述全局索引表中的索引进行随机打乱处理,得到全局随机索引表,包括:

5.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述全局随机索引表,确定所述待训练模型的各轮训练的训练数据索引集,包括:

6.根据权利要求5所述的方法,其特征在于,所述根据所述全局随机索引表,生成所述各轮训练的数据索引列表,包括:

7.根据权利要求5所述的方法,其特征在于,所述根据各所述训练数据文件,对各所述数据索引列表进行归并处理,得到所述各轮训练的训练数据索引集,包括:

8.根据权利要求7所述的方法,其特征在于,所述全局索引表中包括各所述训练数据的唯一索引与各所述训练数据所在的训练数据文件之间的映射关系;所述获取当前训练轮次的训练数据索引集中各索引的所属训练数据文件,包括:

9.根据权利要求1-3任一项所述的方法,其特征在于,所述方法还包括:

10.根据权利要求9所述的方法,其特征在于,所述将当前训练轮次的训练数据索引集分配至所述待训练模型对应的至少一个训练节点,包括:

11.一种数据处理装置,其特征在于,所述装置包括:

12.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的方法的步骤。

13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。

14.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种数据处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述根据待训练模型的多个训练数据文件,对各所述训练数据文件中每个训练数据生成唯一索引,包括:

3.根据权利要求1所述的方法,其特征在于,所述根据待训练模型的多个训练数据文件,对各所述训练数据文件中每个训练数据生成唯一索引,包括:

4.根据权利要求1-3任一项所述的方法,其特征在于,所述对所述全局索引表中的索引进行随机打乱处理,得到全局随机索引表,包括:

5.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述全局随机索引表,确定所述待训练模型的各轮训练的训练数据索引集,包括:

6.根据权利要求5所述的方法,其特征在于,所述根据所述全局随机索引表,生成所述各轮训练的数据索引列表,包括:

7.根据权利要求5所述的方法,其特征在于,所述根据各所述训练数据文件,对各所述数据索引列表进行归并处理,得到所述各轮训练的训练数据索引集,包括:

8.根据权利要求7...

【专利技术属性】
技术研发人员:请求不公布姓名
申请(专利权)人:摩尔线程智能科技成都有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1