System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 预训练数据的去重方法、电子设备、存储介质及程序产品技术_技高网

预训练数据的去重方法、电子设备、存储介质及程序产品技术

技术编号:43959564 阅读:3 留言:0更新日期:2025-01-07 21:43
本申请提供的一种预训练数据的去重方法、电子设备、存储介质及程序产品,该方法包括:根据预训练数据集,获取多个待处理的预训练数据;根据预训练数据的总量,确定对应的并行处理进程数,并根据并行处理进程数和预训练数据的总量,将预训练数据划分为多个数据批次;根据并行处理策略,为每个处理进程分配对应的数据批次,并控制每个处理进程,对每个数据批次的预训练数据进行双重去重处理,获取处理后的目标数据;在确定每个处理进程均完成双重去重处理后,将每个数据批次内对应的目标数据进行汇总,获取去重后的目标数据集。该方法用以达到提高预训练数据去重效率的技术效果。

【技术实现步骤摘要】

本申请涉及数据处理,尤其涉及一种预训练数据的去重方法、电子设备、存储介质及程序产品


技术介绍

1、预训练数据是指在训练模型之前已经收集好的数据,这些数据可能来自于不同的数据源,可能包含了噪声、缺失值、异常值等问题。大规模的高质量语料是训练大语言模型的关键“养料”,这些语料提供了世界性的知识体系,能够提升语言模型的理解能力和生成质量,同时也能够支持多样化的应用场景,高质量的文本对于大语言模型的训练和能力表现具有非常重要的影响,为了保证模型的性能和稳定性,需要对预训练数据进行清洗,因此,预训练数据的去重方法成为一个具有应用前景的方向。

2、在现有技术中,预训练数据的去重方法主要是在单进程模式下单一使用文档间去重或文档内去重方法,去实现对预训练数据的去重。

3、由于现有技术中,通过单进程及单一去重方法处理预训练数据,在面对数据量巨大的预训练数据时,需要花费过多的时间及资源去进行去重处理,并且数据去重不彻底,无法达到准确去重,存在预训练数据去重效率低的技术问题。


技术实现思路

1、本申请实施例提供一种预训练数据的去重方法、电子设备、存储介质及程序产品,用以达到提高预训练数据去重效率的技术效果。

2、第一方面,本申请提供一种预训练数据的去重方法,包括:

3、根据预训练数据集,获取多个待处理的预训练数据;

4、根据预训练数据的总量,确定对应的并行处理进程数,并根据并行处理进程数和预训练数据的总量,将预训练数据划分为多个数据批次,其中,并行处理进程数用于指示系统可以同时并行处理的数据量,每个数据批次包含至少一个预训练数据;

5、根据并行处理策略,为每个处理进程分配对应的数据批次,并控制每个处理进程,对每个数据批次的预训练数据进行双重去重处理,获取处理后的目标数据,其中,双重去重处理包括文档间去重和文档内去重;

6、在确定每个处理进程均完成双重去重处理后,将每个数据批次内对应的目标数据进行汇总,获取去重后的目标数据集。

7、可选地,文档间去重包括全局数据哈希去重和最小哈希局部敏感哈希去重,文档内去重包括字符级文本去重和词语级文本去重,针对每个处理进程,对每个批次的预训练数据进行双重去重处理,获取处理后的目标数据,包括:

8、针对每个处理进程,获取每个预训练数据对应的哈希值,并根据哈希值,对多个预训练数据进行全局数据哈希去重,以去除重复的预训练数据,得到去重处理后的多个第一数据,其中,每个预训练数据对应一个哈希值;

9、将每个第一数据对应的文本字段分解为多个第一片段序列,并根据第一片段序列,对第一数据进行字符级文本去重,获取由字符级文本去重处理后的多个第二数据;

10、将每个第二数据进行数据分词,获取多个独立词汇,并将每个独立词汇保存至文本分词列中;

11、根据文本分词列,对多个独立词汇进行最小哈希局部敏感哈希去重,获取由最小哈希局部敏感哈希去重处理后的多个第三数据;

12、将每个第三数据对应的文本字段分解为多个第二片段序列,并根据第二片段序列,对第三数据进行词语级文本去重,获取由词语级文本去重处理后的目标数据。

13、可选地,根据哈希值,对多个预训练数据进行全局数据哈希去重,以去除重复的预训练数据,得到去重处理后的多个第一数据,包括:

14、针对每个预训练数据,获取对应的索引编号;

15、将哈希值相同的预训练数据作为重复数据,并保持重复数据中索引编号值最小的预训练数据对应的第一标记字符不变,将剩余的重复数据所对应的第一标记字符更改为第二标记字符,以去除剩余的重复数据,其中,第二标记字符用于指示去除重复数据;

16、将带有第一标记字符的预训练数据进行汇总并作为第一数据。

17、可选地,根据第一片段序列,对第一数据进行字符级文本去重,获取由字符级文本去重处理后的多个第二数据,包括:

18、针对每个第一数据,确定每个第一片段序列的出现频次;

19、将出现频次超过第一阈值的第一目标片段序列的数量进行汇总,并根据第一目标片段序列与第一片段序列的数量比值,确定每个第一数据的第一重复比率;

20、将第一重复比例与第二阈值进行对比,其中,第二阈值包括第一最大阈值和第一最小阈值;

21、若第一重复比率处于第一最大阈值和第一最小阈值之间,则确定第一目标片段序列为第一重复序列,并将第一重复序列对应的第一数据的第一标记字符更改为第二标记字符,以去除第一重复序列对应的第一数据;

22、将带有第一标记字符的第一数据进行汇总并作为第二数据。

23、可选地,根据文本分词列,对多个独立词汇进行最小哈希局部敏感哈希去重,获取由最小哈希局部敏感哈希去重处理后的多个第三数据,包括:

24、根据最小哈希局部敏感哈希算法,确认每个第二数据与剩余的每个第二数据之间文本分词列对应的文本相似度;

25、将文本相似度与第三阈值进行对比;

26、若文本相似度超过第三阈值,则确定当前第二数据与剩余第二数据为相似数据;

27、获取当前第二数据与剩余第二数据对应的索引编号,并保持相似数据中索引编号值最小的第二数据对应的第一标记字符不变,将剩余的相似数据的第一标记字符更改为第二标记字符,以去除剩余的相似数据;

28、将带有第一标记字符的第二数据进行汇总并作为第三数据。

29、可选地,根据第二片段序列,对第三数据进行词语级文本去重,获取由词语级文本去重处理后的目标数据,包括:

30、针对每个第三数据对应的文本分词列,确定每个第二片段序列的出现频次;

31、将出现频次超过第四阈值的第二目标片段序列的数量进行汇总,并根据第二目标片段序列与第二片段序列的数量比值,确定每个第三数据的第二重复比率;

32、将第二重复比例与第五阈值进行对比,其中,第五阈值包括第二最大阈值和第二最小阈值;

33、若第二重复比率处于第二最大阈值和第二最小阈值之间,则确定第二目标片段序列为第二重复序列,并将第二重复序列对应的第三数据的第一标识字符更改为第二标识字符,以去除第二重复序列对应的第三数据;

34、将带有第一标记字符的第三数据进行汇总并作为目标数据。

35、可选地,针对每个处理进程,对每个批次的预训练数据进行双重去重处理,获取处理后的目标数据之前,还包括:

36、根据每个处理进程,对每个数据批次中的预训练数据添加对应的第一标记字符,其中,第一标记字符用于指示保留预训练数据。

37、第二方面,本申请提供的一种预训练数据的去重装置,包括:

38、获取模块,用于根据预训练数据集,获取多个待处理的预训练数据;

39、第一处理模块,用于根据预训练数据的总量,确定对应的并行处理进程数,并根据并行处理进程数和预训练数据的总量,将预训练数据划分为多个数据批本文档来自技高网...

【技术保护点】

1.一种预训练数据的去重方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述文档间去重包括全局数据哈希去重和最小哈希局部敏感哈希去重,所述文档内去重包括字符级文本去重和词语级文本去重,所述针对所述每个处理进程,对每个所述批次的预训练数据进行双重去重处理,获取处理后的目标数据,包括:

3.根据权利要求2所述的方法,其特征在于,所述根据所述哈希值,对多个所述预训练数据进行所述全局数据哈希去重,以去除重复的所述预训练数据,得到去重处理后的多个第一数据,包括:

4.根据权利要求3所述的方法,其特征在于,所述根据所述第一片段序列,对所述第一数据进行所述字符级文本去重,获取由所述字符级文本去重处理后的多个第二数据,包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述文本分词列,对所述多个独立词汇进行所述最小哈希局部敏感哈希去重,获取由所述最小哈希局部敏感哈希去重处理后的多个第三数据,包括:

6.根据权利要求5所述的方法,其特征在于,所述根据所述第二片段序列,对所述第三数据进行所述词语级文本去重,获取由所述词语级文本去重处理后的目标数据,包括:

7.根据权利要求3所述的方法,其特征在于,所述针对所述每个处理进程,对每个所述批次的预训练数据进行双重去重处理,获取处理后的目标数据之前,还包括:

8.一种预训练数据的去重设备,其特征在于,包括:存储器,处理器;

9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-7任一项所述的方法。

10.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序被处理器执行时用于实现如权利要求1-7任一项所述的方法。

...

【技术特征摘要】

1.一种预训练数据的去重方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述文档间去重包括全局数据哈希去重和最小哈希局部敏感哈希去重,所述文档内去重包括字符级文本去重和词语级文本去重,所述针对所述每个处理进程,对每个所述批次的预训练数据进行双重去重处理,获取处理后的目标数据,包括:

3.根据权利要求2所述的方法,其特征在于,所述根据所述哈希值,对多个所述预训练数据进行所述全局数据哈希去重,以去除重复的所述预训练数据,得到去重处理后的多个第一数据,包括:

4.根据权利要求3所述的方法,其特征在于,所述根据所述第一片段序列,对所述第一数据进行所述字符级文本去重,获取由所述字符级文本去重处理后的多个第二数据,包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述文本分词列,对所述多个独立词汇进行所述最小哈希局部敏...

【专利技术属性】
技术研发人员:黄贝贝
申请(专利权)人:中国联合网络通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1