预训练数据集构建方法、训练方法、设备、介质及产品技术

技术编号：43988778 阅读：16 留言：0更新日期：2025-01-10 20:10

本发明专利技术公开了预训练数据集构建方法、训练方法、设备、介质及产品，涉及计算机模型训练技术领域。所述构建方法包括获取原始中文文本数据；对所述原始中文文本数据进行清洗处理，得到中文文本语料集；利用开源大语言模型对中文文本语料集中的部分文本进行质量评分标注，得到带标签的样本；利用带标签的样本对分类器进行训练，得到高质量分类器；利用高质量分类器对所述中文文本语料集进行质量分类，得到高质量的中文文本预训练数据集。本发明专利技术大幅提高了中文数据的整体质量，进而为高性能中文大语言模型的训练提供了数据基础。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机模型训练，尤其涉及一种中文文本预训练数据集构建方法、大语言模型训练方法、设备、存储介质及产品。

技术介绍

1、大型语言模型（large language model，llm）的成功主要归功于大量高质量的预训练语料库的可用性，这些语料库为大型语言模型在各种任务（从创意写作到复杂问题解决）中的基础知识和推理能力提供了支持。其中，开源数据集（例如the pile和commoncrawl）在推动llm的发展、促进合作和建立创新基准方面发挥了重要作用。

2、现有研究者更关注扩展高质量数据。目前，预训练数据的需求已经超过了10万亿个标记，突显了英语预训练中的两个关键方向：扩展数据规模和提高数据质量。开源数据集迅速扩大，从the pile（825gb）等集合发展到更大规模的数据集，例如fineweb（15tb），后者大量借鉴了common crawl语料库。同时，重点从早期项目中基于规则的过滤方法转向了以模型驱动的方法，例如fineweb-edu数据集所展示的。

3、尽管英语开源数据集的快速进步，中文数据在全球网络中的代表性仍然严重不足。现有的开源中文数据集（例如wudao、skypile150b和wanjuanv1）由于互联网中文数据源的稀缺，在规模上受到限制。此外，针对提升中文网络数据质量分类的研究也较为有限，导致中文数据整体质量不佳。这些挑战为高性能中文大语言模型的发展带来了巨大障碍，突显出更有效的数据过滤和质量分类方法的迫切需求。

技术实现思路

>1、针对现有技术的不足，本专利技术提供一种中文文本预训练数据集构建方法、训练方法、设备、介质及产品，以解决开源中文数据集稀缺且整体质量不佳的问题。

2、第一方面，本专利技术提供了一种中文文本预训练数据集构建方法，包括：

3、获取原始中文文本数据；

4、对所述原始中文文本数据进行清洗处理，得到中文文本语料集；

5、利用开源大语言模型对所述中文文本语料集中的部分文本进行质量评分标注，得到带标签的样本；

6、利用带标签的样本对分类器进行训练，得到高质量分类器；

7、利用高质量分类器对所述中文文本语料集进行质量分类，得到高质量的中文文本预训练数据集。

8、进一步地，对所述原始中文文本数据进行清洗处理，得到中文文本语料集，包括：

9、对所述原始中文文本数据进行内容安全过滤处理，以滤除包含不安全内容的数据；

10、对内容安全过滤处理后的中文文本数据进行提取和清理处理，以删除无效字段和获取有效字段；

11、对提取和清理处理后的中文文本数据进行去重处理；

12、对去重处理后的中文文本数据进行启发式规则过滤，消除异常值和过度重复内容；

13、利用基础质量分类器对启发式规则过滤后的中文文本数据进行初步质量评估，得到中文文本语料集。

14、进一步地，利用docparser解析器对内容安全过滤处理后的中文文本数据进行提取和清理；

15、采用minhash算法对提取和清理处理后的中文文本数据进行去重处理。

16、进一步地，所述开源大语言模型选用qwen2-72b-instruct模型，且所述qwen2-72b-instruct模型根据fineweb-edu数据集中的质量评分方法对所述中文文本语料集中的部分文本进行质量评分标注。

17、进一步地，所述分类器是在bge-m3向量模型的基础上增加一个分类头来得到的。

18、进一步地，在所述分类器训练时，冻结所述bge-m3向量模型的嵌入层和编码层，仅训练新增的分类头。

19、第二方面，本专利技术还提供一种大语言模型训练方法，包括：

20、利用如上所述的中文文本预训练数据集构建方法构建高质量的中文文本预训练数据集；

21、利用所述高质量的中文文本预训练数据集对所述大语言模型进行训练和验证。

22、第三方面，本专利技术还提供一种电子设备，包括存储器、处理器以及存储在存储器上的计算机程序/指令，所述处理器执行所述计算机程序/指令以实现如前所述的中文文本预训练数据集构建方法或大语言模型训练方法中的步骤。

23、第四方面，本专利技术还提供一种计算机可读存储介质，其上存储有计算机程序/指令，该计算机程序/指令被处理器执行时实现如前所述的中文文本预训练数据集构建方法或大语言模型训练方法中的步骤。

24、第五方面，本专利技术还提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现如前所述的中文文本预训练数据集构建方法或大语言模型训练方法中的步骤。

25、本专利技术提供的一种中文文本预训练数据集构建方法包括基础处理和高质量处理两个阶段，在基础处理阶段对原始中文文本数据进行初步质量评估；在高质量处理阶段，通过先借助qwen2-72b-instruct大尺寸模型识别出高质量样本，然后利用高质量样本训练得到一个5亿参数的高质量分类器，最后使用该高质量分类器对亿规模的初步质量评估后的样本进行高效过滤，生成最终高质量的中文文本预训练数据集。本专利技术大幅提高了中文数据的整体质量，进而为高性能中文大语言模型的训练提供了数据基础。

本文档来自技高网...

【技术保护点】

1.一种中文文本预训练数据集构建方法，其特征在于，所述构建方法包括：

2.根据权利要求1所述的中文文本预训练数据集构建方法，其特征在于，对所述原始中文文本数据进行清洗处理，得到中文文本语料集，包括：

3.根据权利要求2所述的中文文本预训练数据集构建方法，其特征在于，利用DocParser解析器对内容安全过滤处理后的中文文本数据进行提取和清理；

4.根据权利要求1所述的中文文本预训练数据集构建方法，其特征在于，所述开源大语言模型选用Qwen2-72B-Instruct模型，且所述Qwen2-72B-Instruct模型根据FineWeb-edu数据集中的质量评分方法对所述中文文本语料集中的部分文本进行质量评分标注。

5.根据权利要求1至4中任一项所述的中文文本预训练数据集构建方法，其特征在于，所述分类器是在BGE-M3向量模型的基础上增加一个分类头来得到的。

6.根据权利要求5所述的中文文本预训练数据集构建方法，其特征在于，在所述分类器训练时，冻结所述BGE-M3向量模型的嵌入层和编码层，仅训练新增的分类头。

8.一种电子设备，包括存储器、处理器以及存储在存储器上的计算机程序/指令，其特征在于，所述处理器执行所述计算机程序/指令以实现如权利要求1至6中任一项所述的中文文本预训练数据集构建方法或如权利要求7所述的大语言模型训练方法中的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现如权利要求1至6中任一项所述的中文文本预训练数据集构建方法或如权利要求7所述的大语言模型训练方法中的步骤。

10.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现如权利要求1至6中任一项所述的中文文本预训练数据集构建方法或如权利要求7所述的大语言模型训练方法中的步骤。

...

【技术特征摘要】

1.一种中文文本预训练数据集构建方法，其特征在于，所述构建方法包括：

2.根据权利要求1所述的中文文本预训练数据集构建方法，其特征在于，对所述原始中文文本数据进行清洗处理，得到中文文本语料集，包括：

3.根据权利要求2所述的中文文本预训练数据集构建方法，其特征在于，利用docparser解析器对内容安全过滤处理后的中文文本数据进行提取和清理；

4.根据权利要求1所述的中文文本预训练数据集构建方法，其特征在于，所述开源大语言模型选用qwen2-72b-instruct模型，且所述qwen2-72b-instruct模型根据fineweb-edu数据集中的质量评分方法对所述中文文本语料集中的部分文本进行质量评分标注。

5.根据权利要求1至4中任一项所述的中文文本预训练数据集构建方法，其特征在于，所述分类器是在bge-m3向量模型的基础上增加一个分类头来得到的。

6.根据权利要求5所述的中文文本预训练数据...

【专利技术属性】
技术研发人员：王良栋，张博文，谷舒豪，李季杰，刘广，
申请(专利权)人：北京智源人工智能研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人