一种大模型预训练的存储管理方法技术

技术编号：42568888 阅读：3 留言：0更新日期：2024-08-29 00:35

一种大模型预训练的存储管理方法，所述存储管理方法包括以下步骤：录入模型目标样本，以获取海量的全域数据；将录入的模型数据进行分块存储；引入CPU‑GPU数据移动开销，以细粒度的方式布局运算符，使内存密集型运算符不在首选设备上；管理异构存储空间中的功能模块；能够使预训练的大模型从海量数据中自动发现隐藏的模式和规律，提升了学习能力和操作性能，能够支持更大的模型规模和更高的计算效率。

全部详细技术资料下载

【技术实现步骤摘要】

：本专利技术涉及一种大模型预训练的存储管理方法。

技术介绍

0、
技术介绍
：

1、预训练大模型是指在大型数据集上进行训练的深度神经网络模型，其中包含大量的参数和层级，这些模型通常使用大量的计算资源和大数据集进行训练，可以提高其性能和泛化能力。

2、大模型预训练是一种有效的机器学习技术，可以提高模型的泛化能力和自适应能力，可以应用在多个应用领域；预训练大模型通常需要在海量的数据集上进行训练，以获得更好的性能；在训练预训练大模型时，通常会使用大量的计算资源和基础设施，例如gpu集群、超级计算机和云服务。

3、而现有应用场景中，由于管理模型数据无法容纳在单个cpu的内存中，因此大多数大模型预训练框架所采用的数据并行技术不适用于管理模型数据，导致训练数据会出现紊乱，学习能力和操作性能较差；同时，cpu硬件上的限制会使cpu内存内存不足以满足其相应的模型数据要求，即使当时其他设备上仍有可用内存，系统也会出现崩溃情况，宽带利用率和计算效率较低。

技术实现思路

0、
技术实现思路
：

1、本专利技术实施例提供了一种大模型预训练的存储管理方法，方法设计合理，基于获取的海量全域数据采用自监督学习方式来提取用户和项目的多种实体表征，同时利用跨域的辅助样本对模型参数进行预训练，整合了尽可能多的数据，汇聚大量算力，集约化地训练超大模型，为新用户新场景新目标提供了丰富的原始信息和训练资料，提升稀疏情景样本量，能够使预训练的大模型从海量数据中自动发现隐藏的模式和规律，

2、本专利技术为解决上述技术问题所采用的技术方案是：

3、一种大模型预训练的存储管理方法，所述存储管理方法包括以下步骤：

4、s1，录入模型目标样本，以获取海量的全域数据；

5、s2，将录入的模型数据进行分块存储；

6、s3，引入cpu-gpu数据移动开销，以细粒度的方式布局运算符，使内存密集型运算符不在首选设备上；

7、s4，管理异构存储空间中的功能模块。

8、录入模型目标样本，以获取海量的全域数据包括以下步骤：

9、s1.1，采用自监督学习方式提取用户和项目的多种实体表征；

10、s1.2，利用跨域的辅助样本对模型参数进行预训练；

11、s1.3，模型目标样本对模型进行微调得到目标模型，从而实现提升目标的任务。

12、所述全域数据根据数据的组织形式可分为行为序列和行为网络；所述行为序列包括短期行为序列和长期行为序列，所述行为网络包括优化方法、统计方法、参数迁移和样本迁移。

13、将录入的模型数据进行分块存储包括以下步骤：

14、s2.1，将预训练模型训练产生的用户和项目的映射通过计算方式进行召回，融合域外信息激活新用户或者新场景，以为下游模型补充特征，丰富用户特征表达；

15、s2.2，在子模型结构加入下游模型，保留预训练模型的参数和对特征的抽象能力；

16、s2.3，将模型数据分块管理并存储在异构空间中。

17、所述异构存储空间采用数据管理器将模型数据的每个张量分配成多个块空间，并根据模型数据中张量的类型来生成块-张量映射模式。

18、所述数据管理器支持完整的sql标准语法，能够平滑迁移数据，提供统一的数据管理，支持关系型、搜索、文本、对象四种数据模型。

19、本专利技术采用上述结构，通过将获取的海量的全域数据用自监督学习方式提取用户和项目的多种实体表征，同时利用跨域的辅助样本对模型参数进行预训练，整合了尽可能多的数据，汇聚大量算力，集约化地训练超大模型，为新用户新场景新目标提过了丰富的原始信息和训练资料，解决了一些稀疏情景样本量较少的问题，让晕训练大模型能够自动地从海量数据中发现隐藏的模式和规律，并通过相应任务的调整，进行微调实现更好的表现；通过将全域数据基于数据的组织形式进行划分，既保留了预训练模型的参数和对特征的抽象能力，将模型数据分块管理并存储在异构空间中，提高了现有异构训练的模型规模和效率，降低了gpu内带宽需求和提高了带宽利用率，具有高效精准、实用可靠的优点。

本文档来自技高网...

【技术保护点】

1.一种大模型预训练的存储管理方法，其特征在于，所述存储管理方法包括以下步骤：

2.根据权利要求1所述的一种大模型预训练的存储管理方法，其特征在于，录入模型目标样本，以获取海量的全域数据包括以下步骤：

3.根据权利要求1所述的一种大模型预训练的存储管理方法，其特征在于：所述全域数据根据数据的组织形式可分为行为序列和行为网络；所述行为序列包括短期行为序列和长期行为序列，所述行为网络包括优化方法、统计方法、参数迁移和样本迁移。

4.根据权利要求1所述的一种大模型预训练的存储管理方法，其特征在于，将录入的模型数据进行分块存储包括以下步骤：

5.根据权利要求1所述的一种大模型预训练的存储管理方法，其特征在于：所述异构存储空间采用数据管理器将模型数据的每个张量分配成多个块空间，并根据模型数据中张量的类型来生成块-张量映射模式。

6.根据权利要求5所述的一种大模型预训练的存储管理方法，其特征在于：所述数据管理器支持完整的SQL标准语法，能够平滑迁移数据，提供统一的数据管理，支持关系型、搜索、文本、对象四种数据模型。

【技术特征摘要】

1.一种大模型预训练的存储管理方法，其特征在于，所述存储管理方法包括以下步骤：

2.根据权利要求1所述的一种大模型预训练的存储管理方法，其特征在于，录入模型目标样本，以获取海量的全域数据包括以下步骤：

4.根据权利要求1所述的...

【专利技术属性】
技术研发人员：李伟，肖耀猛，刘晓军，范作鹏，曹怀轩，戴长官，纪永虎，于永学，孟令声，杜晓斌，白玉，李树仁，刘春光，于世麟，孙延池，孙诗野，
申请(专利权)人：山东能源集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人