System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于AI大模型的算力资源调控优化方法、系统及存储介质技术方案_技高网

一种基于AI大模型的算力资源调控优化方法、系统及存储介质技术方案

技术编号:44177209 阅读:3 留言:0更新日期:2025-02-06 18:21
本发明专利技术公开了基于AI大模型的算力资源调控优化方法、系统及存储介质,涉及算力资源调控技术领域,包括如下步骤:收集算力集群各节点的历史运行数据,基于历史运行数据构建第一数据集;基于Transformer大模型进行改进,构建第一算力预测模型,并设定评价指标,对第一算力预测模型进行优化训练,得到第二算力预测模型;基于第二算力预测模型对算力资源需求进行预测,得到预测结果;基于预测结果产生调控优化指令,基于调控优化指令完成算力资源调控优化;本发明专利技术用于解决现有的算力资源调控技术无法在考虑其他维度资源的影响下,对未来算力资源数据进行预测,同时利用当前和未来算力资源状态对算力资源调控优化的问题。

【技术实现步骤摘要】

本专利技术涉及算力资源调控,具体为一种基于ai大模型的算力资源调控优化方法、系统及存储介质。


技术介绍

1、算力资源调控技术是指通过一系列方法和策略,动态地调整和优化计算资源的配置和使用,以满足实时变化的算力需求,提高资源利用率和计算性能;算力资源调控技术的核心目的是在正确的时间、正确的地点提供适当的计算资源,从而确保各种计算任务能够高效、稳定地运行;

2、现有的算力资源调控技术是在传统集群调度方法的基础上,根据通过优化算法对计算任务特性和算力资源进行实时分配优化,从而提升计算效率或算力资源利用率,优化算法只能够获取当前和历史的算力资源状态,许多算力调度策略也仅基于当前状态做出决策,然而,由于存在算法计算时延和网络传播时延等因素,算法输入的算力资源状态可能与算力节点提供服务时的实际状态存在很大差异,这就导致对算力资源调控优化效果有限,比如公开号为cn115277598a的专利申请中,公开了一种算力资源调度方法、装置及计算机可读存储介质,该方案就是通过获取计算任务的特性和自身算力资源来进行算力资源调控优化,并没有考虑计算时延、网络传播时延以及其他因素的影响,对算力资源调控优化程度有限,且不够智能,缺少鲁棒性;同时,现有算力资源调控技术都将gpu和cpu硬件资源作为影响算力资源的主要因素,忽视了内存、网络等其他维度资源的影响;无法在考虑其他维度资源的影响下,对未来算力资源数据进行预测,同时利用当前和未来算力资源状态对算力资源调控优化。


技术实现思路

1、本专利技术旨在至少在一定程度上解决现有技术中的技术问题之一,通过transformer大模型加以改进,并进行优化训练,得到第二算力预测模型,第二算力预测模型综合其他维度资源对未来算力资源进行预测,得到预测结果,综合当前和未来算力资源状态对算力资源调控优化;以解决无法在考虑其他维度资源的影响下,对未来算力资源数据进行预测,同时利用当前和未来算力资源状态对算力资源调控优化的问题。

2、为实现上述目的,第一方面,本申请提供一种基于ai大模型的算力资源调控优化方法,包括如下步骤:

3、收集算力集群各节点的历史运行数据,基于历史运行数据构建第一数据集;

4、基于transformer大模型进行改进,构建第一算力预测模型,并设定评价指标;

5、基于第一数据集和评价指标对第一算力预测模型进行优化训练,得到第二算力预测模型;

6、基于第二算力预测模型对算力资源需求进行预测,得到预测结果;

7、基于预测结果产生调控优化指令,基于调控优化指令完成算力资源调控优化。

8、进一步地,收集算力集群各节点的历史运行数据包括如下子步骤:

9、在第一时间长度内每间隔第一时间间隔获取一次算力集群各节点的历史运行数据;第一时间长度设置为t,第一时间间隔设置为a,历史运行数据包括算力集群各节点的gpu使用量、cpu使用量、内存使用量和网络带宽io占用量。

10、进一步地,基于历史运行数据构建第一数据集包括如下子步骤:

11、对历史运行数据根据不同数据类型进行归一化处理,根据每个历史运行数据获取的时刻为每个历史运行数据绑定时间标签,每个时间标签下包括对应时刻下的gpu使用量、cpu使用量、内存使用量和网络带宽io占用量,按照时间标签上的时间顺序进行储存,并标记为第一数据集。

12、进一步地,基于transformer大模型进行改进,构建第一算力预测模型包括如下子步骤:

13、基于transformer大模型,将transformer大模型与卷积神经网络结合,用卷积神经网络的卷积自注意力机制计算替换transformer大模型使用的自注意力机制计算,并在卷积自注意力机制计算中加入对数稀疏策略,将改进后的transformer大模型标记为第一算力预测模型。

14、进一步地,设定评价指标,包括如下子步骤:

15、设定平均绝对百分比误差和均方根误差作为评价指标,平均绝对百分比误差公式为:均方根误差公式为:

16、

17、其中mape代表平均绝对百分比误差;rmse代表均方根误差;yt代表当t时刻的真实使用量;代表t时刻的模型预测的使用量,使用量包括gpu使用量、cpu使用量、内存使用量和网络带宽io占用量;n代表同一类型的数据个数;

18、基于评价指标设置合格参数m和r。

19、进一步地,基于第一数据集和评价指标对第一算力预测模型进行优化训练,得到第二算力预测模型包括如下子步骤:

20、将第一数据集按照8:2的比例划分为训练集和测试集;

21、设置第一算力预测模型的训练超参数,将学习率设置为e;批处理大小设置为b;模型训练轮数设置为p轮;

22、设置均方误差mse作为损失函数,利用adam优化器作为模型训练优化器;

23、根据设置好的训练超参数利用训练集对第一算力预测模型进行训练,每完成p轮训练,基于评价指标利用测试集对第一算力预测模型进行测试,输出评价结果m和r,当m和r满足m≤m且r≤r时,保存第一算力预测模型,并标记为第二算力预测模型;若m和r不满足m≤m且r≤r,根据设置好的训练超参数利用训练集对第一算力预测模型进行再次训练,直到m和r满足m≤m且r≤r,得到第二算力预测模型。

24、进一步地,基于第二算力预测模型对算力资源需求进行预测,得到预测结果包括如下子步骤:

25、获取一段算力集群各节点的历史运行数据;包括算力集群各节点的gpu使用量、cpu使用量、内存使用量和网络带宽io占用量;

26、对历史运行数据进行归一化处理,并为每个数据绑定时间标签;

27、将完成绑定时间标签的历史运行数据输入第二算力预测模型,得到第二时间长度内算力集群各节点的运行数据,第二时间长度为t2,标记为预测运行数据,预测运行数据包括算力集群各节点的gpu预测使用量、cpu预测使用量、内存预测使用量和网络带宽io预测占用量。

28、进一步地,基于预测结果产生调控优化指令,基于调控优化指令完成算力资源调控优化包括如下子步骤:

29、获取算力集群所有算力节点的最大算力资源fmax,最大算力资源包括gpu最大使用量、cpu最大使用量、内存最大使用量和最大网络带宽io,

30、获取算力集群当前的运行数据,包括算力集群各节点的gpu使用量、cpu使用量、内存使用量和网络带宽io占用量,得到算力集群当前已使用算力资源fo;o代表当前时刻;

31、基于预测运行数据得到未来算力资源fi,i代表i时刻,fi包括i时刻算力集群各节点的gpu预测使用量、cpu预测使用量、内存预测使用量和网络带宽io预测占用量;

32、基于算力集群的最大算力资源fmax、已使用算力资源fo和未来算力资源fi产生调控优化指令:将最大算力资源与已使用算力资源做差,得到当前可用算力资源fx,当未来算力资本文档来自技高网...

【技术保护点】

1.一种基于AI大模型的算力资源调控优化方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于AI大模型的算力资源调控优化方法,其特征在于,收集算力集群各节点的历史运行数据包括如下子步骤:

3.根据权利要求2所述的一种基于AI大模型的算力资源调控优化方法,其特征在于,基于历史运行数据构建第一数据集包括如下子步骤:

4.根据权利要求3所述的一种基于AI大模型的算力资源调控优化方法,其特征在于,基于Transformer大模型进行改进,构建第一算力预测模型包括如下子步骤:

5.根据权利要求4所述的一种基于AI大模型的算力资源调控优化方法,其特征在于,设定评价指标,包括如下子步骤:

6.根据权利要求5所述的一种基于AI大模型的算力资源调控优化方法,其特征在于,基于第一数据集和评价指标对第一算力预测模型进行优化训练,得到第二算力预测模型包括如下子步骤:

7.根据权利要求6所述的一种基于AI大模型的算力资源调控优化方法,其特征在于,基于第二算力预测模型对算力资源需求进行预测,得到预测结果包括如下子步骤:p>

8.根据权利要求7所述的一种基于AI大模型的算力资源调控优化方法,其特征在于,基于预测结果产生调控优化指令,基于调控优化指令完成算力资源调控优化包括如下子步骤:

9.一种基于AI大模型的算力资源调控优化系统,用于实现权利要求1-8任意一项所述的一种基于AI大模型的算力资源调控优化方法,其特征在于,包括数据管理模块、模型构建模块、算力预测模块以及算力调控模块;

10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,运行如权利要求1-8任一项所述方法中的步骤。

...

【技术特征摘要】

1.一种基于ai大模型的算力资源调控优化方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于ai大模型的算力资源调控优化方法,其特征在于,收集算力集群各节点的历史运行数据包括如下子步骤:

3.根据权利要求2所述的一种基于ai大模型的算力资源调控优化方法,其特征在于,基于历史运行数据构建第一数据集包括如下子步骤:

4.根据权利要求3所述的一种基于ai大模型的算力资源调控优化方法,其特征在于,基于transformer大模型进行改进,构建第一算力预测模型包括如下子步骤:

5.根据权利要求4所述的一种基于ai大模型的算力资源调控优化方法,其特征在于,设定评价指标,包括如下子步骤:

6.根据权利要求5所述的一种基于ai大模型的算力资源调控优化方法,其特征在于,基于第一数据集和评价指标对...

【专利技术属性】
技术研发人员:刘广辉贾浩洋
申请(专利权)人:华源云深圳网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1