System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于多智能体强化学习的CPU动态调频方法与系统技术方案_技高网

基于多智能体强化学习的CPU动态调频方法与系统技术方案

技术编号:40632422 阅读:10 留言:0更新日期:2024-03-13 21:17
本发明专利技术公开了一种基于多智能体强化学习的CPU动态调频方法与系统,在基于数据中心拥有大量存储、安全服务器的情况下,解决服务器CPU能源消耗过大的问题,具体的,通过使用多智能体强化学习动态调频的方法,给服务器CPU中的每个核心设置对应智能体,使得CPU局部的核心不仅拥有了全局感知系统负载的能力,而且能够主动的根据负载情况调节频率,相比于传统的节能方法,更加精确地频率设置既能满足性能的需求又避免性能过剩使得功耗浪费,从而达到服务器节能的效果。

【技术实现步骤摘要】

本专利技术涉及计算机技术、数据中心服务器节能,尤其涉及一种基于多智能体强化学习的cpu动态调频方法与系统。


技术介绍

1、数据中心是大型企业信息化建设的重要基础设施,随着我国工业化和信息化的发展,带来的国内企业信息化建设投入也不断增长,同时互联网新服务需求不断涌现,加上云计算发展等带来的基础设施建设的大规模投入等因素的推动,作为信息通信技术的重要基础设施之一的数据中心规模将随之快速增长,能耗问题已成为信息通信技术发展必须重视的问题之一。其中服务器能耗在数据中心能耗中所占比例较大,并且在服务器中cpu可以算是功率最大的部件,特殊情况下cpu的峰值功率占比大约为服务器功率的60%左右。为了实现绿色计算,数据中心的服务器节能就成为急需研究的重点问题之一。

2、目前数据中心服务器主要的节能手段有动态功耗管理技术(dynamic powermanagement,dpm)、动态频压调节技术(dynamic voltage and frequency scaling,dvfs)等。动态功耗管理技术(dpm)是一种广泛应用的系统级低功耗技术,其本质是在满足用户对系统性能需求的前提下,根据系统工作负载变化情况,通过动态的设置系统部件进入低功耗工作状态,以达到降低系统能耗的目的。动态频压调节技术(dvfs)技术利用了cmos芯片的特性,其芯片的能量消耗正比于电压的平方和时钟频率。dvfs技术是以延长任务执行时间为代价来达到减少系统能量消耗的目的,体现了功耗与性能之间的权衡。可以通过减少时钟频率来降低通用处理器功耗。然而,仅仅降低时钟频率并不节约能量,因为性能的降低会带来任务执行时间的增加。调节电压需要以相同的比例调节频率以满足信号传播延迟要求。无论是电压调节或是频率调节,都会造成系统性能的损失,并增加系统的响应延迟。


技术实现思路

1、本专利技术的目的是提供一种基于多智能体强化学习的cpu动态调频方法与系统,在基于数据中心拥有大量存储、安全服务器的情况下,解决服务器cpu能源消耗过大的问题,通过cpu动态调频来实现满足服务器计算性能的同时降低cpu功耗。

2、本专利技术的目的是通过以下技术方案实现的:

3、一种基于多智能体强化学习的cpu动态调频方法,包括:

4、构建多智能体强化学习框架包括:将cpu每一核心单独作为一个智能体,将cpu整体作为一个全局策略网络,每一智能体具有局部策略网络与价值网络;

5、每一时间步下,每一智能体各自获取cpu相关的状态信息,并利用自身的局部策略网络决策出相应动作,再根据执行相应动作后状态信息的变化情况计算奖励信息,自身的价值网络利用cpu相关的状态信息、动作与奖励信息计算对应的状态动作价值,并以此更新自身的局部策略网络与价值网络;每一智能体各自重复多个时间步后,综合所有智能体更新的局部策略网络更新全局策略网络,之后,每一智能体利用更新后的全局策略网络更新自身的局部策略网络;不断重复,获得最终的全局策略网络;

6、使用所述最终的全局策略网络动态调整cpu各核心的频率。

7、一种基于多智能体强化学习的cpu动态调频系统,包括:

8、学习框架构建单元,用于构建多智能体强化学习框架包括:将cpu每一核心单独作为一个智能体,将cpu整体作为一个全局策略网络,每一智能体具有局部策略网络与价值网络;

9、训练单元,用于训练获得最终的全局策略网络,训练过程如下:每一时间步下,每一智能体各自获取cpu相关的状态信息,并利用自身的局部策略网络决策出相应动作,再根据执行相应动作后状态信息的变化情况计算奖励信息,自身的价值网络利用cpu相关的状态信息、动作与奖励信息计算对应的状态动作价值,并以此更新自身的局部策略网络与价值网络;每一智能体各自重复多个时间步后,综合所有智能体更新的局部策略网络更新全局策略网络,之后,每一智能体利用更新后的全局策略网络更新自身的局部策略网络;不断重复,获得最终的全局策略网络;

10、cpu动态调频单元,用于使用所述最终的全局策略网络动态调整cpu各核心的频率。

11、一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;

12、其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。

13、一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。

14、由上述本专利技术提供的技术方案可以看出,通过使用多智能体强化学习动态调频的方法,给服务器cpu中的每个核心设置对应智能体,使得cpu局部的核心不仅拥有了全局感知系统负载的能力,而且能够主动的根据负载情况调节频率,相比于传统的节能方法,更加精确地频率设置既能满足性能的需求又避免性能过剩使得功耗浪费,从而达到服务器节能的效果。

本文档来自技高网...

【技术保护点】

1.一种基于多智能体强化学习的CPU动态调频方法,其特征在于,包括:

2.根据权利要求1所述的一种基于多智能体强化学习的CPU动态调频方法,其特征在于,每一智能体获取的CPU相关的状态信息包括:所属CPU核心的频率与利用率,以及CPU功耗、CPU温度与系统负载。

3.根据权利要求1所述的一种基于多智能体强化学习的CPU动态调频方法,其特征在于,决策出的动作为CPU核心频率,即通过执行动作调整CPU核心的频率。

4.根据权利要求1所述的一种基于多智能体强化学习的CPU动态调频方法,其特征在于,局部策略网络表示为π(si;θi),i∈(1,n),n为CPU的核心数目;θi为第i个核心的智能体中局部策略网络的参数,更新局部策略网络即为更新局部策略网络的参数;动作ai=π(si;θi),表示局部策略网络π(si;θi)基于参数θi利用CPU相关的状态信息si输出动作ai。

5.根据权利要求1所述的一种基于多智能体强化学习的CPU动态调频方法,其特征在于,所述根据执行相应动作后状态信息的变化情况计算奖励信息包括:

6.根据权利要求1所述的一种基于多智能体强化学习的CPU动态调频方法,其特征在于,价值网络为q(si,ai,ri;μi),i∈(1,n),n为CPU的核心数目,μi为第i个核心的智能体中价值网络的参数,si,ai,ri分别为第i个核心的智能体的状态信息、动作、奖励信息,输出的状态动作价值越高表示对应动作越好。

7.根据权利要求1或6所述的一种基于多智能体强化学习的CPU动态调频方法,其特征在于,更新每一智能体的局部策略网络包括:

8.一种基于多智能体强化学习的CPU动态调频系统,其特征在于,包括:

9.一种处理设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序;

10.一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法。

...

【技术特征摘要】

1.一种基于多智能体强化学习的cpu动态调频方法,其特征在于,包括:

2.根据权利要求1所述的一种基于多智能体强化学习的cpu动态调频方法,其特征在于,每一智能体获取的cpu相关的状态信息包括:所属cpu核心的频率与利用率,以及cpu功耗、cpu温度与系统负载。

3.根据权利要求1所述的一种基于多智能体强化学习的cpu动态调频方法,其特征在于,决策出的动作为cpu核心频率,即通过执行动作调整cpu核心的频率。

4.根据权利要求1所述的一种基于多智能体强化学习的cpu动态调频方法,其特征在于,局部策略网络表示为π(si;θi),i∈(1,n),n为cpu的核心数目;θi为第i个核心的智能体中局部策略网络的参数,更新局部策略网络即为更新局部策略网络的参数;动作ai=π(si;θi),表示局部策略网络π(si;θi)基于参数θi利用cpu相关的状态信息si输出动作ai。

5.根据权利要求1所述的一种基于多智能体强化...

【专利技术属性】
技术研发人员:卢汉成李超杰吴枫
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1