算力调度方法、装置、电子设备及存储介质制造方法及图纸

技术编号：43378298 阅读：15 留言：0更新日期：2024-11-19 17:56

本申请公开了一种算力调度方法、装置、电子设备及存储介质，构建算网链调度模型，将算网链调度模型转换为马尔可夫决策模型，基于总加权端到端时延构建目标状态奖励函数，然后利用训练样本业务，对马尔可夫决策模型的智能体进行训练更新，得到训练好的智能体；将当前业务输入至训练好的智能体，得到针对当前业务的算力调度决策。本申请将调度问题表述为多重马尔可夫决策过程，实现根据业务自动调度算力，自动将业务分配到数据中心以及服务器，并将算网链函数包部署到服务器中，以使服务器能够执行业务。并且，由于算网链调度模型的目标为最小化总加权端到端时延，能够降低在处理业务时的端到端时延。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及算力调度，特别涉及一种算力调度方法、装置、电子设备及存储介质。

技术介绍

1、随着信息网络的发展，视频、监控、控制等远程通信技术得到了学术界和产业界的广泛关注，使得远程手术成为现实。远程手术能够突破空间限制，借助信息技术手段，使经济欠发达地区患者可以就近获取经济发达地区专业医生的手术治疗，从而避免患者因交通运输错过最佳治疗时间，以较低的成本将高质量的医疗资源从发达地区扩展到偏远地区。然而，跨域传输和处理各种类型的流量在满足严格的端到端延迟要求方面存在挑战，这可能导致手术延迟，严重影响手术的有效性和成功率。为降低远程手术过程中的信息时延，需要利用医疗信息网络，建立由不同区域的多个数据中心服务的协同服务模式，促进跨区域信息的传递和处理，为手术操作提供协同和支持。

2、但是，现有医疗信息网络仅能保障单个区域内的远程医疗业务的通信和计算时延，无法保证跨域协作医疗业务的时延，特别地，跨域远程手术的时延要求比其他更加严格，必须引入网络技术手段降低跨域端到端时延。

技术实现思路

1、本申请旨在至少解决现有技术中存在的技术问题之一。为此，本申请提出一种算力调度方法、装置、电子设备及存储介质，能够实现算力自动调度，并且降低端到端时延。

2、为实现上述目的，本申请的第一方面实施例提供了一种算力调度方法，应用于多区域业务处理系统的算网链处理模块，所述算网链模块设有多个算网链函数包，所述算网链函数包设有多个用于执行业务的函数；所述多区域业务处理系统还包括多个区域，每个所述

3、所述方法包括：

4、构建以最小化总加权端到端时延为目标的算网链调度模型，所述总加权端到端时延表示为：

5、

6、其中，tp表示所述总加权端到端时延；ωp表示第p个业务的优先级；dp表示第p个业务的端到端时延；

7、将所述算网链调度模型转换为马尔可夫决策模型，基于所述总加权端到端时延构建目标状态奖励函数；所述马尔可夫决策模型的动作包括算网链函数包动作、数据中心动作和服务器动作；

8、获取训练样本业务，基于所述训练样本业务确定所述数据中心动作的数据中心动作空间、所述服务器动作的服务器动作空间和所述算网链函数包动作的算网链函数包动作空间；

9、所述马尔可夫决策模型的智能体从所述数据中心动作空间中选取并执行目标数据中心动作，从所述服务器动作空间中选取并执行目标服务器动作，从所述算网链函数包动作空间中选取并执行目标算网链函数包动作，以完成所述训练样本业务，从而改变所述马尔可夫决策模型的全局状态；

10、通过所述目标状态奖励函数计算改变所述全局状态时的状态奖励，基于所述状态奖励对所述智能体进行训练更新，得到训练好的智能体；

11、将当前业务输入至训练好的所述智能体，得到针对所述当前业务的算力调度决策。

12、根据本申请的一些实施例，所述智能体包括算网链函数包演员网络、数据中心演员网络和服务器演员网络；

13、所述马尔可夫决策模型的智能体从所述数据中心动作空间中选取并执行目标数据中心动作，从所述服务器动作空间中选取并执行目标服务器动作，从所述算网链函数包动作空间中选取并执行目标算网链函数包动作，包括：

14、计算所述数据中心在所述数据中心动作空间的第一概率分布，计算所述服务器动作在所述服务器动作空间的第二概率分布，计算所述算网链函数包动作在所述算网链包动作空间的第三概率分布；

15、通过所述数据中心演员网络基于所述第一概率分布从所述数据中心动作空间中选取并执行所述目标数据中心动作；通过所述服务器演员网络基于所述第二概率分布从所述服务器动作空间中选取并执行所述目标服务器动作；通过所述算网链函数包演员网络基于所述第三概率从所述算网链函数包动作空间中选取并执行所述目标算网链函数包动作。

16、根据本申请的一些实施例，所述全局状态包括服务器状态和算网链函数包状态；

17、计算所述数据中心在所述数据中心动作空间的第一概率分布，计算所述服务器动作在所述服务器动作空间的第二概率分布，计算所述算网链函数包动作在所述算网链包动作空间的第三概率分布，包括：

18、采用图同构网络对所述算网链函数包状态进行编码，得到第一编码向量；

19、采用全连接层对所述服务器状态进行编码，得到第二编码向量；

20、基于所述第一编码向量、第二编码向量和价值函数，计算每个所述数据中心动作的第一动作状态奖励，计算每个所述服务器动作的第二动作奖励，计算每个所述算网链函数包动作的第三动作奖励；

21、基于所述第一动作奖励计算所述第一概率分布；基于所述第二动作奖励计算所述第二概率分布；基于所述第三动作奖励计算所述第三概率分布。

22、根据本申请的一些实施例，所述第一概率分布的计算公式为：

23、

24、其中，表征第y个所述数据中心动作的概率，表征第y个所述数据中心动作的所述第一动作奖励；表征第f个所述数据中心动作的所述第一动作奖励；

25、所述第二概率分布的计算公式表示为：

26、

27、其中，表征第j个所述服务器动作的概率，表征第j个所述服务器动作的所述第二动作奖励；表征第m个所述服务器动作的所述第二动作奖励；

28、所述第三概率分布的计算公式为：

29、

30、其中，表征第i个所述算网链函数包动作的概率，表征第v个所述算网链函数包动作的所述第三动作奖励；表征第i个所述算网链函数包动作的所述第三动作奖励。

31、根据本申请的一些实施例，所述智能体还包括评论家网络；

32、所述通过所述目标状态奖励函数计算改变所述全局状态时的状态奖励，基于所述状态奖励对所述智能体进行训练更新，得到训练好的智能体，包括：

33、基于所述状态奖励与所述评论家网络的状态值函数构建估计器；

34、基于所述估计器构建优势函数，所述优势函数为：

35、

36、

37、

38、其中，为裁剪目标函数，为熵目标函数，为所述估计器；为参数概率比；η为裁剪参数；为期望；clip为裁剪函数；entropy为熵函数；ρc为裁剪目标函数的超参数，ρe是为熵目标函数的超参数，为智能体的策略，o表征所述算网链函数演员网络，f表征所述数据中心演员网络，m表征所述服务器演员网络；

39、基于所述优势函数对所述评论家网络进行更新，计算更新后的所述评论家网络的最小化均方误差目标，基于所述最小化均方误差目标对所述智能体的策略进行更新，得到训练好的所述智能体。

40、根据本申请的一些实施例，所述最小化均方误差目标的计算公式为：

41、

42、其中，ξmse(φ)表征最小化均方误差；为期望，φ表征的所述评论家网络的参数，rt为状本文档来自技高网...

【技术保护点】

1.一种算力调度方法，其特征在于，应用于多区域业务处理系统的算网链处理模块，所述算网链模块设有多个算网链函数包，所述算网链函数包设有多个用于执行业务的函数；所述多区域业务处理系统还包括多个区域，每个所述区域包括多个数据中心，每个所述数据中心包括多个服务器；

2.根据权利要求1所述的算力调度方法，其特征在于，所述智能体包括算网链函数包演员网络、数据中心演员网络和服务器演员网络；

3.根据权利要求2所述的算力调度方法，其特征在于，所述全局状态包括服务器状态和算网链函数包状态；

4.根据权利要求3所述的算力调度方法，其特征在于，

5.根据权利要求2所述的算力调度方法，其特征在于，所述智能体还包括评论家网络；

6.根据权利要求5所述的算力调度方法，其特征在于，所述最小化均方误差目标的计算公式为：

7.根据权利要求6所述的算力调度方法，其特征在于，所述估计器表示为：

8.一种算力调度装置，其特征在于，应用于多区域业务处理系统的算网链处理模块，所述算网链模块设有多个算网链函数包，所述算网链函数包设有多个用于执

9.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的算力调度方法。

10.一种计算机可读存储介质，所述存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述的算力调度方法。

...

【技术特征摘要】

2.根据权利要求1所述的算力调度方法，其特征在于，所述智能体包括算网链函数包演员网络、数据中心演员网络和服务器演员网络；

3.根据权利要求2所述的算力调度方法，其特征在于，所述全局状态包括服务器状态和算网链函数包状态；

4.根据权利要求3所述的算力调度方法，其特征在于，

5.根据权利要求2所述的算力调度方法，其特征在于，所述智能体还包括评论家网络；

6.根据权利要求5所述的算力调度方法，其特征在于，所...

【专利技术属性】
技术研发人员：陈佳，贲雪珂，张庆华，于成晓，廖晨茜，黄旭，刘上，刘伟桐，钱东升，
申请(专利权)人：鹏城实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人