一种基于深度强化学习的多边缘节点任务调度方法技术

技术编号：41828761 阅读：5 留言：0更新日期：2024-06-27 18:14

本申请的实施例涉及任务调度技术领域，特别涉及一种基于深度强化学习的多边缘节点任务调度方法，该方法包括：通过有向无环图的表示方式对计算任务之间的逻辑关系进行形象化表示；其中，所述有向无环图中的任务节点表征所要执行的计算任务及其任务类型，所述有向无环图中的边用于表征各所述计算任务之间的执行顺序；计算各所述任务节点的优先级，并按照所述优先级对各所述任务节点进行拓扑排序，将各所述计算任务之间的执行顺序表示为一个线性序列；将所述线性序列输入至预训练的深度确定性策略梯度模型中，获取所述深度确定性策略梯度模型输出的各所述计算任务的调度策略，从而实现实时复杂的计算任务在边缘计算框架下的有效调度执行。

全部详细技术资料下载

【技术实现步骤摘要】

本申请的实施例涉及任务调度，特别涉及一种基于深度强化学习的多边缘节点任务调度方法。

技术介绍

1、边缘计算(edge computing)的提出旨在解决集中式的云计算所面临的计算延迟和资源开销问题，在需要进行高速传输和实时控制的应用场景中，传统的基于云计算的解决方案无法满足用户的实际需求。因此，考虑将计算资源的重心从云端转移至网络边缘，可以取得更快速、高效的任务执行效果。

2、计算卸载(computation offloading)是指将部分计算任务从当前处理器转移到其他设备上执行的过程，其进一步减轻了当前设备的计算和存储负担，从而提升整体系统能效。应用于边缘计算中的边缘节点由于自身计算性能有限，合理的进行计算卸载将有助于提高整个系统的执行效率。

3、深度强化学习(deep reinforcement learning，简称：drl)作为一种基于神经网络的机器学习方法，其通过模拟人类智能的行为从而使模型掌握自主学习和决策的能力，进而应用于解决各种复杂的决策问题。利用深度强化学习方法，可以模拟出云边协同计算任务分配场景中所必须的计算模型、传输模型以及时延模型来表示边缘计算环境，还可以模拟出具有存储能力和计算能力的边缘节点作为与环境交互的智能，从而实现深度强化学习中智能体与环境之间交互学习的具体过程。其中，智能体通过感知环境中的信息以及选择的执行动作来获取奖励信号，从而不断调整自己的行为策略以达到最大化奖励的目标。

4、然而，目前较成熟的多边缘节点任务调度方法，网络延迟和计算延迟仍较高，无法满足具有实时性要求的计算任务。

技术实现思路

1、本申请的实施例的主要目的在于提出一种基于深度强化学习的多边缘节点任务调度方法，可以满足具有实时性要求的计算任务，实现了实时复杂的计算任务在边缘计算框架下的有效调度执行。

2、为实现上述目的，本申请的实施例提供了一种基于深度强化学习的多边缘节点任务调度方法，包括以下步骤：通过有向无环图的表示方式对计算任务之间的逻辑关系进行形象化表示；其中，所述有向无环图中的任务节点表征所要执行的所述计算任务及其任务类型，所述有向无环图中的边用于表征各所述计算任务之间的执行顺序；计算所述任务节点的优先级，并按照所述优先级从高到低对各所述任务节点进行拓扑排序，将各所述计算任务之间的执行顺序表示为一个线性序列；将各所述计算任务按所述线性序列的顺序输入至预训练的深度确定性策略梯度模型中，获取所述深度确定性策略梯度模型输出的调度策略；其中，对于每一个所述计算任务而言，所述调度策略为进行本地执行或进行计算卸载。

3、为实现上述目的，本申请的实施例还提供了一种基于深度强化学习的多边缘节点任务调度系统，所述包括：形象化表示模块，用于通过有向无环图的表示方式对计算任务之间的逻辑关系进行形象化表示，所述有向无环图中的任务节点表征所要执行的所述计算任务及其任务类型，所述有向无环图中的边用于表征各所述计算任务之间的执行顺序；拓扑排序模块，用于计算所述任务节点的优先级，并按照所述优先级从高到低对各所述任务节点进行拓扑排序，将各所述计算任务之间的执行顺序表示为一个线性序列；执行模块，用于将各所述计算任务按所述线性序列的顺序输入至预训练的深度确定性策略梯度模型中，获取所述深度确定性策略梯度模型输出的调度策略，对于每一个所述计算任务而言，所述调度策略为进行本地执行或进行计算卸载。

4、为实现上述目的，本申请的实施例还提供了一种电子设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述所述的一种基于深度强化学习的多边缘节点任务调度方法。

5、为实现上述目的，本申请的实施例还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述所述的一种基于深度强化学习的多边缘节点任务调度方法。

6、本申请的实施例提出的一种基于深度强化学习的多边缘节点任务调度方法，根据计算任务之间的执行逻辑将计算任务用有向无环图的结构进行形象化表示，用有向无环图中的任务节点表征所要执行的计算任务及其关键信息，再计算各任务节点的优先级，保证实时性高的计算任务在调度过程中的优先执行的需求，引入基于深度强化学习获得的深度确定性策略梯度模型，不断根据边缘节点状态选择合适的调度策略，选择对计算任务进行本地执行或进行计算卸载，从而实现了实时复杂的计算任务在边缘计算框架下的有效调度执行。

7、在一些可选的实施例中，所述计算所述任务节点的优先级，通过以下公式实现：

8、tp＝α·ttype+β·tdpn+δ·tsize+k·trem-1

9、其中，ttype表示所述任务节点代表的计算任务的任务类型，所述任务类型包括高实时性任务、实时性任务、一般实时性任务和非实时性任务，所述高实时性任务的ttype值大于所述实时性任务的ttype值，所述实时性任务的ttype值大于所述一般实时性任务的ttype值，所述一般实时性任务的ttype值大于所述非实时性任务的ttype值，tdpn表示所述任务节点的后继依赖程度，tsize表示所述有向无环图中所有计算任务的总任务量，trem为任务剩余量，表示所述任务节点之后剩余的任务节点的数量，即所述任务节点之后剩余的任务节点代表的计算任务的数量，α、β、δ和k为预设的计算权重参数。这样的优先级计算方式保证了实时性需求高的计算任务得以优先执行，为剩余任务量赋予指数“-1”是为了保证当剩余的计算任务的数量越少时，当前计算任务的优先级越高，从而使得整体计算任务更早的执行完毕。

10、在一些可选的实施例中，所述将各所述计算任务按所述线性序列的顺序输入至预训练的深度确定性策略梯度模型中，包括：将各所述计算任务按所述线性序列的顺序加入到一个可变长的缓存队列之中，并将所述缓存队列输入至预训练的深度确定性策略梯度模型中；其中，所述缓存队列设置有初始容量，当所述缓存队列存满时，按照预设倍数对所述缓存队列进行扩容，当所述缓存队列中的所述计算任务的数量在所述缓存队列中的容量占比小于预设占比时，按照所述预设倍数对所述缓存队列进行缩容，所述缓存队列中存储有所述计算任务及其信息，所述信息包括所述任务类型、所述后继依赖程度、所述总任务量和所述任务剩余量。采用可变长的缓存队列存储计算任务的执行顺序，这样的数据结构进一步优化了计算任务的存储空间。

11、在一些可选的实施例中，所述深度确定性策略梯度模型通过以下步骤训练得到：构建当前actor网络、当前critic网络、目标actor网络和目标critic网络；其中，所述当前actor网络与所述目标actor网络的网络架构相同，所述当前critic网络与所述目标critic网络的网络架构相同；将输入状态输入至所述当前actor网络中，所述当前actor网络基于所述输入状态与环境进行交互，选取能获得最大奖励值的选择动作本文档来自技高网...

【技术保护点】

1.一种基于深度强化学习的多边缘节点任务调度方法，其特征在于，包括：

2.根据权利要求1所述的一种基于深度强化学习的多边缘节点任务调度方法，其特征在于，所述计算所述任务节点的优先级，通过以下公式实现：

3.根据权利要求2所述的一种基于深度强化学习的多边缘节点任务调度方法，其特征在于，所述将各所述计算任务按所述线性序列的顺序输入至预训练的深度确定性策略梯度模型中，包括：

4.根据权利要求1所述的一种基于深度强化学习的多边缘节点任务调度方法，其特征在于，所述深度确定性策略梯度模型通过以下步骤训练得到：

5.根据权利要求4所述的一种基于深度强化学习的多边缘节点任务调度方法，其特征在于，所述深度确定性策略梯度模型的每个任务执行单元即边缘节点，所述输入状态为所述边缘节点的自身状态，用于表征本地计算资源的剩余量；

6.根据权利要求4所述的一种基于深度强化学习的多边缘节点任务调度方法，其特征在于，所述将所述下一状态和所述下一选择动作输入至所述目标Critic网络中，获得所述目标Critic网络输出的目标评价值，通过以下公式实现：>

7.根据权利要求4所述的一种基于深度强化学习的多边缘节点任务调度方法，其特征在于，所述基于所述当前Actor网络的网络参数更新所述目标Actor网络的网络参数，并基于所述当前Critic网络的网络参数更新所述目标Critic网络的网络参数，通过以下公式实现：

8.一种基于深度强化学习的多边缘节点任务调度系统，其特征在于，包括：。

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1至7中任一项所述的一种基于深度强化学习的多边缘节点任务调度方法。

...

【技术特征摘要】

1.一种基于深度强化学习的多边缘节点任务调度方法，其特征在于，包括：

2.根据权利要求1所述的一种基于深度强化学习的多边缘节点任务调度方法，其特征在于，所述计算所述任务节点的优先级，通过以下公式实现：

4.根据权利要求1所述的一种基于深度强化学习的多边缘节点任务调度方法，其特征在于，所述深度确定性策略梯度模型通过以下步骤训练得到：

6.根据权利要求4...

【专利技术属性】
技术研发人员：崔禾磊，刘欢，孙迈，陈亚兴，郭斌，於志文，
申请(专利权)人：西北工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人