智能体训练方法、跨域异构环境任务调度方法及相关装置制造方法及图纸

技术编号：34193846 阅读：16 留言：0更新日期：2022-07-17 16:06

本申请提供一种智能体训练方法、跨域异构环境任务调度方法及相关装置，智能体训练方法包括：获取用于模拟真实的跨域异构环境中任务负载的预训练数据；根据预训练数据对深度强化学习智能体进行训练，以使深度强化学习智能体用于对针对跨域异构环境进行任务调度，其中，深度强化学习智能体预先基于D3QN模型和跨域异构环境的任务调度问题对应的马尔可夫决策过程构建而得。本申请能够构建一种兼顾任务调度实时性和高效性的智能体，能够有效提高应用该智能体进行跨域异构环境中任务调度的时效性，能够增加整个任务调度系统的吞吐量并最大化利用跨域环境中提供的计算资源，以保证任务调度的结果兼顾任务处理的高效性和计算节点之间的负载均衡性。之间的负载均衡性。之间的负载均衡性。

Agent training method, task scheduling method in cross domain heterogeneous environment and related devices

全部详细技术资料下载

【技术实现步骤摘要】
智能体训练方法、跨域异构环境任务调度方法及相关装置

[0001]本申请涉及异构网络环境下的任务调度
，尤其涉及智能体训练方法、跨域异构环境任务调度方法及相关装置。

技术介绍

[0002]随着国际科研合作的日益密切，在国际跨自治域的异构网络环境下的任务调度问题逐渐成为研究的热点。跨域异构环境中的任务存在非常明显的动态性，一是任务调度算法要能够同时处理低负载和高负载两种任务负载场景；二是待调度的任务类型也存在多样性，既有计算密集型的科研计算任务，也有IO密集型的数据传输任务。同时在国际跨域异构的网络环境中，存在大量的计算资源和存储资源，这些资源如果不能被充分利用，则会造成巨大的资源浪费。所以研究如何充分利用这些资源从而进行高效的任务调度是十分有必要的。
[0003]常见的任务调度算法大致分为五类：第一类是传统任务调度算法，如先来先服务算法、短作业优先算法和轮询算法等；第二类是元启发式任务调度算法，如基于蚁群的任务调度算法、基于遗传算法的任务调度算法等；第三类是基于传统机器学习的任务调度算法，如基于逻辑回归的任务调度算法；第四类是基于传统强化学习的任务调度算法，如基于Q
‑
learning的任务调度算法，第五类是基于深度强化学习的任务调度算法，如基于DQN的任务调度算法。
[0004]然而在处理跨域异构环境中的任务调度问题时，现有的任务调度算法均存在任务处理时间和等待时间长、调度系统的吞吐量低、节点间负载均衡度差或无法适应跨域异构环境中动态任务负载和异构计算资源的特性等问题。
>
技术实现思路

[0005]鉴于此，本申请实施例提供了智能体训练方法、跨域异构环境任务调度方法及相关装置，以消除或改善现有技术中存在的一个或更多个缺陷。
[0006]本申请的一个方面提供了一种智能体训练方法，包括：获取用于模拟真实的跨域异构环境中任务负载的预训练数据；根据预训练数据对预设的深度强化学习智能体进行训练，以使得该深度强化学习智能体用于对针对所述跨域异构环境进行任务调度，其中，所述深度强化学习智能体预先基于D3QN模型和所述跨域异构环境的任务调度问题对应的马尔可夫决策过程构建而得。
[0007]在本申请的一些实施例中，在所述根据预训练数据对预设的深度强化学习智能体进行训练之前，还包括：将所述跨域异构环境中的任务调度问题建模为马尔可夫决策过程，并设计对应的状态空间、动作空间及奖励函数，以形成该马尔可夫决策过程的四元组，其中，所述四元组用于记录当前状态、动作、奖励和下一个状态；其中，所述奖励函数基于在所述跨域异构环境中进行任务调度的性能评价指标构
建而得。
[0008]在本申请的一些实施例中，在所述根据预训练数据对预设的深度强化学习智能体进行训练之前，还包括：基于双Q学习算法和竞争网络结构对深度Q网络DQN进行优化，以得到D3QN模型；其中，所述D3QN模型包括四组全连接层，其中的第一组全连接层与第二组全连接层连接，并均用于处理输入的状态；所述第二组全连接层还分别连接第三组全连接层和第四组全连接层，所述第三组全连接层用于计算价值函数部分，所述第四组全连接层用于计算优势函数部分，所述第三组全连接层和所述第四组全连接层的计算结果之和产生对应的Q值。
[0009]在本申请的一些实施例中，所述深度强化学习智能体，包括：动作决策单元、分别与该动作决策单元连接的回报计算单元、参数更新单元和辅助负载均衡单元；所述动作决策单元用于根据所述预训练数据进行模型训练；所述回报计算单元用于根据所述动作决策单元输出的动作计算对应的奖励值，并将该奖励值存储至预设的经验回放池；所述参数更新单元用于根据所述经验回放池进行所述D3QN模型的参数更新；所述辅助负载均衡单元用于根据辅助负载均衡方法对所述动作决策单元输出的动作进行辅助负载均衡，其中，所述辅助负载均衡方法包括：基于阶梯负载均衡因子的辅助负载均衡方法，或者，基于任务亲和度的辅助负载均衡方法。
[0010]本申请的另一个方面提供了一种跨域异构环境任务调度方法，包括：接收针对跨域异构环境的任务调取请求；根据所述任务调取请求对应的目标任务的任务信息及当前所述跨域异构环境的负载信息，生成所述目标任务的马尔可夫决策过程的状态表示；将所述状态表示输入深度强化学习智能体，并根据该深度强化学习智能体输出的决策结果在所述跨域异构环境中对所述目标任务进行资源分配；其中，所述深度强化学习智能体预先应用所述的智能体训练方法训练得到。
[0011]在本申请的一些实施例中，所述根据该深度强化学习智能体输出的决策结果在所述跨域异构环境中对所述目标任务进行资源分配，包括：获取所述深度强化学习智能体中的动作决策单元输出的动作；基于所述深度强化学习智能体中的辅助负载均衡单元对所述动作决策单元输出的动作进行辅助负载均衡，得到优化后的决策结果，其中，所述辅助负载均衡单元采用的辅助负载均衡方法包括：基于阶梯负载均衡因子的辅助负载均衡方法，或者，基于任务亲和度的辅助负载均衡方法；根据所述优化后的决策结果在所述跨域异构环境中对所述目标任务进行资源分配。
[0012]本申请的另一个方面提供了一种深度强化学习智能体训练装置，包括：数据获取模块，用于获取用于模拟真实的跨域异构环境中任务负载的预训练数据；模型训练模块，用于根据预训练数据对预设的深度强化学习智能体进行训练，以使得该深度强化学习智能体用于对针对所述跨域异构环境进行任务调度，其中，所述深度
强化学习智能体预先基于D3QN模型和所述跨域异构环境的任务调度问题对应的马尔可夫决策过程构建而得。
[0013]本申请的另一个方面提供了一种针对跨域异构环境的任务调度装置，包括：请求接收模块，用于接收针对跨域异构环境的任务调取请求；状态生成模块，用于根据所述任务调取请求对应的目标任务的任务信息及当前所述跨域异构环境的负载信息，生成所述目标任务的马尔可夫决策过程的状态表示；模型决策模块，用于将所述状态表示输入深度强化学习智能体，并根据该深度强化学习智能体输出的决策结果在所述跨域异构环境中对所述目标任务进行资源分配；其中，所述深度强化学习智能体预先应用所述的智能体训练方法训练得到。
[0014]本申请的另一个方面提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的智能体训练方法，或者，实现所述的跨域异构环境任务调度方法。
[0015]本申请的另一个方面提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述的智能体训练方法，或者，实现所述的跨域异构环境任务调度方法。
[0016]本申请提供的智能体训练方法，获取用于模拟真实的跨域异构环境中任务负载的预训练数据；根据预训练数据对预设的深度强化学习智能体进行训练，以使得该深度强化学习智能体用于对针对所述跨域异构环境进行任务调度，其中，所述深度强化学习智能体预先基于D3QN模型和所述跨域异构环境的任务调度问题对应的马尔可夫决策过程构建而得，本申请提供的智能体训练本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种智能体训练方法，其特征在于，包括：获取用于模拟真实的跨域异构环境中任务负载的预训练数据；根据预训练数据对预设的深度强化学习智能体进行训练，以使得该深度强化学习智能体用于对针对所述跨域异构环境进行任务调度，其中，所述深度强化学习智能体预先基于D3QN模型和所述跨域异构环境的任务调度问题对应的马尔可夫决策过程构建而得。2.根据权利要求1所述的智能体训练方法，其特征在于，在所述根据预训练数据对预设的深度强化学习智能体进行训练之前，还包括：将所述跨域异构环境中的任务调度问题建模为马尔可夫决策过程，并设计对应的状态空间、动作空间及奖励函数，以形成该马尔可夫决策过程的四元组，其中，所述四元组用于记录当前状态、动作、奖励和下一个状态；其中，所述奖励函数基于在所述跨域异构环境中进行任务调度的性能评价指标构建而得。3.根据权利要求1所述的智能体训练方法，其特征在于，在所述根据预训练数据对预设的深度强化学习智能体进行训练之前，还包括：基于双Q学习算法和竞争网络结构对深度Q网络DQN进行优化，以得到D3QN模型；其中，所述D3QN模型包括四组全连接层，其中的第一组全连接层与第二组全连接层连接，并均用于处理输入的状态；所述第二组全连接层还分别连接第三组全连接层和第四组全连接层，所述第三组全连接层用于计算价值函数部分，所述第四组全连接层用于计算优势函数部分，所述第三组全连接层和所述第四组全连接层的计算结果之和产生对应的Q值。4.根据权利要求1至3任一项所述的智能体训练方法，其特征在于，所述深度强化学习智能体，包括：动作决策单元、分别与该动作决策单元连接的回报计算单元、参数更新单元和辅助负载均衡单元；所述动作决策单元用于根据所述预训练数据进行模型训练；所述回报计算单元用于根据所述动作决策单元输出的动作计算对应的奖励值，并将该奖励值存储至预设的经验回放池；所述参数更新单元用于根据所述经验回放池进行所述D3QN模型的参数更新；所述辅助负载均衡单元用于根据辅助负载均衡方法对所述动作决策单元输出的动作进行辅助负载均衡，其中，所述辅助负载均衡方法包括：基于阶梯负载均衡因子的辅助负载均衡方法，或者，基于任务亲和度的辅助负载均衡方法。5.一种跨域异构环境任务调度方法，其特征在于，包括：接收针对跨域异构环境的任务调取请求；根据所述任务调取请求对应的目标任务的任务信息及当前所述跨域异构环境的负载信息，生成所述目标任务的马尔可夫决策过程的状态表示；将所述...

【专利技术属性】
技术研发人员：孙昌勇，杨谈，王延巍，杜炯，郑永伯，
申请(专利权)人：中科链安北京科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人