当前位置: 首页 > 专利查询>之江实验室专利>正文

强化学习智能体训练方法、模态带宽资源调度方法及装置制造方法及图纸

技术编号:34432290 阅读:51 留言:0更新日期:2022-08-06 16:11
本发明专利技术公开了强化学习智能体训练方法、模态带宽资源调度方法及装置,其中强化学习智能体训练方法在多模态网络下,利用强化学习智能体与网络环境不断交互,获取最新全局网络特征并输出更新后的动作。通过调节模态所占用的带宽,设定奖励值为智能体确定优化目标,实现模态的调度,保障多模态网络资源合理使用。训练后的强化学习智能体应用于模态带宽资源调度方法中,能自适应于不同特征的网络中,可用于多模态网络的智慧管控,具有良好的适应性及调度性能。度性能。度性能。

【技术实现步骤摘要】
强化学习智能体训练方法、模态带宽资源调度方法及装置


[0001]本专利技术属于网络管控
,尤其涉及强化学习智能体训练方法、模态带宽资源调度方法及装置。

技术介绍

[0002]在多模态网络中,同时运行着多种网络技术体制,每一种技术体制即为一种网络模态。各网络模态共享网络资源,如不加以管控,则会导致各网络模态直接竞争网络资源,如带宽等,这会直接影响部分关键模态的通信传输质量。因此,对网络中的各个模态进行合理管控是保障多模态网络稳定运行的必要前提之一。
[0003]对于上述需要,目前主流技术是控制交换机端口的带宽被使用的比例,限制出口流量大小以避免网络过载。
[0004]在实现本专利技术过程中,本专利技术人发现现有技术至少存在如下问题:使用这类静态的策略(如限制带宽使用比例不超过某个最大值)将无法适应网络模态动态变化的情况。而实际网络中,很有可能因业务变化而导致个别模态流量变大,此时原来的静态策略则不再适用。

技术实现思路

[0005]本申请实施例的目的是提供强化学习智能体训练方法、模态带宽资源调度方法及装置,以解决相关技术中存在的多模态网络中的模态资源无法智慧管控的技术问题。
[0006]根据本申请实施例的第一方面,提供一种多模态网络中的模态带宽资源调度方法,包括:S11:构建全局网络特征状态、动作及训练所述强化学习智能体所需的深度神经网络模型,其中所述深度神经网络模型包括执行新网络、执行旧网络及动作评价网络:S12:设置一轮训练的最大步数;S13:在每一步中,获取全局网络特征状态,将所述全局网络特征状态输入所述执行新网络,控制SDN交换机执行所述执行新网络输出的动作,获取所述SDN交换机执行所述动作后网络的状态和奖励值,将所述动作、奖励值和执行所述动作前后的两个时间段内分别的状态存入经验池;S14:根据所述经验池中所有的奖励值和执行动作前的状态,更新所述动作评价网络的网络参数;S15:将所述执行新网络的网络参数赋值给所述执行旧网络,并根据所述经验池中所有的动作和执行动作前的状态,更新所述执行新网络的网络参数;S16:重复步骤S13

S15,直至多模态网络中各个模态占用的带宽均在保证通信传输质量的同时不让网络出口端过载。
[0007]进一步地,所述全局网络特征状态包括各个模态的报文数量、各个模态的平均报文大小、每条流的平均时延、每条流中的数据包数量、每条流的大小、每条流中的平均数据
包大小。
[0008]进一步地,所述动作为在对应的全局网络特征状态下选择的动作向量的均值与噪声的和。
[0009]进一步地,根据所述经验池中所有的奖励值和执行动作前的状态,更新所述动作评价网络的网络参数,包括:将所述经验池中所有的执行动作前的状态输入所述动作评价网络中,得到对应的期望价值;根据所述期望价值和对应的奖励值以及预先设定的衰减折扣,计算每个行动作前的状态的折扣奖励;计算所述折扣奖励与所述期望价值的差值,并根据所有差值计算均方差,将得到的均方差作为第一损失值,以更新所述动作评价网络的网络参数。
[0010]进一步地,根据所述经验池中所有的动作和执行动作前的状态,更新所述执行新网络的网络参数,包括:将所述经验池中所有的执行动作前的状态分别输入所述执行旧网络和执行新网络,得到执行动作旧分布和执行动作新分布;计算所述经验池中每个动作在对应的所述执行动作旧分布和执行动作新分布中分别出现的第一概率和第二概率;计算所述第二概率与所述第一概率的比值;将所有的所述比值乘以对应的所述差值并求平均之后的值作为第二损失值,以更新所述执行新网络的网络参数。
[0011]根据本申请实施例的第二方面,提供一种多模态网络中的模态带宽资源调度装置,包括:构建模块,用于构建全局网络特征状态、动作及训练所述强化学习智能体所需的深度神经网络模型,其中所述深度神经网络模型包括执行新网络、执行旧网络及动作评价网络:设置模块,用于设置一轮训练的最大步数;执行模块,用于在每一步中,获取全局网络特征状态,将所述全局网络特征状态输入所述执行新网络,控制SDN交换机执行所述执行新网络输出的动作,获取所述SDN交换机执行所述动作后网络的状态和奖励值,将所述动作、奖励值和执行所述动作前后的两个时间段内分别的状态存入经验池;第一更新模块,用于根据所述经验池中所有的奖励值和执行动作前的状态,更新所述动作评价网络的网络参数;第二更新模块,用于将所述执行新网络的网络参数赋值给所述执行旧网络,并根据所述经验池中所有的动作和执行动作前的状态,更新所述执行新网络的网络参数;重复模块,用于重复执行模块到第二更新模块中的过程,直至多模态网络中各个模态占用的带宽均在保证通信传输质量的同时不让网络出口端过载。
[0012]根据本申请实施例的第三方面,提供多模态网络中的模态带宽资源调度方法,包括:将根据第一方面所述的多模态网络中的强化学习智能体训练方法训练后的强化
学习智能体应用于多模态网络中;根据所述强化学习智能体输出的调度策略,调度各个模态占用的资源。
[0013]根据本申请实施例的第三方面,提供一种多模态网络中的模态带宽资源调度装置,包括:应用模块,用于将根据第一方面所述的多模态网络中的强化学习智能体训练方法训练后的强化学习智能体应用于多模态网络中;调度模块,用于根据所述强化学习智能体输出的调度策略,调度各个模态占用的资源。
[0014]根据本申请实施例的第五方面,提供一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如多模态网络中的强化学习智能体训练方法或多模态网络中的模态带宽资源调度方法。
[0015]根据本申请实施例的第六方面,提供一种计算机可读存储介质,该指令被处理器执行时实现如多模态网络中的强化学习智能体训练方法或多模态网络中的模态带宽资源调度方法的步骤。
[0016]本申请的实施例提供的技术方案可以包括以下有益效果:由上述实施例可知,本申请利用强化学习算法思想,构建适应于多模态网络的全局网络特征状态、执行动作、奖励函数,让强化学习智能体不断与网络进行交互,根据网络状态及奖励值的变化输出最优执行动作,从而让多模态网络资源的分配符合预期,保障网络运行性能,对于推动多模态网络的智慧管控具有较强的现实意义。
[0017]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
[0018]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
[0019]图1是根据一示例性实施例示出的一种多模态网络中的强化学习智能体训练方法的流程图。
[0020]图2是根据一示例性实施例示出的步骤S14的流程图。
[0021]图3是根据一示例性实施例示出的“根据所述经验池中所有的动作和执行动作前的状态,更新所述执行新网络的网络参数”的流程图。
[0022]图4是本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态网络中的强化学习智能体训练方法,其特征在于,应用于强化学习智能体,包括:S11:构建全局网络特征状态、动作及训练所述强化学习智能体所需的深度神经网络模型,其中所述深度神经网络模型包括执行新网络、执行旧网络及动作评价网络:S12:设置一轮训练的最大步数;S13:在每一步中,获取全局网络特征状态,将所述全局网络特征状态输入所述执行新网络,控制SDN交换机执行所述执行新网络输出的动作,获取所述SDN交换机执行所述动作后网络的状态和奖励值,将所述动作、奖励值和执行所述动作前后的两个时间段内分别的状态存入经验池;S14:根据所述经验池中所有的奖励值和执行动作前的状态,更新所述动作评价网络的网络参数;S15:将所述执行新网络的网络参数赋值给所述执行旧网络,并根据所述经验池中所有的动作和执行动作前的状态,更新所述执行新网络的网络参数;S16:重复步骤S13

S15,直至多模态网络中各个模态占用的带宽均在保证通信传输质量的同时不让网络出口端过载。2.根据权利要求1所述的方法,其特征在于,所述全局网络特征状态包括各个模态的报文数量、各个模态的平均报文大小、每条流的平均时延、每条流中的数据包数量、每条流的大小、每条流中的平均数据包大小。3.根据权利要求1所述的方法,其特征在于,所述动作为在对应的全局网络特征状态下选择的动作向量的均值与噪声的和。4.根据权利要求1所述的方法,其特征在于,根据所述经验池中所有的奖励值和执行动作前的状态,更新所述动作评价网络的网络参数,包括:将所述经验池中所有的执行动作前的状态输入所述动作评价网络中,得到对应的期望价值;根据所述期望价值和对应的奖励值以及预先设定的衰减折扣,计算每个行动作前的状态的折扣奖励;计算所述折扣奖励与所述期望价值的差值,并根据所有差值计算均方差,将得到的均方差作为第一损失值,以更新所述动作评价网络的网络参数。5.根据权利要求4所述的方法,其特征在于,根据所述经验池中所有的动作和执行动作前的状态,更新所述执行新网络的网络参数,包括:将所述经验池中所有的执行动作前的状态分别输入所述执行旧网络和执行新网络,得到执行动作旧分布和执行动作新分布;计算所述经验池中每个动作在对应的所述执行动作旧分布和执行动作新分布中分别出现的第一概率和第二概率;计算所述第二概率与所述第一概率的比值;将所有的所述比值乘以对应的所述差值并求平均之后的值作为第二损失值,以更新所述执行新...

【专利技术属性】
技术研发人员:沈丛麒张慧峰姚少峰徐琪邹涛张汝云
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1