当前位置: 首页 > 专利查询>郑州大学专利>正文

一种基于多智能体深度强化学习的虚拟光网络映射方法技术

技术编号:25405951 阅读:39 留言:0更新日期:2020-08-25 23:09
本发明专利技术提出了一种基于多智能体深度强化学习的虚拟光网络映射方法,其步骤为:判断环境模块中是否有其他虚拟网业务离去;对虚拟网请求业务的当前物理网的节点与链路信息进行提取;节点智能体模块利用节点策略网络得到物理网每个节点为当前虚拟网请求业务提供映射的概率分布,选取合适的节点作为当前虚拟网请求业务要映射到的节点;链路智能体模块通过链路策略网计算源节点与目的节点间的最短路径的频槽概率选择分布;评判模块从环境模块中获得即时奖励计算多步映射的累加奖励;评价模块计算节点动作和链路动作的评价值,根据评价值对智能体模块的参数进行更新。本发明专利技术可有效提高节点与链路的资源利用率,降低网络的阻塞率,提高虚拟网映射成功率。

【技术实现步骤摘要】
一种基于多智能体深度强化学习的虚拟光网络映射方法
本专利技术涉及通信领域与强化学习的
,尤其涉及一种基于多智能体深度强化学习的虚拟光网络映射方法,当弹性光网络作为底层物理网通信设施时,使用多智能体深度强化学习训练学习历史数据,使虚拟网业务自主高效的映射到底层物理网中。
技术介绍
物联网在各个领域蓬勃发展,万物互联的时代渐行渐近。但是随着5G、虚拟现实、自动驾驶的发展,物联网设备的迅速增加,面对网络数据中心爆炸性的增长,传统互联网在数据安全、可扩展性、网络管控能力以及服务质量保证等方面的不足正为其带来越来越多的挑战。网络虚拟化利用虚拟化技术将网络进行逻辑抽象,从而在共享的底层物理网络基础设施上同时创建和运行多个不同的虚拟网络。虚拟网络映射问题是网络虚拟化技术研究中的核心问题之一,它的主要研究目标是在满足节点和链路约束条件的基础上,将虚拟网络请求映射到基础网络设施上,利用已有的物理网络资源获得尽可能多的业务收益。弹性光网络(EON)是一种很有前途的、用于物理网通信的网络基础设施,将底层物理网络中的资源抽象出来,能对虚拟网请求业务提供高效映射。常用的多智能体强化学习DRL模型为:环境:针对当前虚拟网映射的环境为部分可观测环境(PartiallyObservableEnvironment),这种情况即智能体(Agent)不能完整的获取环境信息状态,所以此时智能体状态(AgentState)≠环境状态(EnvironmentState)。而此时的环境状态称为部分可观测(MDP),所以此时智能体(Agent)必须自己对环境进行解读探索。状态:当前状态为智能体状态(AgentState),是智能体(Agent)用来选择下一个行动的信息源和算法进行所需要的那些信息,智能体(Agent)面对环境状态(EnvironmentState)的解读与翻译,所以它可能不完整,但由这些信息来做决定。动作:智能体(Agent)根据策略决定对每一个状态执行动作。奖励(Reward):智能体(Agent)执行的每一步动作后,由环境给出对动作执行的评价。多智能体强化学习DRL模型以降低虚拟网业务映射阻塞率为优化目标,公式为:BP=1-(BN∪BL),其中,BP为总阻塞率,BN为节点配置的阻塞率,BL为链路阻塞率。节点或链路阻塞则当前网络功能配置失败。先前的研究从多个方面研究了如何将虚拟网请求映射到底层光网络上。但是,这些研究仅应用固定映射策略,而不管时变网络状态如何,或仅依赖简单的经验策略,并且它们无法实现真正的灵活、高效映射。同时,深度强化学习(DRL)已证明其在解决大规模任务中的有效性。
技术实现思路
针对传统的弹性光网络虚拟网映射方法网络利用率低,阻塞率高的技术问题,本专利技术提出一种基于多智能体深度强化学习的虚拟光网络映射方法,采用多智能体强化学习框架,通过节点智能体和链路智能体间在底层网络环境中交互学习,获得每次映射回馈奖励值,对每次节点智能体执行的节点动作与链路智能体执行的链路动作进行评价,从而优化下一次的动作选择,完成协同合作,最终使虚拟请求达到最佳映射。为了达到上述目的,本专利技术的技术方案是这样实现的:一种基于多智能体深度强化学习的虚拟光网络映射方法,其步骤如下:步骤一:执行底层物理网资源调度更新算法,在虚拟网请求业务到达时间,判断此时刻环境模块中底层物理网是否有其他虚拟网业务离去,若有,环境模块执行资源释放算法,对要离去的虚拟网请求业务占用的节点与链路资源进行释放,更新完成后进行节点选择;若无其他虚拟网请求业务离去,则直接进行节点选择;步骤二:对虚拟网请求业务面对的当前物理网的节点与链路信息进行提取:节点智能体提取底层物理网所有节点及其周围链路的特征信息组成特征矩阵M,特征矩阵M作为节点状态输入节点智能体模块;链路智能体从环境中提取源节点和目的节点间的链路特征信息组成特征向量V,特征向量V作为链路状态输入链路智能体模块;步骤三:节点智能体模块利用节点策略网络对输入的特征矩阵进行计算,得到物理网每个节点为当前虚拟网请求业务提供映射的概率分布,通过e-贪心算法和概率分布选取合适的节点作为当前虚拟网请求业务要映射到的节点;最后判断虚拟网节点是否映射成功,若物理节点计算资源够用则虚拟节点映射成功,记录下映射成功的节点动作;反之则映射失败;步骤四:链路智能体模块把同一虚拟网请求中成功映射的所有节点动作分批次接受,同时把当前映射的物理网源节点与目的节点同步骤二中获取的链路状态作为链路策略网的输入,并通过链路策略网的计算源节点与目的节点间的最短路径的频槽概率选择分布,并选择出合适的频槽块来满足链路请求资源,若选择的可用的频槽块支持虚拟网请求业务的带宽资源,则该最短路径对应的链路映射成功,否则当前虚拟网请求业务映射失败;步骤五:经过步骤三和步骤四中执行的节点动作与链路动作的映射结果,评判模块依次得到从环境模块中获得的即时奖励,在一个步长中重复步骤一到步骤四,由即时奖励计算多步映射的累加奖励;步骤六:评价模块根据累加奖励计算节点动作和链路动作的评价值,链路智能体和节点智能体均接受评价模块计算出的评价值,当有多个虚拟网请求业务时,评价模块根据计算得到评价值对智能体模块的参数进行更新。所述步骤一种底层物理网资源调度更新算法的实现方法为:(1)环境模块建立时间轴T,每个事件刻度加1,下一时间刻度为T+1,建立离去业务队列D,每当有虚拟网请求业务到达时,把当前虚拟网请求业务添加到离去业务队列D,并按离去时间Tl由小到达排序;(2)环境模块从时间刻度0开始,到最后一个虚拟网请求业务离去时间为止,每个时间刻度都对离去业务队列D中的第一个虚拟网请求业务R′的离去时间进行判断,若当前时刻T≥Tl,则对虚拟网请求业务R′占用的物理网节点与链路资源进行删除;否则T+1。所述节点智能体提取所有节点及其周围的特征信息:第i个节点的特征向量为vi=(ncci,degi,nfsi,fsbi,adsi),并组成特征矩阵M=(v1,v2,v3……vn)作为节点状态并输入到节点智能体模块,其中,ncci、degi,、nfsi、fsbi、adsi分别表示第i个节点的节点承载能力、节点度、节点周围链路的总频槽数、节点周围每个链路的总频槽数/频槽可用块数和节点到其他映射节点的平均距离,n代表底层物理网的节点个数;所述链路智能体从环境中提取源节点和目的节点间的链路特征信息:两节点间最短路径中一段链路的特征向量为lj=(fsj,blokj,firj,fbj,reqj),作为链路状态并输入到链路智能体模块,其中,fsj、blokj、firj、fbj、reqj分别表示源节点和目的节点间最短路径第j段链路的总的可用频槽、可用的频槽块数、第一块可用频槽位置、总可用频槽数/可用块数、两节点间请求的频槽数。所述节点策略网络的节点智能体模块主要由三层人工神经网络构成:输入层为提取的特征矩阵M,行代表各个物理节点的特征向量vi,列为各个物理节点;<本文档来自技高网
...

【技术保护点】
1.一种基于多智能体深度强化学习的虚拟光网络映射方法,其特征在于,其步骤如下:/n步骤一:执行底层物理网资源调度更新算法,在虚拟网请求业务到达时间,判断此时刻环境模块中底层物理网是否有其他虚拟网业务离去,若有,环境模块执行资源释放算法,对要离去的虚拟网请求业务占用的节点与链路资源进行释放,更新完成后进行节点选择;若无其他虚拟网请求业务离去,则直接进行节点选择;/n步骤二:对虚拟网请求业务面对的当前物理网的节点与链路信息进行提取:节点智能体提取底层物理网所有节点及其周围链路的特征信息组成特征矩阵M,特征矩阵M作为节点状态输入节点智能体模块;链路智能体从环境中提取源节点和目的节点间的链路特征信息组成特征向量V,特征向量V作为链路状态输入链路智能体模块;/n步骤三:节点智能体模块利用节点策略网络对输入的特征矩阵进行计算,得到物理网每个节点为当前虚拟网请求业务提供映射的概率分布,通过e-贪心算法和概率分布选取合适的节点作为当前虚拟网请求业务要映射到的节点;最后判断虚拟网节点是否映射成功,若物理节点计算资源够用则虚拟节点映射成功,记录下映射成功的节点动作;反之则映射失败;/n步骤四:链路智能体模块把同一虚拟网请求中成功映射的所有节点动作分批次接受,同时把当前映射的物理网源节点与目的节点同步骤二中获取的链路状态作为链路策略网的输入,并通过链路策略网的计算源节点与目的节点间的最短路径的频槽概率选择分布,并选择出合适的频槽块来满足链路请求资源,若选择的可用的频槽块支持虚拟网请求业务的带宽资源,则该最短路径对应的链路映射成功,否则当前虚拟网请求业务映射失败;/n步骤五:经过步骤三和步骤四中执行的节点动作与链路动作的映射结果,评判模块依次得到从环境模块中获得的即时奖励,在一个步长中重复步骤一到步骤四,由即时奖励计算多步映射的累加奖励;/n步骤六:评价模块根据累加奖励计算节点动作和链路动作的评价值,链路智能体和节点智能体均接受评价模块根据评价函数计算出的评价值,当有多个虚拟网请求业务时,评价模块根据评价值对智能体模块的参数进行更新。/n...

【技术特征摘要】
1.一种基于多智能体深度强化学习的虚拟光网络映射方法,其特征在于,其步骤如下:
步骤一:执行底层物理网资源调度更新算法,在虚拟网请求业务到达时间,判断此时刻环境模块中底层物理网是否有其他虚拟网业务离去,若有,环境模块执行资源释放算法,对要离去的虚拟网请求业务占用的节点与链路资源进行释放,更新完成后进行节点选择;若无其他虚拟网请求业务离去,则直接进行节点选择;
步骤二:对虚拟网请求业务面对的当前物理网的节点与链路信息进行提取:节点智能体提取底层物理网所有节点及其周围链路的特征信息组成特征矩阵M,特征矩阵M作为节点状态输入节点智能体模块;链路智能体从环境中提取源节点和目的节点间的链路特征信息组成特征向量V,特征向量V作为链路状态输入链路智能体模块;
步骤三:节点智能体模块利用节点策略网络对输入的特征矩阵进行计算,得到物理网每个节点为当前虚拟网请求业务提供映射的概率分布,通过e-贪心算法和概率分布选取合适的节点作为当前虚拟网请求业务要映射到的节点;最后判断虚拟网节点是否映射成功,若物理节点计算资源够用则虚拟节点映射成功,记录下映射成功的节点动作;反之则映射失败;
步骤四:链路智能体模块把同一虚拟网请求中成功映射的所有节点动作分批次接受,同时把当前映射的物理网源节点与目的节点同步骤二中获取的链路状态作为链路策略网的输入,并通过链路策略网的计算源节点与目的节点间的最短路径的频槽概率选择分布,并选择出合适的频槽块来满足链路请求资源,若选择的可用的频槽块支持虚拟网请求业务的带宽资源,则该最短路径对应的链路映射成功,否则当前虚拟网请求业务映射失败;
步骤五:经过步骤三和步骤四中执行的节点动作与链路动作的映射结果,评判模块依次得到从环境模块中获得的即时奖励,在一个步长中重复步骤一到步骤四,由即时奖励计算多步映射的累加奖励;
步骤六:评价模块根据累加奖励计算节点动作和链路动作的评价值,链路智能体和节点智能体均接受评价模块根据评价函数计算出的评价值,当有多个虚拟网请求业务时,评价模块根据评价值对智能体模块的参数进行更新。


2.根据权利要求1所述的基于多智能体深度强化学习的虚拟光网络映射方法,其特征在于,所述步骤一种底层物理网资源调度更新算法的实现方法为:
(1)环境模块建立时间轴T,每个事件刻度加1,下一时间刻度为T+1,建立离去业务队列D,每当有虚拟网请求业务到达时,把当前虚拟网请求业务添加到离去业务队列D,并按离去时间Tl由小到达排序;
(2)环境模块从时间刻度0开始,到最后一个虚拟网请求业务离去时间为止,每个时间刻度都对离去业务队列D中的第一个虚拟网请求业务R′的离去时间进行判断,若当前时刻T≥Tl,则对虚拟网请求业务R′占用的物理网节点与链路资源进行删除;否则T+1。


3.根据权利要求1或2所述的基于多智能体深度强化学习的虚拟光网络映射方法,其特征在于,所述节点智能体提取所有节点及其周围的特征信息:第i个节点的特征向量为vi=(ncci,degi,nfsi,fsbi,adsi),并组成特征矩阵M=(v1,v2,v3……vn)作为节点状态并输入到节点智能体模块,其中,ncci、degi,、nfsi、fsbi、adsi分别表示第i个节点的节点承载能力、节点度、节点周围链路的总频槽数、节点周围每个链路的总频槽数/频槽可用块数和节点到其他映射节点的平均距离,n代表底层物理网的节点个数;
所述链路智能体从环境中提取源节点和目的节点间的链路特征信息:两节点间最短路径中一段链路的特征向量为lj=(fsj,blokj,firj,fbj,reqj),作为链路状态并输入到链路智能体模块,其中,fsj、blokj、firj、fbj、reqj分别表示源节点和目的节点间最短路径第j段链路的总的可用频槽、可用的频槽块数、第一块可用频槽位置、总可用频槽数/可用块数、两节点间请求的频槽数。


4.根据权利要求3所述的基于多智能体深度强化学习的虚拟光网络映射方法,其特征在于,所述节点策略网络的节点智能体模块主要由三层人工神经网络构成:
输入层为提取的特征矩阵M,行代表各个物理节点的特征向量vi,列为各个物理节点;
中间层为卷积运算层,设置一个一维卷积核W,其维度大小与特征向量vi相同:
W=(Wncc,Wdeg,Wnfs,Wfsb,Wads),其中,Wncc、Wdeg、Wnfs、Wfsb、Wads分别表示对应节点承载能力、节点度、节点周围链路的总频槽数、节点周围每个链路的总频槽数/频槽可用块数和节点到其他映射节点的平均距离的卷积值;通过卷积运算从特征向量中找出节点映射对应空间资源的内在联系,运算公式为:
L=M*W+B(1)
其中,B为偏置常数;L为由...

【专利技术属性】
技术研发人员:朱睿杰王培森李羽蒙李世华李亚飞徐明亮
申请(专利权)人:郑州大学
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1