【技术实现步骤摘要】
一种基于深度强化学习的自适应QoS智能路由方法
[0001]本专利技术涉及软件定义网络(Software Defined Network,SDN)的路由优化技术,特别是一种利用深度强化学习(Deep Reinforcement Learning,DRL)算法综合考虑通信网络状态和各业务服务质量(Quality of Service,QoS)指标的自适应QoS智能路由方法。
技术介绍
[0002]现代通信网络变得更加复杂与动态,网络规模与应用种类随之大大增加,视频会议、直播、音频和游戏等多媒体业务对通信网络的QoS提出了重大挑战。一方面,每种多媒体业务都可以定义不同的QoS指标,而一些传统路由方法,例如开放最短路径优先(Open Shortest Path First,OSPF),大多基于人工经验预设参数来建模。另外包括经典的基于表格的Q
‑
learning算法,这些算法无法满足细粒度QoS的流量控制。另一方面,面对动态变化的复杂网络,传统路由算法不能学习和利用路由知识、基于监督学习的路由算法对训练集的获取难度高,导致路由算法对网络状态的变化适应性较差,不能做到智能自适应路由。因此在路由算法中实现智能且细粒度控制的技术至关重要。
技术实现思路
[0003]为了解决现有技术存在的上述问题,本专利技术在SDN框架下,提出一种基于深度强化学习的自适应QoS智能路由(DRL
‑
based QoS
‑
adaptive Intelligent Routing,D ...
【技术保护点】
【技术特征摘要】
1.一种基于深度强化学习的自适应QoS智能路由方法,其特征在于:包括以下步骤:A、建立神经网络所述基于深度强化学习的自适应QoS智能路由即DQIR包含两个主神经网络和两个目标神经网络;两个主神经网络分别为Actor策略网络π(s
t
|θ)和Critic价值网络Q(s
t
,a
t
|w),θ和w分别为两个主神经网络的参数,s
t
为时间片t内的通信网络状态,a
t
为时间片t内的通信网络链路权重;两个目标神经网络分别为目标Actor策略网络π(s
t+1
|θ
′
)和目标Critic价值网络Q(s
t+1
,a
′
t+1
|w
′
),θ
′
和w
′
分别为两个目标神经网络的参数,s
t+1
为时间片t+1内的通信网络状态,a
′
t+1
为时间片t+1内的通信网络链路权重;B、采集路由样本定义路由样本rs=<s
t
,a
t
,r
t
,s
t+1
>由当前时间片t内通信网络状态s
t
、通信网络链路权重a
t
、奖励函数r
t
以及下一时间片的通信网络状态s
t+1
组成;B1、分析通信网络状态将通信网络视为有向图G(V,E),其中,V={sw1,sw2,
…
,sw
i
,
…
,sw
N
}是交换机集合,|V|=N是交换机的个数,sw
i
代表第i个交换机;每条链路e
i,j
对应一条有向通信链路;E是通信网络中的链路集合,其中i=1,2,
…
,N,j=1,2,
…
,N且i≠j;通信网络状态s
t
由维度为N N 6的3维数组表示,s
t
包括通信网络的性能指标:链路带宽Bw
t
、延迟Delay
t
、丢包率Loss
t
、链路利用率L_util
t
、通信网络的全局视图View
t
和流量需求矩阵TM
t
;定义通信网络状态s
t
如下:s
t
=[Bw
t
,Delay
t
,Loss
t
,L_util
t
,View
t
,TM
t
]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)将s
t
的每个变量的值归一化,其中较大的值优于较小的值,具体计算步骤如下:设是时间片t内归一化链路带宽的集合,计算公式如下:式中:bw
t
(e
i,j
)为链路e
i,j
的带宽,表示归一化值;maxbw
t
、minbw
t
分别表示所有链路带宽的最大值与最小值;设是时间片t内归一化链路延迟的集合,计算公式如下:式中:dy
t
(e
i,j
)为链路e
i,j
的带宽,表示归一化值;maxdy
t
、mindy
t
分别表示所有链路延迟的最大值与最小值;设是时间片t内归一化链路丢包率的集合,计算公式如下:式中:ls
t
(e
i,j
)为链路e
i,j
的丢包率,表示归一化值;
设是时间片t内归一化链路利用率的集合,计算公式如下:是时间片t内归一化链路利用率的集合,计算公式如下:式中:l_util
t
为链路e
i,j
的丢包率,表示归一化值;used_bw
t
(e
i,j
)=(port_speed1+port_speed2)/2是在时间片[t
‑
Δt,t)内链路e
i,j
上已使用的带宽,通过计算连接链路两端端口的流量速率port_speed1和port_speed2得出;设View
t
是通信网络的全局视图,使用0/1编码矩阵表示节点之间的连接关系;设是时间片t内所有源
‑
目的交换机节点对的流量需求信息,其中sw
src
≠sw
des
;tm
t
(sw
src
,sw
des
)表示源交换机sw
src
与目的交换机sw
des
之间的流量需求,归一化后表示为maxtm
t
=max{tm
t
(sw
src
,sw
des
)}、mintm
t
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。