当前位置: 首页 > 专利查询>大连大学专利>正文

一种基于深度强化学习的自适应QoS智能路由方法技术

技术编号:38549953 阅读:14 留言:0更新日期:2023-08-22 20:57
本发明专利技术公开了一种基于深度强化学习的自适应QoS智能路由方法,包括以下步骤:建立神经网络;采集路由样本;训练神经网络。本发明专利技术首先提出了一种适用感知多媒体流量差异化QoS的状态空间和奖励函数,能从不同网络状态和反馈奖励中学习路由知识,在没有人工经验的情况下智能地动态调整SDN路由策略。还对状态空间中的网络度量指标进行归一化,为算法提供稳定的输入数据。本发明专利技术在在奖励函数中考虑了不同业务的差异化QoS需求,将业务的路径带宽、时延和丢包率作为路由策略的评价指标。另外,在奖励函数加入了链路利用率指标,对导致链路拥塞的路由策略施以惩罚,不仅保证了各业务的QoS需求,而且兼顾了网络的负载均衡。而且兼顾了网络的负载均衡。

【技术实现步骤摘要】
一种基于深度强化学习的自适应QoS智能路由方法


[0001]本专利技术涉及软件定义网络(Software Defined Network,SDN)的路由优化技术,特别是一种利用深度强化学习(Deep Reinforcement Learning,DRL)算法综合考虑通信网络状态和各业务服务质量(Quality of Service,QoS)指标的自适应QoS智能路由方法。

技术介绍

[0002]现代通信网络变得更加复杂与动态,网络规模与应用种类随之大大增加,视频会议、直播、音频和游戏等多媒体业务对通信网络的QoS提出了重大挑战。一方面,每种多媒体业务都可以定义不同的QoS指标,而一些传统路由方法,例如开放最短路径优先(Open Shortest Path First,OSPF),大多基于人工经验预设参数来建模。另外包括经典的基于表格的Q

learning算法,这些算法无法满足细粒度QoS的流量控制。另一方面,面对动态变化的复杂网络,传统路由算法不能学习和利用路由知识、基于监督学习的路由算法对训练集的获取难度高,导致路由算法对网络状态的变化适应性较差,不能做到智能自适应路由。因此在路由算法中实现智能且细粒度控制的技术至关重要。

技术实现思路

[0003]为了解决现有技术存在的上述问题,本专利技术在SDN框架下,提出一种基于深度强化学习的自适应QoS智能路由(DRL

based QoS

adaptive Intelligent Routing,DQIR)方法,实现动态优化SDN路由,满足不同业务的细粒度QoS需求。
[0004]为了实现上述目的,本专利技术的技术方案如下:一种基于深度强化学习的自适应QoS智能路由方法,包括以下步骤:
[0005]A、建立神经网络
[0006]所述基于深度强化学习的自适应QoS智能路由即DQIR包含两个主神经网络和两个目标神经网络;两个主神经网络分别为Actor策略网络π(s
t
|θ)和Critic价值网络Q(s
t
,a
t
|w),θ和w分别为两个主神经网络的参数,s
t
为时间片t内的通信网络状态,a
t
为时间片t内的通信网络链路权重;两个目标神经网络分别为目标Actor策略网络π(s
t+1


)和目标Critic价值网络Q(s
t+1
,a

t+1
|w

),θ

和w

分别为两个目标神经网络的参数,s
t+1
为时间片t+1内的通信网络状态,a

t+1
为时间片t+1内的通信网络链路权重。
[0007]B、采集路由样本
[0008]定义路由样本rs=<s
t
,a
t
,r
t
,s
t+1
>由当前时间片t内通信网络状态s
t
、通信网络链路权重a
t
、奖励函数r
t
以及下一时间片的通信网络状态s
t+1
组成。
[0009]B1、分析通信网络状态
[0010]将通信网络视为有向图G(V,E),其中,V={sw1,sw2,

,sw
i
,

,sw
N
}是交换机集合,|V|=N是交换机的个数,sw
i
代表第i个交换机。每条链路e
i,j
对应一条有向通信链路;E是通信网络中的链路集合,其中i=1,2,

,N,j=1,2,

,N且i≠j。
[0011]通信网络状态s
t
由维度为N N 6的3维数组表示,s
t
包括通信网络的性能指标:链路
带宽Bw
t
、延迟Delay
t
、丢包率Loss
t
、链路利用率L_util
t
、通信网络的全局视图View
t
和流量需求矩阵TM
t
。定义通信网络状态s
t
如下:
[0012]s
t
=[Bw
t
,Delay
t
,Loss
t
,L_util
t
,View
t
,TM
t
]ꢀꢀꢀꢀꢀꢀ
(1)
[0013]将s
t
的每个变量的值归一化,其中较大的值优于较小的值,具体计算步骤如下:
[0014]设是时间片t内归一化链路带宽的集合,计算公式如下:
[0015][0016]式中:bw
t
(e
i,j
)为链路e
i,j
的带宽,表示归一化值。max bw
t
、min bw
t
分别表示所有链路带宽的最大值与最小值。
[0017]设是时间片t内归一化链路延迟的集合,计算公式如下:
[0018][0019]式中:dy
t
(e
i,j
)为链路e
i,j
的带宽,表示归一化值。max dy
t
、min dy
t
分别表示所有链路延迟的最大值与最小值。
[0020]设是时间片t内归一化链路丢包率的集合,计算公式如下:
[0021][0022]式中:ls
t
(e
i,j
)为链路e
i,j
的丢包率,表示归一化值。
[0023]设是时间片t内归一化链路利用率的集合,计算公式如下:
[0024][0025][0026]式中:l_util
t
为链路e
i,j
的丢包率,表示归一化值。used_bw
t
(e
i,j
)=(port_speed1+port_speed2)/2是在时间片[t

Δt,t)内链路e
i,j
上已使用的带宽,通过计算连接链路两端端口的流量速率port_speed1和port_speed2得出。
[0027]设View
t
是通信网络的全局视图,使用0/1编码矩阵表示节点之间的连接关系。设是时间片t内所有源

目的交换机节点对的流量需求信息,其中sw
src
≠sw
des
。tm
t
(sw
src
,sw
des
)表示源交换机sw
src
与目的交换机sw
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的自适应QoS智能路由方法,其特征在于:包括以下步骤:A、建立神经网络所述基于深度强化学习的自适应QoS智能路由即DQIR包含两个主神经网络和两个目标神经网络;两个主神经网络分别为Actor策略网络π(s
t
|θ)和Critic价值网络Q(s
t
,a
t
|w),θ和w分别为两个主神经网络的参数,s
t
为时间片t内的通信网络状态,a
t
为时间片t内的通信网络链路权重;两个目标神经网络分别为目标Actor策略网络π(s
t+1


)和目标Critic价值网络Q(s
t+1
,a

t+1
|w

),θ

和w

分别为两个目标神经网络的参数,s
t+1
为时间片t+1内的通信网络状态,a

t+1
为时间片t+1内的通信网络链路权重;B、采集路由样本定义路由样本rs=<s
t
,a
t
,r
t
,s
t+1
>由当前时间片t内通信网络状态s
t
、通信网络链路权重a
t
、奖励函数r
t
以及下一时间片的通信网络状态s
t+1
组成;B1、分析通信网络状态将通信网络视为有向图G(V,E),其中,V={sw1,sw2,

,sw
i
,

,sw
N
}是交换机集合,|V|=N是交换机的个数,sw
i
代表第i个交换机;每条链路e
i,j
对应一条有向通信链路;E是通信网络中的链路集合,其中i=1,2,

,N,j=1,2,

,N且i≠j;通信网络状态s
t
由维度为N N 6的3维数组表示,s
t
包括通信网络的性能指标:链路带宽Bw
t
、延迟Delay
t
、丢包率Loss
t
、链路利用率L_util
t
、通信网络的全局视图View
t
和流量需求矩阵TM
t
;定义通信网络状态s
t
如下:s
t
=[Bw
t
,Delay
t
,Loss
t
,L_util
t
,View
t
,TM
t
]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)将s
t
的每个变量的值归一化,其中较大的值优于较小的值,具体计算步骤如下:设是时间片t内归一化链路带宽的集合,计算公式如下:式中:bw
t
(e
i,j
)为链路e
i,j
的带宽,表示归一化值;maxbw
t
、minbw
t
分别表示所有链路带宽的最大值与最小值;设是时间片t内归一化链路延迟的集合,计算公式如下:式中:dy
t
(e
i,j
)为链路e
i,j
的带宽,表示归一化值;maxdy
t
、mindy
t
分别表示所有链路延迟的最大值与最小值;设是时间片t内归一化链路丢包率的集合,计算公式如下:式中:ls
t
(e
i,j
)为链路e
i,j
的丢包率,表示归一化值;
设是时间片t内归一化链路利用率的集合,计算公式如下:是时间片t内归一化链路利用率的集合,计算公式如下:式中:l_util
t
为链路e
i,j
的丢包率,表示归一化值;used_bw
t
(e
i,j
)=(port_speed1+port_speed2)/2是在时间片[t

Δt,t)内链路e
i,j
上已使用的带宽,通过计算连接链路两端端口的流量速率port_speed1和port_speed2得出;设View
t
是通信网络的全局视图,使用0/1编码矩阵表示节点之间的连接关系;设是时间片t内所有源

目的交换机节点对的流量需求信息,其中sw
src
≠sw
des
;tm
t
(sw
src
,sw
des
)表示源交换机sw
src
与目的交换机sw
des
之间的流量需求,归一化后表示为maxtm
t
=max{tm
t
(sw
src
,sw
des
)}、mintm
t
...

【专利技术属性】
技术研发人员:魏德宾郭传祺杨力潘成胜
申请(专利权)人:大连大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1