一种基于深度强化学习的自适应QoS智能路由方法技术

技术编号：38549953 阅读：29 留言：0更新日期：2023-08-22 20:57

本发明专利技术公开了一种基于深度强化学习的自适应QoS智能路由方法，包括以下步骤：建立神经网络；采集路由样本；训练神经网络。本发明专利技术首先提出了一种适用感知多媒体流量差异化QoS的状态空间和奖励函数，能从不同网络状态和反馈奖励中学习路由知识，在没有人工经验的情况下智能地动态调整SDN路由策略。还对状态空间中的网络度量指标进行归一化，为算法提供稳定的输入数据。本发明专利技术在在奖励函数中考虑了不同业务的差异化QoS需求，将业务的路径带宽、时延和丢包率作为路由策略的评价指标。另外，在奖励函数加入了链路利用率指标，对导致链路拥塞的路由策略施以惩罚，不仅保证了各业务的QoS需求，而且兼顾了网络的负载均衡。而且兼顾了网络的负载均衡。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度强化学习的自适应QoS智能路由方法

[0001]本专利技术涉及软件定义网络(Software Defined Network，SDN)的路由优化技术，特别是一种利用深度强化学习(Deep Reinforcement Learning,DRL)算法综合考虑通信网络状态和各业务服务质量(Quality of Service，QoS)指标的自适应QoS智能路由方法。

技术介绍

[0002]现代通信网络变得更加复杂与动态，网络规模与应用种类随之大大增加，视频会议、直播、音频和游戏等多媒体业务对通信网络的QoS提出了重大挑战。一方面，每种多媒体业务都可以定义不同的QoS指标，而一些传统路由方法，例如开放最短路径优先(Open Shortest Path First，OSPF)，大多基于人工经验预设参数来建模。另外包括经典的基于表格的Q
‑
learning算法，这些算法无法满足细粒度QoS的流量控制。另一方面，面对动态变化的复杂网络，传统路由算法不能学习和利用路由知识、基于监督学习的路由算法对训练集的获取难度高，导致路由算法对网络状态的变化适应性较差，不能做到智能自适应路由。因此在路由算法中实现智能且细粒度控制的技术至关重要。

技术实现思路

[0003]为了解决现有技术存在的上述问题，本专利技术在SDN框架下，提出一种基于深度强化学习的自适应QoS智能路由(DRL
‑
based QoS
‑
adaptive Intelligent Routing,D...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的自适应QoS智能路由方法，其特征在于：包括以下步骤:A、建立神经网络所述基于深度强化学习的自适应QoS智能路由即DQIR包含两个主神经网络和两个目标神经网络；两个主神经网络分别为Actor策略网络π(s
t
|θ)和Critic价值网络Q(s
t
,a
t
|w)，θ和w分别为两个主神经网络的参数，s
t
为时间片t内的通信网络状态，a
t
为时间片t内的通信网络链路权重；两个目标神经网络分别为目标Actor策略网络π(s
t+1
|θ
′
)和目标Critic价值网络Q(s
t+1
,a
′
t+1
|w
′
)，θ
′
和w
′
分别为两个目标神经网络的参数，s
t+1
为时间片t+1内的通信网络状态，a
′
t+1
为时间片t+1内的通信网络链路权重；B、采集路由样本定义路由样本rs＝＜s
t
,a
t
,r
t
,s
t+1
＞由当前时间片t内通信网络状态s
t
、通信网络链路权重a
t
、奖励函数r
t
以及下一时间片的通信网络状态s
t+1
组成；B1、分析通信网络状态将通信网络视为有向图G(V,E)，其中，V＝{sw1,sw2,
…
,sw
i
,
…
,sw
N
}是交换机集合，|V|＝N是交换机的个数，sw
i
代表第i个交换机；每条链路e
i,j
对应一条有向通信链路；E是通信网络中的链路集合，其中i＝1,2,
…
,N，j＝1,2,
…
,N且i≠j；通信网络状态s
t
由维度为N N 6的3维数组表示，s
t
包括通信网络的性能指标：链路带宽Bw
t
、延迟Delay
t
、丢包率Loss
t
、链路利用率L_util
t
、通信网络的全局视图View
t
和流量需求矩阵TM
t
；定义通信网络状态s
t
如下：s
t
＝[Bw
t
,Delay
t
,Loss
t
,L_util
t
,View
t
,TM
t
]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)将s
t
的每个变量的值归一化，其中较大的值优于较小的值，具体计算步骤如下：设是时间片t内归一化链路带宽的集合，计算公式如下：式中：bw
t
(e
i,j
)为链路e
i,j
的带宽，表示归一化值；maxbw
t
、minbw
t
分别表示所有链路带宽的最大值与最小值；设是时间片t内归一化链路延迟的集合，计算公式如下：式中：dy
t
(e
i,j
)为链路e
i,j
的带宽，表示归一化值；maxdy
t
、mindy
t
分别表示所有链路延迟的最大值与最小值；设是时间片t内归一化链路丢包率的集合，计算公式如下：式中：ls
t
(e
i,j
)为链路e
i,j
的丢包率，表示归一化值；
设是时间片t内归一化链路利用率的集合，计算公式如下：是时间片t内归一化链路利用率的集合，计算公式如下：式中：l_util
t
为链路e
i,j
的丢包率，表示归一化值；used_bw
t
(e
i,j
)＝(port_speed1+port_speed2)/2是在时间片[t
‑
Δt,t)内链路e
i,j
上已使用的带宽，通过计算连接链路两端端口的流量速率port_speed1和port_speed2得出；设View
t
是通信网络的全局视图，使用0/1编码矩阵表示节点之间的连接关系；设是时间片t内所有源
‑
目的交换机节点对的流量需求信息，其中sw
src
≠sw
des
；tm
t
(sw
src
,sw
des
)表示源交换机sw
src
与目的交换机sw
des
之间的流量需求，归一化后表示为maxtm
t
＝max{tm
t
(sw
src
,sw
des
)}、mintm
t
...

【专利技术属性】
技术研发人员：魏德宾，郭传祺，杨力，潘成胜，
申请(专利权)人：大连大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人