System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于电力通信光网络路由控制,具体涉及基于dqn模型的电力通信光网络路由优化方法。
技术介绍
1、光网络是一种基于光纤传输的通信网络,它具有高带宽和低传输延迟的特点。光网络通常用于数据中心互连、互联网骨干、电信运营商的长距离传输等领域。光网络是现代通信的重要组成部分,因其能够提供高带宽、低延迟的数据传输能力,广泛应用于各类通信服务中。
2、在光网络中,路由问题是如何选择光信号的传输路径,以最优化某种性能指标的问题。路由问题通常涉及以下优化目标。延迟最小化,即希望数据尽快到达目的地,从而降低通信延迟。能耗最小化,即优化能源效率,降低网络设备的耗电量。负载均衡,即确保各个路径上的流量均匀分布,避免拥塞。
3、电力通信光网络路由优化是一个关键领域,它涉及有效地传输数据并优化网络性能,以满足高带宽、低延迟、低能耗等要求。然而,随着网络流量的不断增加和网络条件的变化,优化光网络的路由决策变得尤为重要。传统的静态路由方法往往无法充分适应动态网络环境,导致网络性能下降和资源浪费,因此需要一种智能、自适应的方法来解决这一问题。
4、在这一背景下,深度强化学习(deep reinforcement learning)逐渐成为研究的热点。通过深度强化学习,我们能够有效应对复杂的网络环境变化。深度强化学习不仅能够自动从环境中学习到最优策略,还可以通过不断的试错过程优化决策,从而适应网络状态的实时变化。这种方法的核心在于强化学习的目标是通过学习和优化策略,使智能体能够在不同的状态下选择最佳的动作,以最大化累积
5、此外,结合深度学习与强化学习的优势,可以通过设计更为复杂的奖励机制,来鼓励智能体在选择路由时考虑到网络的多种性能指标,如网络拥塞情况、节点负载均衡、数据传输效率等。这不仅提高了路由的效率,还能有效降低能耗,从而在一定程度上实现绿色通信的目标。因此,通过深度强化学习进行电力通信光网络路由优化,不仅具有极大的应用价值和前景,更是推动智能通信技术发展的重要方向。
技术实现思路
1、针对现有技术中的上述不足,本专利技术提供的基于dqn模型的电力通信光网络路由优化方法解决了传统的静态路由方法往往无法充分适应动态网络环境,导致网络性能下降和资源浪费的问题。
2、为了达到上述专利技术目的,本专利技术采用的技术方案为:基于dqn模型的电力通信光网络路由优化方法,包括以下步骤:
3、s1、采集电力通信光网络的信息,建立电力通信光网络路由的状态空间、动作空间和奖励函数;
4、s2、根据状态空间、动作空间和奖励函数对dgqn模型进行离线训练,得到训练好的dgqn模型;
5、s3、根据训练好的dgqn模型部署对目标电力通信光网络路由进行优化,并通过在线学习机制更新模型参数。
6、进一步地:所述s1中,电力通信光网络路的状态空间包括网络拓扑状态、波长使用状态、链路质量状态和流量负载状态;
7、动作空间包括路由路径选择、波长分配、光功率控制、带宽分配、优先级和拥塞控制;
8、奖励函数包括延迟最小化奖励、能耗惩罚、负载均衡奖励和带宽利用率奖励。
9、进一步地:所述s2中,dgqn模型包括依次连接的输入层、图卷积网络层和输出层;
10、其中,输入层接收电力通信光网络的状态信息,状态信息用图结构的形式表示,其中,图结构的节点代表网络中的通信节点,图结构的边代表连接链路,图卷积网络层提取电力通信光网络的状态信息的特征,输出层通过全连接层输出动作空间中每个可能动作的q值,选择q值最高的动作来作为电力通信光网络路由优化动作。
11、进一步地:所述图卷积网络层提取电力通信光网络的状态信息的特征的方法具体为:
12、采用多层图卷积操作获取电力通信光网络的状态信息的特征,其中,第l+1层图卷积操作生成的节点特征矩阵h(l+1)的表达式具体为:
13、
14、式中,h(l)为第l层的节点特征矩阵,为图的邻接矩阵,且i为单位矩阵,a为邻接矩阵,为的度矩阵,w(l)为第l层的权重矩阵,σ为激活函数。
15、进一步地:所述s2中,对dgqn模型进行离线训练的方法具体为:
16、从状态空间获取当前状态,将当前状态输入dgqn模型,从动作空间中选择动作,根据奖励函数执行所选择的动作得到执行该动作后电力通信光网络路的状态,以及奖励,将动作、状态和奖励存储在优先经验重放缓冲区,用于训练dgqn模型,更新模型的参数以最大化预期累积奖励,减少数据的相关性;
17、对dgqn模型进行离线训练的过程中,dgqn的损失函数最小化当前选择动作的q值与目标q值之间的差距,目标q值由目标网络提供。
18、上述进一步方案的有益效果为:本专利技术的dgqn模型结合优先经验重放缓冲区,通过在一个较短时间内回放历史状态-动作对,使dgqn模型从最新的数据中快速学习,通过周期性地更新目标网络来提高dgqn模型在动态环境中的稳定性和适应性。
19、进一步地:所述dqn的损失函数l(θ)的表达式具体为:
20、
21、式中,θ为dgqn模型的所有参数,θ-为目标网络的所有参数,r为奖励函数计算的奖励,γ1为折扣因子,qtarget为目标q值,其由目标网络的所有参数θ-计算得到,为对状态s、动作a、奖励r、下一状态s′的期望值,s为当前时刻环境的状态,a为智能体在状态s下采取的动作,s′为智能体在状态s下执行动作a后,转移到的下一时刻状态,a′为在下一状态s′下所有可能动作的集合中的一个动作,maxa′为对于下一状态s′,从所有可能的动作a′中选择一个能够使目标q值qtarget(s′,a′;θ-)最大的动作,q(s,a;θ)为智能体在状态s下采取的动作a后的q值。
22、上述进一步方案的有益效果为:目标q值由目标网络提供,通过一个固定的延迟参数更新,避免网络振荡,通过最小化损失函数l(θ),模型不断优化其q值估计,使智能体能够在不同状态下选择最优动作。
23、进一步地:所述奖励函数计算的奖励r的表达式为:
24、r=(r1,r2,r3,r4)
25、式中,r1为延迟最小化奖励,r2为能耗惩罚,r3为负载均衡奖励,r4为带宽利用率奖励,其中,延迟最小化奖励r1的表达式具体为:
26、r1=-b1
27、式中,b1为延迟值;
28、能耗惩罚r2的表达式具体为:
29、r2=-α×b2
30、式中,b2为能耗值,α为能耗的重要性权重,用于平衡能耗与其他优化目标的相对优先级;
31、负载均衡奖励r3的表达式具体为:
32、
33、式中,b3为当前链路负载值,为平均负载,β为负载的重要性权重,用于防止网络中节点或链路过载;本文档来自技高网...
【技术保护点】
1.基于DQN模型的电力通信光网络路由优化方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于DQN模型的电力通信光网络路由优化方法,其特征在于,所述S1中,电力通信光网络路的状态空间包括网络拓扑状态、波长使用状态、链路质量状态和流量负载状态;
3.根据权利要求1所述的基于DQN模型的电力通信光网络路由优化方法,其特征在于,所述S2中,DGQN模型包括依次连接的输入层、图卷积网络层和输出层;
4.根据权利要求3所述的基于DQN模型的电力通信光网络路由优化方法,其特征在于,所述图卷积网络层提取电力通信光网络的状态信息的特征的方法具体为:
5.根据权利要求3所述的基于DQN模型的电力通信光网络路由优化方法,其特征在于,所述S2中,对DGQN模型进行离线训练的方法具体为:
6.根据权利要求5所述的基于DQN模型的电力通信光网络路由优化方法,其特征在于,所述DQN的损失函数L(θ)的表达式具体为:
7.根据权利要求6所述的基于DQN模型的电力通信光网络路由优化方法,其特征在于,所述奖励函数计算的奖励r的表达
8.根据权利要求1所述的基于DQN模型的电力通信光网络路由优化方法,其特征在于,所述S3中,通过在线学习机制更新模型参数的方法具体为:
9.根据权利要求1所述的基于DQN模型的电力通信光网络路由优化方法,其特征在于,所述S3中,在训练好的DGQN模型中设置容错机制,包括:
...【技术特征摘要】
1.基于dqn模型的电力通信光网络路由优化方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于dqn模型的电力通信光网络路由优化方法,其特征在于,所述s1中,电力通信光网络路的状态空间包括网络拓扑状态、波长使用状态、链路质量状态和流量负载状态;
3.根据权利要求1所述的基于dqn模型的电力通信光网络路由优化方法,其特征在于,所述s2中,dgqn模型包括依次连接的输入层、图卷积网络层和输出层;
4.根据权利要求3所述的基于dqn模型的电力通信光网络路由优化方法,其特征在于,所述图卷积网络层提取电力通信光网络的状态信息的特征的方法具体为:
5.根据权利要求3所述的基于dqn模型的电力通信光...
【专利技术属性】
技术研发人员:谢江,张晶,陈少磊,郭琳,谢群,唐龙,李茂平,何香橙,赵静,陈虹静,李博,孙雪冬,冯秀竹,魏天伟,陈柏杉,张欣,罗劲瑭,黎越,
申请(专利权)人:国网四川省电力公司宜宾供电公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。