LEO卫星网络中基于DQN的自适应链路状态更新方法及系统技术方案

技术编号:37383018 阅读:13 留言:0更新日期:2023-04-27 07:24
本发明专利技术公开一种LEO卫星网络中基于DQN的自适应链路状态更新方法及系统,每个卫星独立地根据当前链路状态变化情况自适应地进行链路状态信息分发决策。面向低轨卫星网络特点和动态路由需求,设计了分布式自适应链路状态更新机制;定义了信息偏差和信令开销表征链路状态信息更新的时效性和成本,并据此建模了同时最小化信息偏差和最小化信令开销的多目标优化问题,利用加权和方法将其转化为单目标优化问题;采用深度Q学习算法,让卫星通过与环境的交互不断学习和优化链路状态信息分发决策。本发明专利技术优化了链路状态更新策略,改善了系统的路由性能。由性能。

【技术实现步骤摘要】
LEO卫星网络中基于DQN的自适应链路状态更新方法及系统


[0001]本专利技术属于卫星通信中卫星路由
,具体涉及一种LEO卫星网络中基于DQN的自适应链路状态更新方法及系统。

技术介绍

[0002]近年来,随着低成本卫星平台和卫星通信技术的发展,低轨(low Earth orbit,LEO)卫星网络已经成为地面蜂窝网络的有力补充,并将在即将到来的6G通信系统中承担重要角色。由于卫星网络拓扑的高度动态性和业务负载的增加,动态路由被认为是大规模LEO卫星网络路由设计的主流方向。动态路由根据收集到的近实时的链路状态信息,如链路负载、流量状况等,计算路由表,链路状态更新直接影响路由的好坏,因此卫星链路状态更新方案的设计是大规模LEO卫星网络路由中的重要问题之一。
[0003]虽然关于LEO卫星路由设计和链路状态更新领域已经有许多研究,但是这些研究遵循所有卫星采取固定、统一的更新间隔进行链路状态信息分发的机制,存在以下问题。首先,链路状态更新间隔的设置没有被很好地设计,较大的链路状态更新周期会导致用于路由计算的链路状态与实际状态相差较大,从而影响路由表的准确性。不准确的路由会导致大量丢包,导致网络吞吐量下降,能量效率降低。相反,较小的更新间隔将大大增加更新频率,造成较大的信令开销和能量消耗,相应地也会导致能效性能不高。其次,针对LEO卫星网络的高动态特性,固定的链路状态更新间隔灵活性较差。最后,由于整个星座的流量分布不平衡,不同卫星和链路的负载变化不一致。有些卫星的链路状态变化剧烈,有些卫星的链路状态相对稳定。那么统一的更新间隔不可能做到对每个卫星都是最优设置。因此,有必要设计一种面向大规模LEO卫星网络路由的分布式自适应链路状态更新方法,各卫星根据当前实际链路状态情况,独立做出链路状态分发决策。

技术实现思路

[0004]为了解决现有技术中存在的问题,本专利技术提供一种大规模LEO卫星网络路由中基于DQN的分布式自适应链路状态更新方法,充分考虑大规模低轨卫星网络中卫星的异构性以及卫星链路状态的时变性,设计一种面向大规模LEO卫星网络的自适应分布式卫星链路状态信息更新方案,提高了系统路由性能。
[0005]为了实现上述目的,本专利技术采用的技术方案是:一种LEO卫星网络中基于DQN的自适应链路状态更新方法,包括以下步骤:
[0006]基于大规模LEO卫星网络特点和路由需求,设计大规模LEO卫星分布式自适应的链路状态更新机制;
[0007]基于所述更新机制,定义信息偏差和信令开销来表征链路状态信息更新的时效性和成本,构建同时最小化信息偏差和最小化信令开销的多目标优化问题,并利用加权和方法将多目标优化问题转化为单目标优化问题,要求每颗卫星进行链路状态信息分发决策,且最优决策实时变化;
[0008]将单个卫星的链路状态信息分发决策建模为马尔可夫决策过程,利用深度Q学习算法,卫星通过与环境的不断交互学习和优化链路状态信息分发决策。
[0009]所述大规模卫星网络考虑一个极轨道LEO卫星星座,共由N颗卫星组成,均匀分布在M个轨道平面上,卫星索引集合表示为每颗卫星建立四条星间链路,包括两条轨道内ISL和两条轨道间ISL;轨道内ISL的连接始终保持稳定,第一条轨道和最后一条轨道之间的缝隙称为“反向缝”,通过星间链路连接的两个卫星互称为邻居卫星,为每条ISL分配一个缓存队列,t时隙队列Q(i,j)的队列长度记为q
i,j,t
,动态的卫星网络利用虚拟拓扑策略建模为时间离散的快照序列,将时间分成T个时隙,每个时隙长度为τ
s
,时隙序列集合表示为网络拓扑每隔T
net
个时隙更新一次。
[0010]所述分布式自适应链路状态更新机制具体为:定义一个包括T
lsi
个时隙的决策间隔,每个卫星每隔T
lsi
个时隙进行自适应链路状态信息分发决策,如果卫星选择进行链路状态分发,则采用泛洪法将最新的链路状态向全网分发,如果选择不分发,则只需要等待是否收到其他卫星的链路状态信息,若收到,则进行路由计算,不是决策时隙时,所有卫星不分发。
[0011]将时隙t其他卫星掌握的队列Q(i,j)的队列长度表示为定义q
i,j,t
与之间的距离为信息偏差,即
[0012][0013]用链路状态数据包的数目表示路由信令开销,则卫星分发一次链路状态信息的信令开销表示为:
[0014][0015]其中,取决于具体的网络拓扑,第一项表示生成链路状态包的源卫星需要将状态包转发给所有四个邻居卫星,第二项表示其他的中继卫星需要向三个方向转发状态数据包,最后一项表示t时隙整个卫星网络断开的星间链路数目之和,表示t时隙卫星i断开的星间链路数目,则
[0016]以同时最小化信息偏差和最小化信令开销为目标,构建如下多目标优化问题:
[0017][0018][0019][0020]其中,优化变量为链路状态信息分发决策矩阵,综合考虑信息偏差和信令开销,利用加权和方法,将MOP转换为单目标优化问题,对ID和SO进行归一化,进而优化问题Q1可以转化为:
[0021][0022][0023]其中ID
max
和SO
max
分别表示ID和SO的最大值,ω和1

ω分别表示信息偏差和信令开销的权重因子。
[0024]将单个卫星的链路状态信息分发决策建模为马尔科夫决策过程,其状态、动作和奖励函数的设置具体为:
[0025]①
状态,在每个决策时隙(t=kT
lsi
,k∈Z
+
)开始时刻更新卫星i的状态,其状态表示为:
[0026][0027]其中v
i,j,t
表示上一个决策间隔内缓存队列长度的变化强度,计算如下:
[0028][0029]②
动作,智能体的任务是做出链路状态信息分发决策,将卫星i时隙t的动作记为:
[0030][0031]③
奖励,对应上述优化问题,以卫星在该决策间隔内的累计信息偏差和信令开销的加权和作为收益,奖励函数可以表示为:
[0032][0033]其中,neb(i)表示卫星i的邻居卫星集合,T
lsi
表示链路状态信息分发决策周期,Δ
i,j,m
表示时隙t队列Q(i,j)的信息偏差,L
buffer
表示缓存队列的最大长度,是Δ
i,j,m
可能出现的最大值,表示时隙t一个卫星分发一次链路状态信息产生的信令开销,表示的最大值,β1和β2分别表示信息偏差和信令开销的权重因子。
[0034]在标准马尔科夫决策过程的基础上,采用深度Q学习算法对优化问题进行求解,建立一个双网络结构,包括当前值网络Q(s,a;θ)和目标网络Q(s,a;θ

),,网络参数分别为θ和θ

,对于当前值网络,在每个决策时隙的开始,智能体以当前状态为输入本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种LEO卫星网络中基于DQN的自适应链路状态更新方法,其特征在于,包括以下步骤:基于大规模LEO卫星网络特点和路由需求,设计大规模LEO卫星分布式自适应的链路状态更新机制;基于所述更新机制,定义信息偏差和信令开销来表征链路状态信息更新的时效性和成本,构建同时最小化信息偏差和最小化信令开销的多目标优化问题,并利用加权和方法将多目标优化问题转化为单目标优化问题,要求每颗卫星进行链路状态信息分发决策,且最优决策实时变化;将单个卫星的链路状态信息分发决策建模为马尔可夫决策过程,利用深度Q学习算法,卫星通过与环境的不断交互学习和优化链路状态信息分发决策。2.根据权利要求1所述的LEO卫星网络中基于DQN的自适应链路状态更新方法,其特征在于,所述大规模卫星网络考虑一个极轨道LEO卫星星座,共由N颗卫星组成,均匀分布在M个轨道平面上,卫星索引集合表示为每颗卫星建立四条星间链路,包括两条轨道内ISL和两条轨道间ISL;轨道内ISL的连接始终保持稳定,第一条轨道和最后一条轨道之间的缝隙称为“反向缝”,通过星间链路连接的两个卫星互称为邻居卫星,为每条ISL分配一个缓存队列,t时隙队列Q(i,j)的队列长度记为q
i,j,t
,动态的卫星网络利用虚拟拓扑策略建模为时间离散的快照序列,将时间分成T个时隙,每个时隙长度为τ
s
,时隙序列集合表示为网络拓扑每隔T
net
个时隙更新一次。3.根据权利要求1所述的LEO卫星网络中基于DQN的自适应链路状态更新方法,其特征在于,所述分布式自适应链路状态更新机制具体为:定义一个包括T
lsi
个时隙的决策间隔,每个卫星每隔T
lsi
个时隙进行自适应链路状态信息分发决策,如果卫星选择进行链路状态分发,则采用泛洪法将最新的链路状态向全网分发,如果选择不分发,则只需要等待是否收到其他卫星的链路状态信息,若收到,则进行路由计算,不是决策时隙时,所有卫星不分发。4.根据权利要求1中所述的LEO卫星网络中基于DQN的自适应链路状态更新方法,其特征在于,将时隙t其他卫星掌握的队列Q(i,j)的队列长度表示为定义q
i,j,t
与之间的距离为信息偏差,即用链路状态数据包的数目表示路由信令开销,则卫星分发一次链路状态信息的信令开销表示为:其中,取决于具体的网络拓扑,第一项表示生成链路状态包的源卫星需要将状态包转发给所有四个邻居卫星,第二项表示其他的中继卫星需要向三个方向转发状态数据包,最后一项表示t时隙整个卫星网络断开的星间链路数目之和,表示t时隙卫星i断开的星间链路数目,则5.根据权利要求1所述的LEO卫星网络中基于DQN的自适应链路状态更新方法,其特征在于,以同时最小化信息偏差和最小化信令开销为目标,构建如下多目标优化问题:
其中,优化变量为链路状态信息分发决策矩阵,综合考虑信息偏差和信令开销,利用加权和方法,将MOP转换为单目标优化问题,对ID和SO进行归一化,进而优化问题Q1可以转化为:化,进而优化问题Q1可以转化为:其中ID
max
和SO
max
分别表示ID和SO的最大值,ω和1

ω分别表示信息偏差和信令开销的权重因子。6.根据权利要求5所述的LE...

【专利技术属性】
技术研发人员:王熠晨刘宏王弢刘昊天李沛萱王璋楠
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1