一种基于Q‑Learning的卫星物联网路由策略,针对复杂环境下的卫星物联网路由问题,考虑卫星物联网拓扑结构、节点状态动态变化,将整个卫星物联网视作强化学习的环境,将卫星节点和地面节点视作智能体,首先,初始化卫星物联网参数;其次,每一个节点维护一张Q值表,根据卫星节点跳数,距离,方向以及缓冲区占用率,利用Q值更新公式,学习Q值表;最后,通过学习得到的Q值表,根据贪心选择策略,转发数据包。并且,考虑卫星节点跳数改进了奖励值,考虑卫星节点距离,方向以及缓冲区占用率改进了折扣因子,以此优化Q值,从而来实现卫星物联网高效路由的目的。因此,本卫星物联网路由策略在航空、航天及社会经济等领域中都有较好的转化应用前景。
【技术实现步骤摘要】
一种基于Q-Learning的卫星物联网路由策略
本专利技术属于计算机应用
,具体涉及一种基于Q-Learning的卫星物联网路由策略。
技术介绍
卫星物联网是将卫星与物联网相结合,不仅是利用卫星中继解决通信问题,而是在天地一体化信息网络架构下的一种泛在物联网体系,是地面物联网在全球立体空间层面的拓展,是多种信息技术融合而成的综合性应用服务平台。卫星物联网具有覆盖深度和广度大、应用服务类型多、系统健壮性强等优势,得到了研究者们的广泛关注。路由技术作为卫星物联网通信协议的核心,承担着数据传输的重任,决定着卫星物联网的整体性能。因此,路由技术的研究有着重要意义。与地面网络相比,卫星物联网具有以下特征:(1)卫星节点的高速移动使得拓扑结构高动态变化,不存在稳定的端到端路径;(2)卫星节点、卫星通信传感器节点能量受限,缺乏能量的连续供给,所以在设计的路由算法中要考虑能量的消耗;(3)节点数目多,数据量大,所以在设计的路由算法中要考虑数据包传输效率;(4)卫星节点距离遥远使得通信延迟高;(5)数据业务多,对时延要求较低,所以可以采用存储-携带-转发(store-carry-forward)的方式进行数据传输;(6)链路状态高动态变化,如地面人口密度的不均匀导致的需求不对称和流量动态变化使得卫星物联网中数据量具有高动态性,地球自转以及太阳黑子等因素的影响使得卫星物联网中时延具有高动态性等。这些限制使得地面网络的路由算法不适用在卫星物联网,并使得设计高效的路由算法具有很大的困难。
技术实现思路
本专利技术提出了基于Q-Learning的卫星物联网路由策略,将卫星物联网视作强化学习的环境,卫星物联网中的卫星作为卫星节点,传感器和数据中心作为地面节点,每一个节点能够相遇的节点作为邻居节点,并且卫星节点通过存储-携带-转发的方式转发数据包,能在复杂环境中实现高效路由,又能在投递率、平均时延和开销等方面有较好的效果。一种基于Q-Learning的卫星物联网路由策略,包括如下步骤:步骤1,初始化卫星物联网参数,设定Q-Learning算法中学习率和Q值,设定折扣因子定义中折扣因子调节系数的值,设定奖励值定义中卫星不同轨道面跳数的权重;步骤2,每一个卫星节点维护一张Q值表,根据卫星节点跳数,距离,方向以及缓冲区占用率,利用Q值更新公式,学习Q值表;步骤3,每一个卫星节点通过步骤2学习得到的Q值表,根据贪心选择策略,转发数据包。进一步地,所述步骤1中,设定Q-Learning算法中学习率α的值,α∈[0,1];设定Q值,将所有Q值初始化为0;设定折扣因子定义中折扣因子调节系数γ的值,γ∈[0,1];设定奖励值定义中卫星不同轨道面跳数的权重w1,w2,…,wi,…,wk的值,卫星轨道高度越高,wi(i∈[1,k])的设置也越大,且满足:w1+w2+…+wi+…+wk=1。进一步地,所述步骤2中,节点更新Q值表具体步骤如下:当前节点的拓扑结构变化以及转发数据包至邻居节点后,都会触发一次Q值更新;根据奖励值以及折扣因子使用更新公式进行Q值更新,奖励值考虑了卫星节点跳数,折扣因子考虑了卫星节点距离,跳数以及缓冲区占用率;当前节点c转发目的节点为d的数据包至邻居节点x的Q值更新公式如下:其中,Nx代表节点x的邻居节点集合;α是学习率,代表学习的速度,影响Q值更新的速度;Rc(d,x)和γc(d,x)分别代表节点c选择节点x转发目的节点为d的数据包的即时奖励值R值和折扣因子;Qx(d,y)是节点x转发数据包至节点y的Q值;当前节点c转发目的节点为d的数据包至邻居节点x的奖励值公式Rc(d,x)为:其中,Nd代表目的节点的邻居节点集合;h1,h2,…,hi,…,hk分别是数据包在卫星不同轨道面的跳数;w1,w2,…,wi,…,wk分别为卫星不同轨道面跳数的权重;当前节点c转发数据包至邻居节点x的折扣因子公式γc(d,x)为:γc(d,x)=γ×Dir_F(d,x)×Dis_F(d,x)×Buf_F(d,x)其中,γ是折扣因子调节系数,满足0<γ<1;Dir_F(d,x)是转发目的节点为d的数据包至邻居节点x的方向因子;Dis_F(d,x)是转发目的节点为d的数据包至邻居节点x的距离因子;Buf_F(d,x)是转发目的节点为d的数据包至邻居节点x的缓冲区因子;折扣因子γc(d,x)中的方向因子Dir_F(d,x)的公式表示为:其中,θ(d,x)是邻居节点x与目的节点d之间的夹角;折扣因子γc(d,x)中的距离因子Dis_F(d,x)的公式表示为:其中,D(d,x)是邻居节点x到目的节点d的距离,Dmax是整个网络中邻居节点x到其他节点的最大距离;折扣因子γc(d,x)中的缓冲区因子Buf_F(d,x)的公式表示为:其中,Bx是邻居节点x的缓冲区大小,S(x)是邻居节点x的缓冲区中当前所有数据包大小的累加和。进一步地,所述步骤3中,具体步骤如下:步骤3-1:当前节点接受到数据包;步骤3-2:若邻居节点中存在目的节点,则直接将数据包转发给目的节点,传输结束;否则转步骤4-3;步骤3-3:当前节点遍历邻居节点的Q值;步骤3-4:如果邻居节点的Q值大于当前节点的Q值,则根据贪心选择策略,即将数据包转发给Q值最大的节点,并更新Q值;否则存储等待,当遇到新的节点后,继续重复上述步骤。本专利技术达到的有益效果为:本专利技术提出一种基于Q-Learning的卫星物联网路由策略。针对复杂环境下的卫星物联网路由问题,考虑卫星物联网拓扑结构、节点状态动态变化,将整个卫星物联网视作强化学习的环境,将卫星节点和地面节点视作智能体。并且,考虑卫星节点跳数改进了奖励值,考虑卫星节点距离,方向以及缓冲区占用率改进了折扣因子,以此优化Q值,从而来实现卫星物联网高效路由的目的。因此,本卫星物联网路由策略在航空、航天及社会经济等领域中都有较好的转化应用前景。附图说明图1为本专利技术实施例中所述的路由处理流程示意图。具体实施方式下面结合说明书附图对本专利技术的技术方案做进一步的详细说明。本专利技术实施例的整体框架可参见图1,本专利技术提出了基于Q-Learning的卫星物联网路由策略,将卫星物联网视作强化学习的环境,卫星物联网中的卫星作为卫星节点,传感器和数据中心作为地面节点,每一个节点能够相遇的节点作为邻居节点,并且卫星节点通过存储-携带-转发的方式转发数据包,能在复杂环境中实现高效路由,又能在投递率、平均时延和开销等方面有较好的效果。本专利技术实施例具体步骤为:步骤1:初始化卫星物联网参数。需要初始化的参数有:设定Q-Learning算法中学习率α的值,其中α∈[0,1];设定Q值,将所有Q值初始化为0;设定折扣因子定义中折扣因子调节系数γ的值,其中γ∈[0,1];设定奖励值定义中卫星不同轨道面跳数的权重w1,本文档来自技高网...
【技术保护点】
1.一种基于Q-Learning的卫星物联网路由策略,其特征在于:/n所述方法包括如下步骤:/n步骤1,初始化卫星物联网参数,设定Q-Learning算法中学习率和Q值,设定折扣因子定义中折扣因子调节系数的值,设定奖励值定义中卫星不同轨道面跳数的权重;/n步骤2,每一个卫星节点维护一张Q值表,根据卫星节点跳数,距离,方向以及缓冲区占用率,利用Q值更新公式,学习Q值表;/n步骤3,每一个卫星节点通过步骤2学习得到的Q值表,根据贪心选择策略,转发数据包。/n
【技术特征摘要】
1.一种基于Q-Learning的卫星物联网路由策略,其特征在于:
所述方法包括如下步骤:
步骤1,初始化卫星物联网参数,设定Q-Learning算法中学习率和Q值,设定折扣因子定义中折扣因子调节系数的值,设定奖励值定义中卫星不同轨道面跳数的权重;
步骤2,每一个卫星节点维护一张Q值表,根据卫星节点跳数,距离,方向以及缓冲区占用率,利用Q值更新公式,学习Q值表;
步骤3,每一个卫星节点通过步骤2学习得到的Q值表,根据贪心选择策略,转发数据包。
2.根据权利要求书1所述的一种基于Q-Learning的卫星物联网路由策略,其特征在于:所述步骤1中,设定Q-Learning算法中学习率α的值,α∈[0,1];设定Q值,将所有Q值初始化为0;设定折扣因子定义中折扣因子调节系数γ的值,γ∈[0,1];设定奖励值定义中卫星不同轨道面跳数的权重w1,w2,…,wi,…,wk的值,卫星轨道高度越高,wi(i∈[1,k])的设置也越大,且满足:w1+w2+…+wi+…+wk=1。
3.根据权利要求书1所述的一种基于Q-Learning的卫星物联网路由策略,其特征在于:所述步骤2中,节点更新Q值表具体步骤如下:
当前节点的拓扑结构变化以及转发数据包至邻居节点后,都会触发一次Q值更新;根据奖励值以及折扣因子使用更新公式进行Q值更新,奖励值考虑了卫星节点跳数,折扣因子考虑了卫星节点距离,跳数以及缓冲区占用率;当前节点c转发目的节点为d的数据包至邻居节点x的Q值更新公式如下:
其中,Nx代表节点x的邻居节点集合;α是学习率,代表学习的速度,影响Q值更新的速度;Rc(d,x)和γc(d,x)分别代表节点c选择节点x转发目的节点为d的数据包的即时奖励值R值和折扣因子;Qx(d,y)是节点x转发数据包至节点y的Q值;
当前节点c转发目的节点为d的数据包至邻居节点x的奖励值公式Rc(d,x)为:
<...
【专利技术属性】
技术研发人员:孙力娟,龚啸天,周剑,王娟,韩崇,肖甫,
申请(专利权)人:南京邮电大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。