一种基于Q-Learning的卫星物联网路由策略制造技术

技术编号：25922195 阅读：224 留言：0更新日期：2020-10-13 10:42

一种基于Q‑Learning的卫星物联网路由策略，针对复杂环境下的卫星物联网路由问题，考虑卫星物联网拓扑结构、节点状态动态变化，将整个卫星物联网视作强化学习的环境，将卫星节点和地面节点视作智能体，首先，初始化卫星物联网参数；其次，每一个节点维护一张Q值表，根据卫星节点跳数，距离，方向以及缓冲区占用率，利用Q值更新公式，学习Q值表；最后，通过学习得到的Q值表，根据贪心选择策略，转发数据包。并且，考虑卫星节点跳数改进了奖励值，考虑卫星节点距离,方向以及缓冲区占用率改进了折扣因子，以此优化Q值，从而来实现卫星物联网高效路由的目的。因此，本卫星物联网路由策略在航空、航天及社会经济等领域中都有较好的转化应用前景。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Q-Learning的卫星物联网路由策略
本专利技术属于计算机应用
，具体涉及一种基于Q-Learning的卫星物联网路由策略。
技术介绍
卫星物联网是将卫星与物联网相结合，不仅是利用卫星中继解决通信问题，而是在天地一体化信息网络架构下的一种泛在物联网体系，是地面物联网在全球立体空间层面的拓展，是多种信息技术融合而成的综合性应用服务平台。卫星物联网具有覆盖深度和广度大、应用服务类型多、系统健壮性强等优势，得到了研究者们的广泛关注。路由技术作为卫星物联网通信协议的核心，承担着数据传输的重任，决定着卫星物联网的整体性能。因此，路由技术的研究有着重要意义。与地面网络相比，卫星物联网具有以下特征：(1)卫星节点的高速移动使得拓扑结构高动态变化，不存在稳定的端到端路径；(2)卫星节点、卫星通信传感器节点能量受限，缺乏能量的连续供给，所以在设计的路由算法中要考虑能量的消耗；(3)节点数目多，数据量大，所以在设计的路由算法中要考虑数据包传输效率；(4)卫星节点距离遥远使得通信延迟高；(5)数据业务多，对时延要求较低，所以可以采用存储-携带-转发(store-carry-forward)的方式进行数据传输；(6)链路状态高动态变化，如地面人口密度的不均匀导致的需求不对称和流量动态变化使得卫星物联网中数据量具有高动态性，地球自转以及太阳黑子等因素的影响使得卫星物联网中时延具有高动态性等。这些限制使得地面网络的路由算法不适用在卫星物联网，并使得设计高效的路由算法具有很大的困难。
技术实现思路
本...

【技术保护点】
1.一种基于Q-Learning的卫星物联网路由策略，其特征在于：/n所述方法包括如下步骤：/n步骤1，初始化卫星物联网参数，设定Q-Learning算法中学习率和Q值，设定折扣因子定义中折扣因子调节系数的值，设定奖励值定义中卫星不同轨道面跳数的权重；/n步骤2，每一个卫星节点维护一张Q值表，根据卫星节点跳数，距离，方向以及缓冲区占用率，利用Q值更新公式，学习Q值表；/n步骤3，每一个卫星节点通过步骤2学习得到的Q值表，根据贪心选择策略，转发数据包。/n

【技术特征摘要】
1.一种基于Q-Learning的卫星物联网路由策略，其特征在于：
所述方法包括如下步骤：
步骤1，初始化卫星物联网参数，设定Q-Learning算法中学习率和Q值，设定折扣因子定义中折扣因子调节系数的值，设定奖励值定义中卫星不同轨道面跳数的权重；
步骤2，每一个卫星节点维护一张Q值表，根据卫星节点跳数，距离，方向以及缓冲区占用率，利用Q值更新公式，学习Q值表；
步骤3，每一个卫星节点通过步骤2学习得到的Q值表，根据贪心选择策略，转发数据包。

2.根据权利要求书1所述的一种基于Q-Learning的卫星物联网路由策略，其特征在于：所述步骤1中，设定Q-Learning算法中学习率α的值，α∈[0,1]；设定Q值，将所有Q值初始化为0；设定折扣因子定义中折扣因子调节系数γ的值，γ∈[0,1]；设定奖励值定义中卫星不同轨道面跳数的权重w1,w2,…,wi,…,wk的值，卫星轨道高度越高，wi(i∈[1,k])的设置也越大，且满足：w1+w2+…+wi+…+wk＝1。

3.根据权利要求书1所述的一种基于Q-Learning的卫星物联网路由策略，其特征在于：所述步骤2中，节点更新Q值表具体步骤如下：
当前节点的拓扑结构变化以及转发数据包至邻居节点后，都会触发一次Q值更新；根据奖励值以及折扣因子使用更新公式进行Q值更新，奖励值考虑了卫星节点跳数，折扣因子考虑了卫星节点距离，跳数以及缓冲区占用率；当前节点c转发目的节点为d的数据包至邻居节点x的Q值更新公式如下：

其中，Nx代表节点x的邻居节点集合；α是学习率，代表学习的速度，影响Q值更新的速度；Rc(d,x)和γc(d,x)分别代表节点c选择节点x转发目的节点为d的数据包的即时奖励值R值和折扣因子；Qx(d,y)是节点x转发数据包至节点y的Q值；
当前节点c转发目的节点为d的数据包至邻居节点x的奖励值公式Rc(d,x)为：
<...

【专利技术属性】
技术研发人员：孙力娟，龚啸天，周剑，王娟，韩崇，肖甫，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人