当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于地理位置的离线双Q学习路由方法技术

技术编号:38219144 阅读:9 留言:0更新日期:2023-07-25 11:30
本发明专利技术结合强化学习探索与双Q学习思想,公开了一种基于地理位置的离线双Q学习路由方法,包括如下步骤:信标交互与奖励表的计算,经验获取与Q值表的更新,邻居最大Q值的同步及路由决策。在强化学习算法中将数据包映射为智能体,智能体获取的奖励值综合考虑了链路质量、节点度、路由空洞与欧氏距离因素,通过合理的奖励与惩罚机制,智能体可以感知路由空洞并使数据包避免转发到空洞节点。通过双Q学习的方法避免了Q值过估计的问题,使Q值表更快地收敛到最优路径。本发明专利技术实现了在高动态网络环境中避免路由空洞,实时寻找全局最优的路由,有效提高了网络的服务质量,提高了数据包传递的成功率,降低了传输端到端时延。降低了传输端到端时延。降低了传输端到端时延。

【技术实现步骤摘要】
一种基于地理位置的离线双Q学习路由方法


[0001]本专利技术涉及无线自组织网络通信
,具体涉及一种基于地理位置信息辅助以及双Q学习算法(Geographical Routing based on Double Q

learning,DQGR)的路由协议,主要用于解决高动态无人机Ad hoc网络环境下的可靠路由选择问题。

技术介绍

[0002]作为移动自组织网络的子集之一,飞行自组网(Flying Ad hoc Network,FANET)是无人机集群以自组织形式构建的网络。区别于车载自组网等其他子集,FANET具有高动态网络拓扑、高节点移动性、链路易间断等特点,无人机业务通常对服务质量具有较高的需求,因此,需要设计针对性的路由协议以保障网络中数据传输的可靠性和有效性。
[0003]经典路由协议在不同场景具有不同的适用性,例如:主动式协议OLSR需要在数据传输之前建立网络中所有节点的路由信息,并随拓扑更改不断更新路由表,建立和维护路由所需的开销较大,适用于大规模密集静态场景。反应式协议AODV只有在有数据需要发送时才需建立并维护路由,节省了一定的资源,适用于具有一定动态变化且只有部分节点具有通信需求的自组网环境,但首次数据传输将开启路由发现流程,会造成较高的时延,在链路失效时路由修复流程也会影响网络通信的实时性。在高动态FANET场景中上述协议的适用性均会受到限制。
[0004]基于地理位置的路由协议GPSR(Greedy Perimeter Stateless Routing)是一种无状态协议,由位置信息辅助路由决策,路由不需要事先建立,利用贪婪转发和周边转发两种模式实时计算得出,适用于高动态的网络环境。无人机可借助GPS模块实现实时定位,获取位置信息,因此GPSR十分适合应用于FANET场景中。但GPSR的局限性在于贪婪转发模式会频繁地使数据包转发到路由空洞,将导致网络的整体性能下降,周边模式绕过空洞需要花费大量的跳数,大大增加了丢包率和时延。
[0005]强化学习算法描述了智能体与环境交互的过程中通过学习策略以获得最大化奖励的问题,通常被用于寻找实现特定目标的最优决策。为了进一步强化GPSR在FANET的适用性,解决路由空洞问题,本专利技术结合强化学习中的Q学习算法与双Q学习思想,提出了一种基于地理位置的离线双Q学习路由算法,通过奖惩机制在高动态网络环境中寻找全局最优路由,避免路由空洞。

技术实现思路

[0006]专利技术目的:
[0007]本专利技术的目的是针对高动态的无人机网络环境,提供一种可靠的路由方法,尽可能提高数据的传输成功率,降低端到端时延。本专利技术的技术方案思路为,在经典地理位置协议GPSR的基础上,结合强化学习中的Q学习算法与双Q学习思想,避免频繁出现的路由空洞效应。所提出的一种基于地理位置的离线双Q学习路由算法使用欧氏距离、链路质量、节点度等度量综合评估邻居节点的奖励值,通过Q学习的探索寻找实时全局最佳路由,并通过双
Q学习解决Q值的过估计问题,最终有效提高了网络性能与服务质量。
[0008]技术方案:
[0009]本专利技术的技术方案具体包含如下的步骤:
[0010]步骤一,将无人机Ad hoc网络环境建模为强化学习问题:强化学习任务通常用马尔科夫决策过程来描述,智能体处于环境E中,其状态空间为X,所能采取的动作集合为动作空间A,状态转移函数为P,智能体状态转移所获得的奖励为R。将自组网环境建模为强化学习问题,需要将马尔科夫过程四元组映射到网络环境中的具体对象,将整个网络视为环境时,只有数据包不断在各节点之间进行转发,因此,可以将节点正在转发的数据包视为一个智能体,其所处的节点为智能体的当前状态x,智能体采取的动作a代表选择下一跳的行为,当数据包转发到下一跳时,智能体状态发生转移并获得奖励,状态转移概率固定为1。由于智能体获得的奖励未知,动作空间取决于节点的邻居,并且网络环境是在不断变化的,四元组需要通过智能体与环境的交互观察得到,因此网络的强化学习任务可被归类为免模型学习,考虑采用异策略的Q学习算法得到最大化累积奖励,寻找最优路径。
[0011]步骤二,各表项的建立与算法初始化:每个节点需要维护两个Q值表,一个奖励表以及两个邻居最大Q值表。由于Ad hoc网络而言每个节点的运行和决策都是分布式的,节点只能掌握到其邻居节点状态转移的奖励值,而不能掌握整个网络的奖励信息,因此奖励表的设置如表1所示,包含了指向不同目的节点的数据包从当前节点转发到邻居节点所获得的奖励值。
[0012]表1.奖励表结构
[0013][0014]节点Q值表的设计与奖励表类似,每个节点只需要包含指向不同目的节点的智能体状态转移对应的Q值即可。
[0015]邻居最大Q值表包含节点的每个邻居选择任意下一个动作所能获得的最大Q值,如表2所示。
[0016]表2.邻居最大Q值表结构
[0017][0018]算法开始前,各节点将Q值表、奖励表、邻居最大Q值表初始化为0,在收到应用层数据包后,记录下目的节点的位置信息并在各表中插入该目的节点对应的表项,后续算法的流程包含所有目的节点对应表项的更新计算,期间要保证所有目的节点的位置信息可用,这些信息将在更新过程中被使用。
[0019]步骤三,奖励值的计算:选择合适的奖励与惩罚机制,可以使智能体在探索的过程中正确地累积最大化奖赏,学习到通往目的节点的最优路径。首先,路由是目的节点导向
的,所有一跳转发到目的节点的动作将获得最大的奖励值。其次,中继节点的奖励设置综合考虑了链路质量、节点度、路由空洞与欧氏距离因素,基于经典GPSR的贪婪转发模式,转发到更靠近目的节点的节点应获得奖励越大,因此欧氏距离度量对应的奖励值定义为:
[0020][0021]其中x
i
、x
n
、x
d
分别为当前节点、邻居节点与目的节点位置的横坐标,y、z方向同理,C
i
为当前节点的通信范围。邻居节点的位置信息与经典GPSR一样依赖于Hello消息包的交互。
[0022]节点度对应的奖励值定义为:
[0023]其中n为节点的邻居数,K为网络中各节点的节点平均度,N为网络中的总结点数。
[0024]链路质量对应的奖励值定义为节点对邻居发送成功率与接收成功率的乘积:
[0025]l
q
=p
t
×
p
r
[0026]其中,节点收发成功率的统计也依赖Hello包的交互,节点在不断在一个周期内统计接收到各邻居Hello包的个数,得出各链路的接收成功率并写入包头相应字段中,同时读取Hello包中邻居接收自身Hello包成功率的字段,即为发送成功率。
[0027]中继节点的奖励值定义为上述度量的加权值:
[0028]R
re
=σ1l
q
+σ2k
de
+σ3d
o
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于地理位置的离线双Q学习路由方法,其特征在于,将网络环境建模为强化学习问题,使用异策略Q学习方法对强化学习问题进行离线学习,寻找最优路由路径,在离线学习过程中,使用双Q学习方法更新Q值表。2.根据权利要求1所述的一种基于地理位置的离线双Q学习路由方法,其特征在于,强化学习问题的任务用马尔科夫决策过程来描述,将节点正在转发的数据包视为一个智能体,智能体所处的节点为智能体的当前状态,智能体采取的动作代表选择下一跳的行为,当数据包转发到下一跳时,智能体状态发生转移并获得奖励。3.根据权利要求2所述的一种基于地理位置的离线双Q学习路由方法,其特征在于,包括如下步骤:初始化各节点维护的奖励表R、两个Q值表Q
A
与Q
B
,两个邻居最大Q值表Q
nmaxA
和Q
nmaxB
;各节点通过Hello消息包交换实时位置信息,计算智能体将邻居作为下一跳转发所获得的奖励值;各节点产生智能体对环境进行探索,将智能体的当前状态、选择的动作、获得的奖励及下一状态作为马尔科夫决策过程的四元组;每次探索获取的四元组即为一条经验供当前节点的Q值表更新训练;各节点以固定频率抽取经验,随机选择Q
A
或Q
B
更新Q值表;从Q值表中获取下一状态的最大Q值,通过Hello消息包与邻居交互保持更新,为Q值表的训练提供依据。4.如权利要求3所述的一种基于地理位置的离线双Q学习路由算法,其特征在于,计算欧氏距离、链路质量、节点度,将上述信息加权得到智能体将邻居作为下一跳转发所获得的奖励值。5.如权利要求4所述的一种基于地理位置的离线双Q学习路由方法,其特征在于,节点度奖励为:其中n为节点的邻居数,K为网络中各节点的节点平均度,N为网络中的总结点数;链路质量为节点对邻居发送成功率p
t
与接收成功率p
r
的乘积:l
q
=p
t
×
p
r
欧氏距离度量奖励值为:其中x
i
、x
n
、x
d
分别为当前节点、邻居节点与目的节点位置的横坐标,y、z方向同理,C
i
为当前节点的通信范围;中继节点的加权奖励值为:R
re
=σ1l
q
+σ2k
de<...

【专利技术属性】
技术研发人员:冯熳陈不了
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1