一种基于DoubleDQN的水声网络MAC协议制造技术

技术编号:39395056 阅读:29 留言:0更新日期:2023-11-19 15:50
本发明专利技术公开了一种基于Double DQN的水声网络MAC协议。与现有技术相比,本发明专利技术采用深度强化学习算法Double DQN的思想,利用Double DQN主网络选择动作,目标网络计算Q值,降低了DQN算法对Q值的过高估计;重新定义Double DQN算法中系统的状态,引入时延特征,使其能够更好地适应水下节点通信;采用中心化处理模块,优化了网络结构,提升了算法收敛速度。提升了算法收敛速度。提升了算法收敛速度。

【技术实现步骤摘要】
一种基于Double DQN的水声网络MAC协议


[0001]本专利技术涉及水声通信
,具体涉及一种基于
Double DQN
的水声网络
MAC
协议


技术介绍

[0002]水声网络
(UWANs)
是水下通信研究的重要课题,在水下勘探

水下石油开采

战术监控

污染监测

海啸预警

辅助导航

生态监控等方面有着广泛的用途

由于水下环境的限制,水声通信有着比陆地无线通信更多的限制,例如水声时延长

多径效应严重

带宽窄以及能量有限等

为了构建一个吞吐量高

低时延和低能耗的水声通信网络,采用合理的媒体接入控制协议无疑是提高网络通信性能的有效途径

[0003]在实际的
UWANs
中,水下的环境信息通常是未知的,并且水下环境中节点间的传播时延和传输调度也可能会发生变化,为了解决上述问题,
X.Ye
等人提出一种基于深度
Q
网络
(Deep Q Network,DQN)
的水声网络
MAC
协议
(
详见
X.Ye,Y.Yu and L.Fu,"Deep Reinforcement Learning Based MAC Protocol for Underwater Acoustic Networks,"in IEEE Transactions on Mobile Computing,vol.21,no.5,pp.1625

1638,1May 2022.)
,它能够在不知道其他节点的传播时延和传输策略的情况下与其他传统协议
(

TDMA
协议或
ALOHA
协议
)
共存,并通过
DQN
算法找到较优的传输策略,来提高网络吞吐量

其中,基于深度强化学习的水声网络
MAC
协议与
TDMA
协议共存最为常用

[0004]为了使
DQN
算法适应水下环境的高时延,
X.Ye
等人提出了延迟奖励机制,即智能体在每个时间步都采取行动,而不考虑是否收到上一时间步的奖励,在执行新的动作之前不需要浪费时间等待奖励

但是上述算法存在两个问题,一是不能适应时延的变化,由于水声通信的时延存在着较大的波动,而上述延迟奖励机制仅仅在奖励的获取上考虑到了时延,并没有考虑到智能体从当前状态进入到下一状态的过程中时延可能会发生变化,即系统状态中的时延特征并未考虑,因此无法很好地捕捉水下时延的波动;二是
DQN
算法对
Q
值的过高估计,其中过高估计是指算法在估计某个状态

动作值函数时,高估了它的值,导致算法在实际环境中采取错误的决策

[0005]传统的深度强化学习算法
Double DQN
能在一定程度上降低过高估计的误差,但是没有考虑到水下的时延,因此也无法很好地适应水下节点通信


技术实现思路

[0006]本专利技术的目的是针对现有基于深度强化学习的水声网络
MAC
协议的不足,提供一种基于
Double DQN
的水声网络
MAC
协议
(

DDQN

MAC)。
该协议针对目前水声网络
MAC
协议中
DQN
算法存在的
Q
值过高估计以及难以适应水下时延变化的问题,在
Double DQN
算法中引入了水下时延特征,重新定义了系统状态,使得
DDQN

MAC
协议适应水下时延波动影响的同时,还能在一定程度上降低过高估计的误差,进一步提升算法收敛速度

本专利技术可以广泛应用于海洋生物多样性观测

浅海信息采集

湖泊水下环境监测等场合

[0007]本专利技术提供的
DDQN

MAC
协议适用于集中式网络,所述集中式网络由一个主节点即接入点和
N
个从节点组成,从节点可以分为两类:一类运行
TDMA
协议,称为
TDMA
节点,它们按照主节点分配的特定时隙发送数据包;另一类运行
DDQN

MAC
协议,称为
DDQN

MAC
节点,它们利用
TDMA
节点不使用的空闲时隙来发送数据包;
[0008]本专利技术的目的至少通过如下技术方案之一实现

[0009]一种基于
Double DQN
的水声网络
MAC
协议,包括以下步骤:
[0010]S1、
初始化水声网络;通过主节点广播一个数据包,各个从节点计算自身到主节点的传播时隙数;
[0011]S2、
初始化
DDQN

MAC
节点,将
Double DQN
算法的智能体

动作

状态和奖励设置在
DDQN

MAC
节点的
MAC
协议中,并初始化
DDQN

MAC
节点的经验池;
[0012]S3、
指定一个
DDQN

MAC
节点为网关,网关将初始化状态输入至
Double DQN
主网络得到
Q
值,然后利用
Q
值通过
ε

greedy
算法选择发送或等待的动作,若网关选择的动作是发送,网关将以轮询的方式选择其中一个空闲的
DDQN

MAC
节点向主节点发送数据包,否则全部
DDQN

MAC
节点保持等待状态;
[0013]S4、
主节点成功收到数据包后,广播一个
ACK
信令,表示主节点成功接收数据包,若主节点没有广播
ACK
信令则表示步骤
S3
中发送的数据包在主节点处发生碰撞;
[0014]S5、
网关获取观测信息
(
即发送数据包的
DDQN

MAC
...

【技术保护点】

【技术特征摘要】
1.
一种基于
Double DQN
的水声网络
MAC
协议,其特征在于,包括以下步骤:
S1、
初始化水声网络;通过主节点广播一个数据包,各个从节点计算自身到主节点的传播时隙数;
S2、
初始化
DDQN

MAC
节点,将
Double DQN
算法的智能体

动作

状态和奖励设置在
DDQN

MAC
节点的
MAC
协议中,并初始化
DDQN

MAC
节点的经验池;
S3、
指定一个
DDQN

MAC
节点为网关,网关将初始化状态输入至
Double DQN
主网络得到
Q
值,然后利用
Q
值通过
ε

greedy
算法选择发送或等待的动作,若网关选择的动作是发送,网关将以轮询的方式选择其中一个空闲的
DDQN

MAC
节点向主节点发送数据包,否则全部
DDQN

MAC
节点保持等待状态;
S4、
主节点成功收到数据包后,广播一个
ACK
信令,表示主节点成功接收数据包,若主节点没有广播
ACK
信令则表示步骤
S3
中发送的数据包在主节点处发生碰撞;
S5、
网关获取观测信息
(
即发送数据包的
DDQN

MAC
节点是否接收到
ACK
信令
)
,计算奖励并生成下一状态,所述状态由时延

动作

观测组构成,将时序经验存储到经验池中,然后通过训练
Double DQN
算法不断更新
Q
值,得到
DDQN

MAC
节点在不同状态下的最优发送策略;
S6、
网关根据步骤
S5
中得到的最优发送策略以轮询的方式选择
DDQN

MAC
节点,被选择的
DDQN

MAC
节点向主节点发送数据包;
S7、
执行保护训练机制更新网络,以使平均奖励达到稳态,进而优化网络吞吐量
。2.
根据权利要求1所述的一种基于
Double DQN
的水声网络
MAC
协议,其特征在于,步骤
S1
中,水声网络初始化的过程如下:
S1.1、
设置时隙格式:设定不同节点的数据包具有相同的包长度,从主节点到任意从节点的
ACK
信令也具有相同的包长度,每个时隙可以分为两部分:第一部分为发送数据包的时间,第二部分为发送
ACK
信令的时间;一个节点的
MAC
决策若是

传输数据

,则向主节点发送一个数据包,主节点收到后广播一个
ACK
信令,并等待来自所有节点的数据包;设定主节点在每个时隙的前半部分只能成功接收一个数据包,即如果多个数据包在同一时隙到达主节点,就会发生数据包冲突;对于传统
TDMA
协议,它的每个时隙包括传输时长和保护间隔两个部分,其中保护间隔大于网络的最大传输延时,因此
TDMA
协议的传输时长设置为上述的一个时隙,保护间隔可划分为多个时隙;从节点
i
计算自身到主节点的传播时隙数
D
i

i∈{1,2,

,N}

N
表示从节点的总数,具体如下:其中,
d
i
是从节点
i
到主节点的距离,
c
是水下声速,
δ
是系统中一个时隙的时间单位,是大于
x
的最小整数;因此,
D
i
的物理意义是从节点
i
向主节点发送数据包或主节点向从节点
i
发送
ACK
信令所需要的时隙数;
S1.2、
配置
DDQN

MAC
节点和
TDMA
节点:
TDMA
节点只能在指定的时隙传输数据包;令
D
1u

D
2j
分别表示
DDQN

MAC
节点和
TDMA
节点到主节点的传播时隙数,其中,
u

1,2,

,M1,j

1,2,

M2,M1和
M2分别为
DDQN

MAC
节点和
TDMA
节点的节点数;当
TDMA
节点
j
在时隙
t
发送一个数据包,该数据包将在时隙
t+D
2j
到达主节点,如果
DDQN

MAC
节点
u
在时隙
t+D
2j

D
1u
发送数据
包,则两节点会在主节点处发生碰撞;因此,为了最大化总网络吞吐量,
DDQN

MAC
节点的最优传输策略是在数据包碰撞发生时隙之外的所有时隙进行传输
。3.
根据权利要求2所述的一种基于
Double DQN
的水声网络
MAC
协议,其特征在于,当水声网络中多个
DDQN

MAC
节点与多个
TDMA
节点共存时,多个
DDQN

MAC
节点相互感知,相互协作在每个时隙内做出动作;
DDQN

MAC
节点之间的协作方式是集中式的,具体如下:水声网络中的一个
DDQN

MAC
节点被指定为网关,网关与所有其他
DDQN

MAC
节点相关联;网关与其他节点之间的协调信息通过控制信道发送;网关将以轮询的方式选择其中一个
DDQN

MAC
节点进行传输;因此,
DDQN

MAC
节点最优策略是充分利用
TDMA
节点不使用的空闲时隙发送数据,以使网络吞吐量达到最优;其中,轮询的方式是基于请求

应答的协议,网关通过控制信道向每个
DDQN

MAC
节点依次发送信令;
DDQN

MAC
节点接收到信令后,检查自身是否空闲,如果空闲,则向网关发送应答,然后向主节点发送数据包;网关接收到节点的应答后,根据应答判断节点是否空闲,如果节点空闲,则结束轮询,否则继续向下一个节点发送信令;请求信令和应答通知通过控制信道发送,控制信道是在
ACK
信令之后的一个短时时隙
。4.
根据权利要求1所述的一种基于
Double DQN
的水声网络
MAC
协议,其特征在于,步骤
S2
中,智能体

动作

状态以及奖励的设置如下:智能体:网络中的
DDQN

MAC
节点被设置为深度强化学习算法
Double DQN
中的智能体;动作:在每个时隙
t

DDQN

MAC
节点从动作集合为
U

{Transmit,Wait}
选择一个动作
a
t
∈U
;状态:在传统
Double DQN
算法的基础上引入了水下时延特征,根据当前节点传播时隙数的变化量

动作和相应的观测来定义系统的状态,
DDQN

MAC
节点在时隙
t
和对应状态
s
t
下,执行动作
a
t
后,会接收到观测值
o
t
,并将传播时隙数的变化量
Δ
D、
动作
a
t

2D

o
t
...

【专利技术属性】
技术研发人员:张军田锟宁更新冯义志余华陈芳炯温淼文季飞
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1