【技术实现步骤摘要】
一种基于Double DQN的水声网络MAC协议
[0001]本专利技术涉及水声通信
,具体涉及一种基于
Double DQN
的水声网络
MAC
协议
。
技术介绍
[0002]水声网络
(UWANs)
是水下通信研究的重要课题,在水下勘探
、
水下石油开采
、
战术监控
、
污染监测
、
海啸预警
、
辅助导航
、
生态监控等方面有着广泛的用途
。
由于水下环境的限制,水声通信有着比陆地无线通信更多的限制,例如水声时延长
、
多径效应严重
、
带宽窄以及能量有限等
。
为了构建一个吞吐量高
、
低时延和低能耗的水声通信网络,采用合理的媒体接入控制协议无疑是提高网络通信性能的有效途径
。
[0003]在实际的
UWANs
中,水下的环境信息通常是未知的,并且水下环境中节点间的传播时延和传输调度也可能会发生变化,为了解决上述问题,
X.Ye
等人提出一种基于深度
Q
网络
(Deep Q Network,DQN)
的水声网络
MAC
协议
(
详见
X.Ye,Y.Yu and L.Fu,"Deep Reinforcement Learning Based MAC P
【技术保护点】
【技术特征摘要】
1.
一种基于
Double DQN
的水声网络
MAC
协议,其特征在于,包括以下步骤:
S1、
初始化水声网络;通过主节点广播一个数据包,各个从节点计算自身到主节点的传播时隙数;
S2、
初始化
DDQN
‑
MAC
节点,将
Double DQN
算法的智能体
、
动作
、
状态和奖励设置在
DDQN
‑
MAC
节点的
MAC
协议中,并初始化
DDQN
‑
MAC
节点的经验池;
S3、
指定一个
DDQN
‑
MAC
节点为网关,网关将初始化状态输入至
Double DQN
主网络得到
Q
值,然后利用
Q
值通过
ε
‑
greedy
算法选择发送或等待的动作,若网关选择的动作是发送,网关将以轮询的方式选择其中一个空闲的
DDQN
‑
MAC
节点向主节点发送数据包,否则全部
DDQN
‑
MAC
节点保持等待状态;
S4、
主节点成功收到数据包后,广播一个
ACK
信令,表示主节点成功接收数据包,若主节点没有广播
ACK
信令则表示步骤
S3
中发送的数据包在主节点处发生碰撞;
S5、
网关获取观测信息
(
即发送数据包的
DDQN
‑
MAC
节点是否接收到
ACK
信令
)
,计算奖励并生成下一状态,所述状态由时延
‑
动作
‑
观测组构成,将时序经验存储到经验池中,然后通过训练
Double DQN
算法不断更新
Q
值,得到
DDQN
‑
MAC
节点在不同状态下的最优发送策略;
S6、
网关根据步骤
S5
中得到的最优发送策略以轮询的方式选择
DDQN
‑
MAC
节点,被选择的
DDQN
‑
MAC
节点向主节点发送数据包;
S7、
执行保护训练机制更新网络,以使平均奖励达到稳态,进而优化网络吞吐量
。2.
根据权利要求1所述的一种基于
Double DQN
的水声网络
MAC
协议,其特征在于,步骤
S1
中,水声网络初始化的过程如下:
S1.1、
设置时隙格式:设定不同节点的数据包具有相同的包长度,从主节点到任意从节点的
ACK
信令也具有相同的包长度,每个时隙可以分为两部分:第一部分为发送数据包的时间,第二部分为发送
ACK
信令的时间;一个节点的
MAC
决策若是
‘
传输数据
’
,则向主节点发送一个数据包,主节点收到后广播一个
ACK
信令,并等待来自所有节点的数据包;设定主节点在每个时隙的前半部分只能成功接收一个数据包,即如果多个数据包在同一时隙到达主节点,就会发生数据包冲突;对于传统
TDMA
协议,它的每个时隙包括传输时长和保护间隔两个部分,其中保护间隔大于网络的最大传输延时,因此
TDMA
协议的传输时长设置为上述的一个时隙,保护间隔可划分为多个时隙;从节点
i
计算自身到主节点的传播时隙数
D
i
,
i∈{1,2,
…
,N}
,
N
表示从节点的总数,具体如下:其中,
d
i
是从节点
i
到主节点的距离,
c
是水下声速,
δ
是系统中一个时隙的时间单位,是大于
x
的最小整数;因此,
D
i
的物理意义是从节点
i
向主节点发送数据包或主节点向从节点
i
发送
ACK
信令所需要的时隙数;
S1.2、
配置
DDQN
‑
MAC
节点和
TDMA
节点:
TDMA
节点只能在指定的时隙传输数据包;令
D
1u
和
D
2j
分别表示
DDQN
‑
MAC
节点和
TDMA
节点到主节点的传播时隙数,其中,
u
=
1,2,
…
,M1,j
=
1,2,
…
M2,M1和
M2分别为
DDQN
‑
MAC
节点和
TDMA
节点的节点数;当
TDMA
节点
j
在时隙
t
发送一个数据包,该数据包将在时隙
t+D
2j
到达主节点,如果
DDQN
‑
MAC
节点
u
在时隙
t+D
2j
‑
D
1u
发送数据
包,则两节点会在主节点处发生碰撞;因此,为了最大化总网络吞吐量,
DDQN
‑
MAC
节点的最优传输策略是在数据包碰撞发生时隙之外的所有时隙进行传输
。3.
根据权利要求2所述的一种基于
Double DQN
的水声网络
MAC
协议,其特征在于,当水声网络中多个
DDQN
‑
MAC
节点与多个
TDMA
节点共存时,多个
DDQN
‑
MAC
节点相互感知,相互协作在每个时隙内做出动作;
DDQN
‑
MAC
节点之间的协作方式是集中式的,具体如下:水声网络中的一个
DDQN
‑
MAC
节点被指定为网关,网关与所有其他
DDQN
‑
MAC
节点相关联;网关与其他节点之间的协调信息通过控制信道发送;网关将以轮询的方式选择其中一个
DDQN
‑
MAC
节点进行传输;因此,
DDQN
‑
MAC
节点最优策略是充分利用
TDMA
节点不使用的空闲时隙发送数据,以使网络吞吐量达到最优;其中,轮询的方式是基于请求
‑
应答的协议,网关通过控制信道向每个
DDQN
‑
MAC
节点依次发送信令;
DDQN
‑
MAC
节点接收到信令后,检查自身是否空闲,如果空闲,则向网关发送应答,然后向主节点发送数据包;网关接收到节点的应答后,根据应答判断节点是否空闲,如果节点空闲,则结束轮询,否则继续向下一个节点发送信令;请求信令和应答通知通过控制信道发送,控制信道是在
ACK
信令之后的一个短时时隙
。4.
根据权利要求1所述的一种基于
Double DQN
的水声网络
MAC
协议,其特征在于,步骤
S2
中,智能体
、
动作
、
状态以及奖励的设置如下:智能体:网络中的
DDQN
‑
MAC
节点被设置为深度强化学习算法
Double DQN
中的智能体;动作:在每个时隙
t
,
DDQN
‑
MAC
节点从动作集合为
U
=
{Transmit,Wait}
选择一个动作
a
t
∈U
;状态:在传统
Double DQN
算法的基础上引入了水下时延特征,根据当前节点传播时隙数的变化量
、
动作和相应的观测来定义系统的状态,
DDQN
‑
MAC
节点在时隙
t
和对应状态
s
t
下,执行动作
a
t
后,会接收到观测值
o
t
,并将传播时隙数的变化量
Δ
D、
动作
a
t
‑
2D
和
o
t
...
【专利技术属性】
技术研发人员:张军,田锟,宁更新,冯义志,余华,陈芳炯,温淼文,季飞,
申请(专利权)人:华南理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。