一种基于强化学习的分布式WSN节点智能调度方法技术

技术编号:38494363 阅读:9 留言:0更新日期:2023-08-15 17:05
本发明专利技术公开一种基于强化学习的分布式WSN节点智能调度方法,允许传感器节点根据所处环境信息自主在可选的激活、睡眠和休眠等模式中采取适当的行动决策,从而使随机部署的传感器节点达到预定的网络覆盖率并且确保传感器节点之间至少有一条通信路径。由于每个传感器节点均有自主学习能力,不需要通过控制中心发送显式的通告信息,只需通过Q学习算法自主学习最佳工作模式,即可使无线传感网以较低能耗确保预设覆盖率并维持活动节点之间的通信连接,从而有效节省了WSN稀缺的资源,延长了网络工作时间。作时间。作时间。

【技术实现步骤摘要】
一种基于强化学习的分布式WSN节点智能调度方法


[0001]本专利技术涉及一种基于强化学习的分布式WSN节点智能调度方法,属于无线传感网


技术介绍

[0002]作为物联网和智慧社会的关键支撑技术之一,无线传感网(Wireless Sensor Network,WSN)已得到广泛部署和应用。一般来说,无线传感网中能量高效的网络覆盖连通算法的主要目标是以最小的能耗(最少活跃的传感器节点数量)有效监测期望的目标区域,并将感知数据可靠传送到基站。为实现这一目标,现有研究工作主要提出了两种解决方案:优化节点部署(如参考文献[1

2])和节点调度机制(如参考文献[3

4])。优化节点部署是指合理部署目标监视区域中传感器节点的数量和位置。在节点部署过程中通常假设传感器节点是静态不移动的,因而由静态传感器节点构成的WSN不能灵活适应由于传感器节点故障导致的拓扑结构变化。节点调度机制允许节点根据所处网络环境主动选择自身的工作模式,即活动、休眠和睡眠等,以便在每轮调度中使活动的节点构成适当的网络覆盖和连通集,目标是以最小数量的传感器节点提供满足要求的网络覆盖度和连通性。
[0003]由于传感器节点通常是微小的、资源受限的设备,其内存和电池电量非常有限,现有的网络覆盖协议大都会考虑能耗指标,并且少数覆盖协议还考虑了网络连通性指标。传感器节点在感知、计算和通信等方面消耗的能量对WSN的寿命有直接影响。然而,研究发现节点随机部署、网络覆盖冗余、数据冗余传输和空闲信号监听是造成不必要能量消耗的主要原因。当前,解决上述问题的一种常用技术方案是采用合理的节点调度机制,即合理调度节点的工作状态(模式),使得部分节点处于活跃(工作)状态而其余节点处于睡眠或休眠模式,同时确保覆盖率达到阈值水平并维护节点之间的连通性。迄今,很多学者针对此问题进行了深入的研究。例如,Mini S等人[如参考文献4]提出了一种针对目标覆盖的覆盖冗余解决方案,并将覆盖问题表述为可调整范围的集合覆盖(AR

SC)问题。同时,其他一些学者在设计能量高效的无线传感器网络时,考虑引入人工智能和数据挖掘等技术手段来增强WSN在计算、学习和推理等方面的能力,并就如何在无线传感网中利用强化学习算法做了许多积极尝试。Chen H等人[如参考文献5]基于强化学习方法来优化WSN的覆盖率和能耗指标,提出了一种基于Q学习的协调算法以优化传感器节点的行为,并试图使节点得到的奖励最大化,算法根据传感器节点采取的行动给予相应奖励,以覆盖最大数量的目标点。Kumar提出了一种用于节点活动性调度的概率覆盖协议(PCP),基于概率性的感知范围,传感器节点可以在二元感知和概率感知模型上执行覆盖计算。还有学者提出一种基于学习自动机的调度算法(Scheduling Algorithm based on Learning,SALA),试图以最少的传感器节点覆盖周期性事件和动态目标点。但是,SALA并不保证每一轮调度中活跃的传感器节点之间是否连通及存在网络分区。
[0004]参考文献
[0005][1]刘直良,宋三华.基于WSNs的部分覆盖应用的节点唤醒机制[J].传感技术学
报,2018,31(05):786

791.
[0006][2]Ramadhani Sinde,Feroza Begum,Karoli Njau,etal.Refining Network Lifetime of Wireless Sensor Network Using Energy

Efficient Clustering and DRL

Based Sleep Scheduling[J].Sensors,2020,20(5).
[0007][3]Jing Zhang,Han Yan,Bin Wang,etal.Self

adaptive sleep scheduling for wireless sensor networks[J].Int.J.of Wireless and Mobile Computing,2015,8(4).
[0008][4]Mini S,Udgata,S.K Sabat.Sensor deployment and scheduling for target coverage problem in wireless sensor networks.IEEE Sensor Journal,2016,14(3):636

644.
[0009][5]Chen H,Li X,Zhao F.A reinforcement learning based sleep scheduling algorithm for desired area coverage in solar

powered wireless sensor networks.IEEE Sensors Journal,2019,16(8):2763

2774.

技术实现思路

[0010]专利技术目的:有效维护网络覆盖和网络连接是无线传感网必须考虑的两个基本问题,本专利技术针对大规模无线传感网随机部署存在的节点不均匀部署、网络覆盖冗余、网络覆盖空洞和不必要的资源消耗等问题,提出了一种基于Q学习的分布式节点智能调度方法(Q

Learning Based Distributed Intelligent Scheduling,QLDIS)。首先,对已有的节点调度策略进行了调研,比较分析了现有研究工作的优缺点。然后,鉴于强化学习不依赖先验知识即可进行自我学习的显著优势,QLDIS机制提供了一种可在维持网络所需覆盖率和连通性的前提下最小化网络总能耗的解决方案。具体而言,QLDIS允许传感器节点自主在可选的激活、睡眠和休眠等模式中采取适当的行动决策,从而使随机部署的传感器节点达到预定的覆盖率并且确保传感器节点之间至少有一条通信路径。由于每个传感器节点均有自主学习能力,不需要通过发送显式的通告信息,只需通过Q学习算法自主学习最佳工作模式,即可使网络以较低能耗确保覆盖率并维持活动节点之间的连接,从而有效节省了WSN稀缺的资源,延长了网络工作时间。
[0011]技术方案:一种基于强化学习的分布式WSN节点智能调度方法,即基于Q学习的分布式节点智能调度方法(QLDIS),是一种分布式节点工作模式调度机制,主要针对目标区域监测的无线传感网应用场景。
[0012]提出的分布式WSN节点智能调度方法允许每个传感器节点在每轮调度中通过强化学习算法自主学习其最佳操作模式,如激活、睡眠和休眠等,从而将感知和通信任务分配给适当的传感器节点集合。为此,每个传感器节点必须具备自主学习能力。提出的分布式WSN节点智能调度方法主要完成两个阶段的任务:第一阶段,网络覆盖阶段,首先基于节点自主调度完成网络覆盖;然后在第二阶段,即连接维护阶本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的分布式WSN节点智能调度方法,针对目标区域监测的无线传感网应用场景,其特征在于,无线传感网中每个传感器节点在每轮调度中通过强化学习算法自主学习其最佳操作模式,从而将感知和通信任务分配给适当的传感器节点集合;其中,每个传感器节点具备自主学习能力;所述节点智能调度方法包括两个阶段的任务:第一阶段,网络覆盖阶段,首先基于节点自主调度完成网络覆盖;然后在第二阶段,即连接维护阶段,再次通过节点自主调度来确保网络连接;在网络覆盖阶段,对于每个调度轮次传感器节点不仅可以自主决定处于激活或睡眠操作模式,而且在激活模式下节点的感知范围可以按需进行动态调整;在连接维护阶段,如果覆盖维护阶段得到的覆盖节点集不足以确保所有节点之间至少有一条连接通路,则需要唤醒适当数量的睡眠节点进入激活或休眠状态来建立必要的网络连接。2.根据权利要求1所述的基于强化学习的分布式WSN节点智能调度方法,其特征在于,所述传感器节点所处的状态和行动的最佳组合取决于传感器节点对网络环境的学习和采取行动的奖励反馈,即:传感器节点通过Q学习算法学习在当前环境下采取何种行动并形成一系列状态和行动的最佳组合,从而最大化预期的奖励;在强化学习中,代理从环境中获得状态信息,然后采取适当的行动使全局奖励最大化;每个传感器节点均作为一个代理,在离散的时间点t=0,1,2,n自主采取适当的行动;整个感知区域A
s
是所有代理活动的网络环境,为驻留在感知区域A
s
内的所有传感器节点提供状态信息,将传感器节点的当前状态和行动作为输入,并将输出作为奖励返回;定义本地状态S
L
代表节点当前所处的状态;对于网络覆盖阶段,一个传感器节点处于两个本地状态之一:{S
L1
=覆盖冗余,S
L2
=隔离};对于网络连接维护阶段,一个传感器节点也处于两个本地状态之一:{CS
L1
=连接到1跳邻居节点,CS
L2
=未连接状态};定义全局状态S
G
代表WSN的全局目标;对于网络覆盖阶段,S
G
=覆盖率;对于连接维护阶段,CS
G
=网络连通性;定义行动A是一个传感器节点可以执行的所有可能行动A
i
的集合(A
i
∈A);对于网络覆盖阶段,可能的行动集合是{A1=激活,A2=睡眠,A3=调整感应范围};对于网络连接维护阶段,可能的行动集是{CA1=激活,CA2=休眠};行动的选择使用ε

贪婪法或玻尔兹曼探索方法,ε

贪婪法以概率ε选择最佳行动,而以概率(1

ε)选择随机行动;定义奖励r是衡量传感器节点选择行动的成败度量的反馈;由一个代理所能提供的覆盖面积称为本地奖励,由一个调度轮中所有激活的传感器所提供的覆盖率则称为全局奖励。3.根据权利要求2所述的基于强化学习的分布式WSN节点智能调度方法,其特征在于,覆盖率C
r
定义为激活的传感器节点所覆盖的区域面积之和与感知区域的面积之比;设节点的感知范围为R
s
,通信范围为R
c
;对于网络覆盖阶段,如果两个节点S
i
和S
j
之间的距离d小于2R
s
,那么S
j
称为S
i
的邻居节点S
NN
;对于网络连接维护阶段,如果S
i
和S
j
之间的距离d小于2R
c
,则S
j
称为S
i
的1跳邻居节点;收敛时间C
T
是指强化学习算法达到全局最优所需花费的时间;活跃节点比率定义为活跃节点总数N
active
与部署的传感器节点总数N的比率;覆盖阈值τ是为实现网络覆盖率而设定的阈值;网络覆盖维护的目标是使激活的传感器节点提供的覆盖率必须高于阈值水平。4.根据权利要求1所述的基于强化学习的分布式WSN节点智能调度方法,其特征在于,在传感器节点随机部署后,首先启动网络覆盖阶段,来保持网络覆盖;设Q学习算法的学习过程从时间t开始,学习率为ω、折扣系数为λ、传感器节点在t时刻从状态s
t
转换到s
t+1
获得
的奖励为r
t
;Q学习算法从随机选择的任意传感器节点S
i
开始执行;S
i
识别其所有邻近节点S
NN
,并观察其本地状态S
L
,...

【专利技术属性】
技术研发人员:王海涛宋丽华王丹丁兆锟史向东谢波廖赟田文郁刘力军芮立
申请(专利权)人:南京审计大学金审学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1