一种基于深度强化学习的自适应混合充电方法技术

技术编号：40822228 阅读：18 留言：0更新日期：2024-04-01 14:42

本发明专利技术公开了一种基于深度强化学习的自适应混合充电方法，属于物联网无线供能领域。本发明专利技术提出了一种根据环境前后状态以及传感器的剩余能量，实现高效充电和自适应环境变化的充电调度方法。首先，为了解决单充电中的高能耗和多充电中的传输效率低下的问题，提出根据节点密度采用单充电和多充电的混合充电模式与定向充电结合的技术，确保传感器节点高效及时得到能量补充。其次，移动充电装置调度问题也是影响传感器生命的关键，本发明专利技术将注意力机制嵌入至预测网络和目标网络中，预测环境状态，为整个场景设置奖励函数，DDQN在奖励函数的约束下决策下一步充电调度，实现有效降低无线传感器网络的充电延时，同时延长整个网络的生命周期。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及无线可充电传感器网络中的移动能量补充领域，具体为一种基于深度强化学习的自适应混合充电方法。

技术介绍

1、无线可充电传感器网络(wireless rechargeable sensor networks，wrsn)由若干个传感器节点、移动能量充电装置和基站组成，广泛应用于环境监测、智能家居、物联网等领域。传感器节点可以感知并测量环境中的物理参数，这些节点可以无线通信，并使用无线充电技术进行充电，因此可以在很长时间内持续运行。无线传感器网络由于受到有限的电池容量的限制，为了延长网络寿命许多研究越来越关注传感器节点的能量供应，其中带有充电装置的移动设备得到广泛研究。移动充电装置可以周期性或按需性移动到传感器节点周围进行充电，使得延长传感器节点的寿命。移动充电装置可以根据实际情况智能的选择何时、何地以及如何充电从而提高网络的能量利用率。通过移动充电装置的支持，wrsn可以实现更长的网络寿命和更广泛的应用范围。wrsn中的基站负责管理整个传感器网络的通信、能量管理和数据处理，在无线可充电传感器网络中起着核心的控制和管理作用。

2、在无线可充电传感器网络中，定向充电技术是一种对传感器节点具有针对性的充电方式，与传统的全向充电方式相比，定向充电技术可以将能量更加准确地传输到目标节点，减少了能量的损耗和浪费，提高了能量传输的效率和精度。定向充电方式可以快速的为节点进行充电，减少等待时间。因此定向充电技术在无线可充电传感器网络中的能量补充领域具有研究价值。

3、chi lin等人于2019年在ieee co

4、xianbo cao等人于2021年在ad hoc networks发表的“a deep reinforcementlearning-based on-demand charging algorithm for wireless rechargeable sensornetworks”使用时间窗口来表示充电需求。为了让移动充电装置能够及时响应这些充电需求，并将更多能量转移到传感器，文章引入了一个新的指标：充电奖励。研究了如何安排移动充电装置来补充传感器的能量供应，以使移动充电装置在充电过程中获得的充电奖励之和最大化，并利用深度强化学习技术来获取移动充电装置的移动路径。

5、从出版的文献中，目前的研究工作大多都使用基本算法进行路径规划即移动能量装置mc的移动轨迹，但该移动轨迹无法适应环境变化。无线可充电传感器网络中移动能量装置的路径规划至关重要，它不仅影响mc的能量消耗更加影响充电延迟、移动距离和死亡节点数等。文献中也有关于使用深度强化学习技术来进行路径规划的，不过，对于单充电，mc会损耗很多能量在移动路径上造成能量的浪费；对于多充电，mc利用全向充电对每个方位发射功率给节点进行能量传输，很多传感器节点会被多重充电，从而造成资源浪费。

技术实现思路

1、针对上述问题，为了解决能量补充中减少能量浪费问题，本专利技术提出了一种desa能量自适应补充模型。该desa模型根据节点的密度使用混合充电方式为传感器节点进行充电，根据节点剩余能量的不同为每个簇设置充电点，使用深度强化学习技术进行路径规划。

2、本专利技术充分考虑了网络中节点的密度问题，混合充电模式在节点密度高的区域使用多充电，节点密度低的区域使用单充电，减少能量的浪费。与传统的全向充电不同，定向充电使得能量更加集中在特定区域从而高效快速的给选定节点充电。本专利技术中的深度强化学习技术根据mc移动距离和网络中节点的死亡数设置奖励函数，为了尽可能使奖励最大化，训练之后移动距离会减少至一个收敛的值，减少mc在移动上的能量消耗；同时死亡节点数也会减少至一个收敛的值，从而延长了传感器节点的寿命。

3、为了实现上述的目的，本专利技术所采用的技术方案是：

4、一种基于深度强化学习的自适应混合充电方法，包括如下步骤：

5、在确定的网络规模内随机部署成百上千个传感器节点ni，基站和移动能量充电装置部署于网络的中心根据传感器节点位置信息和能量信息划分簇和确定充电点；

6、网络中的传感器节点监测周围的物理环境将监测到的数据信息到基站；随着传感器节点能量的消耗，移动能量充电装置通过ddqn算法决策下一个目标点，移动到充电点处对单个或多个传感器节点进行充电；

7、提出一个desa模型，并从以下四个部分对desa模型进行描述：

8、a：充电集群的分类，采用mean-shift算法对所有传感器节点分簇，直到确定聚类中心有效半径r内节点的坐标平均值的过程达到收敛为止；

9、b：确定充电点，通过a步骤得到的簇，使用最小包围球算法尽可能将包围圆缩小且能够完全覆盖该圆内的所有传感器节点，圆上的任意两条切线相连能够覆盖整个包围圈，切线的相交点即作为该簇的充电点，取出所有符合条件的切线，得到最小包围圆外的一个大圆，该大圆上的点作为候选充电点，最后选择最优充电点尽可能消耗最少的能量对传感器节点进行充电；

10、c：系统工作过程，周期性地更新网络内的每个传感器节点信息，设置两个充电阈值，传感器节点阈值tn和簇的充电阈值tc，作为触发传感器节点向基站传递数据的条件，每个传感器节点在消耗能量和充电的同时都会及时更新簇的信息，藉以通过阈值触发该簇发送充电请求给基站，基站将获取的待充电簇列表信息发送给移动能量充电装置。

11、上述的，传感器节点随机部署在网络场景中，通过向基站发送信息，已知每个传感器节点i的物理坐标li,簇半径为r，使用mean-shift算法对所有传感器节点分簇，直到确定聚类中心有效半径r内节点的坐标平均值的过程达到收敛为止，通过公式(1)计算：

12、

13、其中，h表示核函数的带宽参数，d表示d维随机向量，k(x)表示核的属性函数，k(x)要满足公式(2)，表示样本的多元核密度估计，ck,d表示归一化常数，g(x)表示核函数的属性函数，表示mean-shifit向量，该向量指向密度增大最大的方向；

14、k(x)＝ck,dk(|||x||2) (2)。

15、上述的，候选充电点的确定步骤具体为：

16、根据desa模型的a部分已将网络内的传感器节点分好簇，得到簇之后，使用最小包围球算法(welzl's algorithm)尽可能将包围圆缩小且能够完全覆盖该圆内的所有传感器节点本文档来自技高网...

【技术保护点】

1.一种基于深度强化学习的自适应混合充电方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于深度强化学习的自适应混合充电方法，其特征在于，A部分中，传感器节点随机部署在网络场景中，通过向基站发送信息，已知每个传感器节点i的物理坐标Li,簇半径为R，使用Mean-shift算法对所有传感器节点分簇，直到确定聚类中心有效半径R内节点的坐标平均值的过程达到收敛为止，通过公式(1)计算：

3.根据权利要求2所述的一种基于深度强化学习的自适应混合充电方法，其特征在于，B部分中，候选充电点的确定步骤具体为：

4.根据权利要求3所述的一种基于深度强化学习的自适应混合充电方法，其特征在于，B部分还包括对候选充电点的优化步骤：

5.根据权利要求4所述的一种基于深度强化学习的自适应混合充电方法，其特征在于，B部分选择最优充电点的步骤：

6.根据权利要求5所述的一种基于深度强化学习的自适应混合充电方法，其特征在于，单簇的充电点可以近似看作该簇中传感器节点的位置。

7.根据权利要求1所述的一种基于深度强化学习的自适应混

8.根据权利要求7所述的一种基于深度强化学习的自适应混合充电方法，其特征在于，C部分中，还包括对DESA模型中待充电簇的选择：

9.根据权利要求8所述的一种基于深度强化学习的自适应混合充电方法，其特征在于，移动充电装置从充电队列中选择充电点，将当前状态、充电列表传递给神经网络，使用深度强化学习进行决策，通过设置奖励函数，每完成一步，都会将该步的状态、动作、奖励和下一个状态存入经验池中，状态包括传感器节点的坐标Ni_x和Ni_y，传感器节点的剩余能量REi，移动充电装置的坐标MC_x和MC_y，移动充电装置的剩余能量RE_MC，动作是移动充电装置选择要为其簇充电的充电点，当经验池存满，DDQN对这些数据进行训练，获取更好的策略，得到更大的奖励。

10.根据权利要求8所述的一种基于深度强化学习的自适应混合充电方法，其特征在于，

...

【技术特征摘要】

1.一种基于深度强化学习的自适应混合充电方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于深度强化学习的自适应混合充电方法，其特征在于，a部分中，传感器节点随机部署在网络场景中，通过向基站发送信息，已知每个传感器节点i的物理坐标li,簇半径为r，使用mean-shift算法对所有传感器节点分簇，直到确定聚类中心有效半径r内节点的坐标平均值的过程达到收敛为止，通过公式(1)计算：

3.根据权利要求2所述的一种基于深度强化学习的自适应混合充电方法，其特征在于，b部分中，候选充电点的确定步骤具体为：

4.根据权利要求3所述的一种基于深度强化学习的自适应混合充电方法，其特征在于，b部分还包括对候选充电点的优化步骤：

5.根据权利要求4所述的一种基于深度强化学习的自适应混合充电方法，其特征在于，b部分选择最优充电点的步骤：

6.根据权利要求5所述的一种基于深度强化学习的自适应混合充电方法，其特征在于，单簇的充电点可以近似看作该簇中传感器节点的位置。

7.根据权利要求1所述的一种基于深度强化学习的自适应混合充电方法，其特征在于，c部分中，还包括移动充电装置的状态，初始时移动充电装置位于网络规模的中心处于等待状态，当移动充电装置接收到充电...

【专利技术属性】
技术研发人员：冯勇，何艳婷，李英娜，钱谦，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人