基于多智能体最大熵强化学习的通信覆盖方法及相关设备技术

技术编号：35507985 阅读：22 留言：0更新日期：2022-11-09 14:21

本申请提供一种基于多智能体最大熵强化学习的灾后通信覆盖方法及相关设备。以多无人机基站混合式组网的方式为灾后用户恢复地面通信服务，提出分布式“分簇

全部详细技术资料下载

【技术实现步骤摘要】
基于多智能体最大熵强化学习的通信覆盖方法及相关设备

[0001]本申请涉及无人机应急通信
，尤其涉及一种基于多智能体最大熵强化学习的通信覆盖方法及相关设备。

技术介绍

[0002]在严重的自然灾害后，地面基站会遭受到毁坏而导致灾区通信中断，大规模地面用户的重要救援信息被阻隔，严重危害到灾后用户的生命财产安全。无人机由于具备快速部署、灵活调控的特点，能够配置应急基站为地面用户提供空对地的高效通信链接，通过实时调控所有无人机基站的飞行轨迹优化通信覆盖性能。然而，动态未知的通信环境、用户的数量规模导致面向大规模受灾用户的空中覆盖优化极具挑战。深度强化学习方法能够利用大量飞行数据进行自我学习，拟合未知环境并应对一定的通信环境的动态性。但是大规模受灾用户导致了较强的网络环境动态性，相关的深度强化学习方法仍面临稳定性差、收敛慢、计算维度爆炸等问题。

技术实现思路

[0003]有鉴于此，本申请的目的在于提出一种基于多智能体最大熵强化学习的通信覆盖方法及相关设备用以解决上述问题。
[0004]基于上述目的，本申请的第一方面提供了一种基于多智能体最大熵的灾后通信方法，多个通过混合式组网的方式建立通信连接的无人机基站构成能够覆盖预设区域的通信网络，所述通信网络为位于所述预设区域内的全部用户提供通信服务，对于所述通信网络中的任意一个所述无人机基站，所述基于多智能体最大熵强化学习的通信覆盖方法包括：
[0005]获取当前时刻的局部观测信息；
[0006]基于所述局部观测信息，利用分布式聚类kr/>‑
sums算法对当前时刻位于所述预设区域内的所述用户进行分簇，得到分簇结果；
[0007]将所述局部观测信息和所述分簇结果特征化为当前状态；
[0008]从训练好的神经网络集合中选取一个多智能体最大熵强化学习MASAC神经网络作为目标MASAC神经网络；
[0009]将所述当前状态输入到所述目标MASAC神经网络中，得到调控动作；
[0010]基于所述调控动作，控制所述无人机基站的飞行轨迹。
[0011]本申请的第二方面提供了一种基于多智能体最大熵强化学习的通信覆盖装置，其特征在于，包括：
[0012]信息获取模块，被配置为：获取当前时刻的局部观测信息；
[0013]用户分簇模块，被配置为：基于所述局部观测信息，利用分布式聚类k
‑
sums算法对当前时刻位于所述预设区域内的所述用户进行分簇，得到分簇结果；
[0014]特征转化模块，被配置为：将所述局部观测信息和所述分簇结果特征化为当前状态；
[0015]模型选取模块，被配置为：从训练好的神经网络集合中选取目标多智能体最大熵强化学习MASAC神经网络；
[0016]动作获取模块，被配置为：将所述当前状态输入到所述目标MASAC神经网络中，得到调控动作；
[0017]动作执行模块，被配置为：基于所述调控动作，控制所述无人机基站的飞行轨迹。
[0018]本申请的第三方面提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本申请第一方面提供的所述的方法。
[0019]本申请的第四方面提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行本申请第一方面提供的所述方法。
[0020]从上面所述可以看出，本申请提供的基于多智能体最大熵强化学习的通信覆盖方法及相关设备。首先会获取当前时刻的局部观测信息；然后，基于局部观测信息，利用分布式聚类k
‑
sums算法对当前时刻位于预设区域内的用户进行分簇，得到分簇结果；将局部观测信息和分簇结果特征化为当前状态；从训练好的神经网络集合中选取一个多智能体最大熵强化学习MASAC神经网络作为目标MASAC神经网络；将当前状态输入到目标MASAC神经网络中，得到调控动作；最后，基于调控动作，控制无人机基站的飞行轨迹。以多无人机基站混合式组网的方式为灾后用户恢复地面通信服务，提出分布式“分簇
‑
轨迹”分层空中覆盖优化结构，底层以分布式k
‑
sums算法实现高负载效率和高均衡性的大规模用户分簇，上层结合分簇结果以“分布式训练
‑
分布式执行”的MASAC(Multi
‑
Agent SoftActor Critic)算法优化多无人机基站的飞行轨迹，在集成学习技术的辅助下，MASAC算法解决了多智能体训练环境非平稳和由确定性策略梯度引起的算法收敛稳定性较差的问题，最终实现降低应急通信网络的通信中断概率的有益效果。以“分布式训练
‑
分布式执行”的架构调控地面用户的分簇和多无人机基站的飞行轨迹，减小网络的通信中断概率，实现对大规模灾后用户的空中覆盖优化。
附图说明
[0021]为了更清楚地说明本申请或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0022]图1为本申请实施例的多无人机基站赋能的大规模应急通信网络应用场景示意图；
[0023]图2为本申请实施例的基于多智能体最大熵强化学习的通信覆盖方法的流程图；
[0024]图3为本申请实施例的用户分簇的流程图；
[0025]图4为本申请实施例的k
‑
sums算法的迭代优化方法的流程图；
[0026]图5为本申请实施例的样本回放的流程图；
[0027]图6为本申请实施例的样本构建的流程图；
[0028]图7为本申请实施例的训练MASAC神经网络的流程图；
[0029]图8为本申请实施例的多智能体强化学习MASAC智能体结构图；
[0030]图9为本申请实施例的获取新的目标MASAC神经网络的流程图；
[0031]图10为本申请实施例的基于集成学习的稳定收敛技术的实现架构的示意图；
[0032]图11为本申请实施例的基于多智能体最大熵强化学习的通信覆盖装置的结构图；
[0033]图12为本申请实施例的一种电子设备的结构图。
具体实施方式
[0034]为使本申请的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本申请进一步详细说明。
[0035]需要说明的是，除非另外定义，本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多智能体最大熵强化学习的通信覆盖方法，其特征在于，多个通过混合式组网的方式建立通信连接的无人机基站构成能够覆盖预设区域的通信网络，所述通信网络为位于所述预设区域内的全部用户提供通信服务，对于所述通信网络中的任意一个所述无人机基站，所述基于多智能体最大熵强化学习的通信覆盖方法包括：获取当前时刻的局部观测信息；基于所述局部观测信息，利用分布式聚类k
‑
sums算法对当前时刻位于所述预设区域内的所述用户进行分簇，得到分簇结果；将所述局部观测信息和所述分簇结果特征化为当前状态；从训练好的神经网络集合中选取一个多智能体最大熵强化学习MASAC神经网络作为目标MASAC神经网络；将所述当前状态输入到所述目标MASAC神经网络中，得到调控动作；基于所述调控动作，控制所述无人机基站的飞行轨迹。2.根据权利要求1所述的方法，其特征在于，所述基于所述局部观测信息，利用分布式聚类k
‑
sums算法对当前时刻位于所述预设区域内的所述用户进行分簇，得到分簇结果，具体包括：将所述局部观测信息转化为分簇核矩阵；基于所述无人机基站与所述用户的距离，构建初始邻近分簇标识矩阵；针对所述分布式聚类k
‑
sums算法的每一轮的迭代过程执行以下操作：基于所述分簇核矩阵，对所述初始标识矩阵进行优化，得到优化邻近分簇标识矩阵；响应于确定所述初始邻近分簇标识矩阵与所述优化邻近分簇标识矩阵不相等，将所述优化邻近分簇标识矩阵的值赋值给所述初始邻近分簇标识矩阵；直至所述初始邻近分簇标识矩阵与所述优化邻近分簇标识矩阵相等，结束迭代过程，得到多个用户簇；基于预设的选取条件，在每个所述用户簇中选取一个与所述无人机基站建立通信连接的中心用户；其中，所述分簇结果包括全部的所述用户簇和所述中心用户。3.根据权利要求1所述的方法，其特征在于，在控制所述无人机基站的飞行轨迹之后，还包括：构建所述无人机基站在当前时刻的样本；将所述样本发送至预先构建好的经验回放池；其中，所述经验回放池用于训练所述MASAC神经网络。4.根据权利要求3所述的方法，其特征在于，所述构建所述无人机基站当前时刻的样本，具体包括：从所述通信网络中获取所述无人机基站在当前时刻的通信性能的奖励；将所述奖励和所述调控动作发送至相邻的多个所述无人机基站并接收多个相邻的所述无人机基站发送的多个邻近调控动作和邻近奖励；基于所述调控动作和所述当前状态，利用状态转移分布函数计算得到下一时刻的后继状态；组合所述当前状态、所述调控动作、所述奖励、所述后继状态和所述邻近调控动作，得到所述样本。
5.根据权利要求4所述的方法，其特征在于，每个所述无人机基站上部署有一个所述智能体，所述智能体用于训练所述MASAC神经网络，所述MASAC神经网络包括策略函数Actor神经网络和双重动作价值函数DoubleQ神经网络，其中，所述Actor神经网络用于接收...

【专利技术属性】
技术研发人员：许文俊，吴思雷，林兰，李国军，王凤玉，张天魁，
申请(专利权)人：北京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人