面向能量效率的无人机群多智能体深度强化学习优化方法技术

技术编号：23675147 阅读：35 留言：0更新日期：2020-04-04 20:01

本发明专利技术公开了面向能量效率的无人机群多智能体深度强化学习优化方法，包括：采用基于Q学习的改进DQN深度强化学习方法，利用无人机集群历史信息对每个智能体的神经网络进行训练更新，得到无人机集群各智能体的信道选择及功率选择决策，训练过程中采用短时经验回放机制训练神经网络，每个神经网络的优化目标为最大化对应智能体的能量效率值。本发明专利技术采用分布式多智能体深度强化学方法，设置短时经验回放机制训练神经网络来挖掘动态网络环境蕴含的变化规律，解决传统强化学习面临的大状态空间无法得到收敛解的难题，实现多智能体分布式协同学习，提升无人机集群通信的能量效率，提高无人机集群的生命周期，增强无人机集群通信网络动态适应能力。

Energy efficiency oriented deep reinforcement learning optimization method for multi-agent of UAV group

全部详细技术资料下载

【技术实现步骤摘要】
面向能量效率的无人机群多智能体深度强化学习优化方法
本专利技术涉及无人机集群通信网络接入
，具体涉及面向能量效率的无人机群多智能体深度强化学习优化方法。
技术介绍
当前，无人机技术的快速发展和应用推广是前沿和热点问题之一，受到广泛关注。其中，以无人机集群的研究最为引人注目。无人机集群能以低成本无人机按不同角色组成群体，发挥协同动作的巨大效用。但是，无人机集群发挥协同效用的关键在于其健壮的通信网络。没有一个支撑无人机集群内部成员之间的通信系统，其协同动作无从谈起。同时，小型无人机，尤其是电池供电无人机，其能量消耗的优化至关重要。无人机集群的通信网络构建与优化一方面要满足通信需求，另外一方面还要密切关注其能量消耗，两者必须同时兼顾优化。因此，需要研究无人机集群通信网络的通信能量效率问题。然而，由于其动态性的存在，无人机集群通信能量效率优化决策面临大决策空间的严峻挑战。采用传统的强化学习方法，会遇到由于大决策空间而造成算法无法收敛或者收敛速度过慢的问题。因此，拟采用深度强化学习的方法，利用深度神经网络的函数拟合能力，解决收敛速度问题。同时，由于无人机集群个体成员的智能性，需要考虑多个智能体的协同学习问题。综上所述，如何提升无人机集群通信的能量效率，提高无人机集群的生命周期，增强无人机集群通信网络动态适应能力成为了本领域技术人员急需解决的问题。
技术实现思路
针对现有技术存在的上述不足，本专利技术实际需要解决的问题是：如何提升无人机集群通信的能量效率，提高无人机集群的

【技术保护点】
1.面向能量效率的无人机群多智能体深度强化学习优化方法，其特征在于，包括如下步骤：/nS1、获取无人机集群当前状态信息；/nS2、获取无人机集群历史信息，所述历史信息包括历史状态信息及历史决策信息；/nS3、采用基于Q学习的改进DQN深度强化学习方法，利用无人机集群历史信息对每个智能体的神经网络进行训练更新，得到无人机集群各智能体的信道选择及功率选择决策，训练过程中采用短时经验回放机制训练神经网络，每个神经网络的优化目标为最大化对应智能体的能量效率值；/nS4、基于所述无人机集群中链路的信道及功率决策信息控制无人机集群进行数据传输。/n

【技术特征摘要】
1.面向能量效率的无人机群多智能体深度强化学习优化方法，其特征在于，包括如下步骤：
S1、获取无人机集群当前状态信息；
S2、获取无人机集群历史信息，所述历史信息包括历史状态信息及历史决策信息；
S3、采用基于Q学习的改进DQN深度强化学习方法，利用无人机集群历史信息对每个智能体的神经网络进行训练更新，得到无人机集群各智能体的信道选择及功率选择决策，训练过程中采用短时经验回放机制训练神经网络，每个神经网络的优化目标为最大化对应智能体的能量效率值；
S4、基于所述无人机集群中链路的信道及功率决策信息控制无人机集群进行数据传输。

2.如权利要求1所述的面向能量效率的无人机群多智能体深度强化学习优化方法，其特征在于，步骤S3中，链路合集为L，对任一神经网络，智能体集合为Lm，非智能体的集合为Ls，Ls＝L-Lm，步骤S3包括：
S301、初始化回放空间，设置回放空间大小及回放空间清空周期；
S302、初始化智能体的DQN网络参数，智能体的目标Q值网络参数，设置智能体的学习速率和折扣系数；
S303、获取无人机集群中的无人机坐标集合、离散功率集及正交信道集合；
S304、设t＝1；
S305、利用目标无人机群在t时隙对应的状态信息，基于ε-greedy算法和DQN网络得到智能体决策并执行，得到回报值以及执行后所有链路可能达到的状态信息，将与t对应的状态信息、回报值以及执行后所有链路可能达到的状态信息作为样本存入回放空间；
S306、从回放空间随机采样训练数据集，训练数据集样本数为k；
S307、从训练数据集中采集一个样本，设样本编号interation＝1；
S308、将样本对应的执行后所有链路可能达到的状态信息输入至神经网络，得到新的Q值，取最大的Q值对应的决策作为智能体t时隙的决策；
S309、利用随机梯度下降法根据损失...

【专利技术属性】
技术研发人员：姚昌华，王修来，党随虎，李松柏，阮郎，田辉，范浩人，张海波，
申请(专利权)人：长江师范学院，
类型：发明
国别省市：重庆;50

全部详细技术资料下载我是这个专利的主人