本发明专利技术公开了面向能量效率的无人机群多智能体深度强化学习优化方法,包括:采用基于Q学习的改进DQN深度强化学习方法,利用无人机集群历史信息对每个智能体的神经网络进行训练更新,得到无人机集群各智能体的信道选择及功率选择决策,训练过程中采用短时经验回放机制训练神经网络,每个神经网络的优化目标为最大化对应智能体的能量效率值。本发明专利技术采用分布式多智能体深度强化学方法,设置短时经验回放机制训练神经网络来挖掘动态网络环境蕴含的变化规律,解决传统强化学习面临的大状态空间无法得到收敛解的难题,实现多智能体分布式协同学习,提升无人机集群通信的能量效率,提高无人机集群的生命周期,增强无人机集群通信网络动态适应能力。
Energy efficiency oriented deep reinforcement learning optimization method for multi-agent of UAV group
【技术实现步骤摘要】
面向能量效率的无人机群多智能体深度强化学习优化方法
本专利技术涉及无人机集群通信网络接入
,具体涉及面向能量效率的无人机群多智能体深度强化学习优化方法。
技术介绍
当前,无人机技术的快速发展和应用推广是前沿和热点问题之一,受到广泛关注。其中,以无人机集群的研究最为引人注目。无人机集群能以低成本无人机按不同角色组成群体,发挥协同动作的巨大效用。但是,无人机集群发挥协同效用的关键在于其健壮的通信网络。没有一个支撑无人机集群内部成员之间的通信系统,其协同动作无从谈起。同时,小型无人机,尤其是电池供电无人机,其能量消耗的优化至关重要。无人机集群的通信网络构建与优化一方面要满足通信需求,另外一方面还要密切关注其能量消耗,两者必须同时兼顾优化。因此,需要研究无人机集群通信网络的通信能量效率问题。然而,由于其动态性的存在,无人机集群通信能量效率优化决策面临大决策空间的严峻挑战。采用传统的强化学习方法,会遇到由于大决策空间而造成算法无法收敛或者收敛速度过慢的问题。因此,拟采用深度强化学习的方法,利用深度神经网络的函数拟合能力,解决收敛速度问题。同时,由于无人机集群个体成员的智能性,需要考虑多个智能体的协同学习问题。综上所述,如何提升无人机集群通信的能量效率,提高无人机集群的生命周期,增强无人机集群通信网络动态适应能力成为了本领域技术人员急需解决的问题。
技术实现思路
针对现有技术存在的上述不足,本专利技术实际需要解决的问题是:如何提升无人机集群通信的能量效率,提高无人机集群的生命周期,增强无人机集群通信网络动态适应能力。本专利技术采用了如下的技术方案:面向能量效率的无人机群多智能体深度强化学习优化方法,包括如下步骤:S1、获取无人机集群当前状态信息;S2、获取无人机集群历史信息,所述历史信息包括历史状态信息及历史决策信息;S3、采用基于Q学习的改进DQN深度强化学习方法,利用无人机集群历史信息对每个智能体的神经网络进行训练更新,得到无人机集群各智能体的信道选择及功率选择决策,训练过程中采用短时经验回放机制训练神经网络,每个神经网络的优化目标为最大化对应智能体的能量效率值;S4、基于所述无人机集群中链路的信道及功率决策信息控制无人机集群进行数据传输。优选地,步骤S3中,链路合集为L,对任一神经网络,智能体集合为Lm,非智能体的集合为Ls,Ls=L-Lm,步骤S3包括:S301、初始化回放空间,设置回放空间大小及回放空间清空周期;S302、初始化智能体的DQN网络参数,智能体的目标Q值网络参数,设置智能体的学习速率和折扣系数;S303、获取无人机集群中的无人机坐标集合、离散功率集及正交信道集合;S304、设t=1;S305、利用目标无人机群在t时隙对应的状态信息,基于ε-greedy算法和DQN网络得到智能体决策并执行,得到回报值以及执行后所有链路可能达到的状态信息,将与t对应的状态信息、回报值以及执行后所有链路可能达到的状态信息作为样本存入回放空间;S306、从回放空间随机采样训练数据集,训练数据集样本数为k;S307、从训练数据集中采集一个样本,设样本编号interation=1;S308、将样本对应的执行后所有链路可能达到的状态信息输入至神经网络,得到新的Q值,取最大的Q值对应的决策作为智能体t时隙的决策;S309、利用随机梯度下降法根据损失函数更新DQN网络参数集式中,Q()为Q值函数,表示非智能体t时刻的状态信息,表示表示智能体t时刻的状态信息,表示第i个智能体在t时隙的决策,表示第i个智能体在t时隙的网络参数,γ表示折扣系数,表示对应的决策下可能到达的所有状态的集合,表示对应的决策下可能到达的所有状态的集合,表示第i个智能体在t时刻采用不同于的其他决策,ΔI表示参数更新周期;S310、当t%ΔI==0时,表示第i个智能体在t时隙的Q值网络参数;S311、当样本编号等于k且t=T时,结束;当样本编号等于k且t<T时,使t的值加1并返回执行S305;当样本编号小于k时,使样本编号的值加1并返回执行步骤S308。优选地,式中,表示第i个智能体在t时隙的决策的回报值,表示第i个智能体在t时隙的决策,Bi表示第i个智能体在t时隙的信道带宽,表示第i个智能体在t时隙的接收节点通信信噪比,表示对应的通信阈值,接收节点通信信噪比小于通信阈值这表示不能通信,表示第i个智能体在t时隙的发送节点传输功率,表示第i个智能体在t时隙的链路增益,表示第i个智能体在t时隙的接收节点的干扰强度,σ表示干扰噪音,表示t时隙第j条链路对第i个智能体的增益,当第j条链路与第i个智能体使用同一信道,di表示第i个智能体的收发节点之间的距离,dij表示第j条链路的接收节点与第i个智能体的发送节点之间的距离,δ表示路径衰减因子,表示第j条链路的接收节点与第i个智能体的发送节点之间的在t时隙的接收功率。优选地,任意一条链路任意时隙的状态信息包括了对应的信道向量、发送节点传输功率、接收节点坐标向量及发送节点坐标向量。综上所述,与现有技术相比,本专利技术具有以下有益效果:本专利技术提出面向能量效率的无人机群多智能体深度强化学习优化方法,着眼实现无人机集群通信能量效率的提升,采用分布式多智能体深度强化学方法,设计基于环境状态信息分解的深度神经网络,设置短时经验回放机制训练神经网络来挖掘动态网络环境蕴含的变化规律,解决传统强化学习面临的大状态空间无法得到收敛解的难题,实现多智能体分布式协同学习,提升无人机集群通信的能量效率,提高无人机集群的生命周期,增强无人机集群通信网络动态适应能力。附图说明图1为通信网络拓扑示意图;图2为多智能体强化学习模型示意图;图3为本专利技术公开的面向能量效率的无人机群多智能体深度强化学习优化方法的一种具体实施方式的流程图;图4为本专利技术具体实例中智能体Ao1算法性能对比曲线图;图5为本专利技术具体实例中智能体Ao2算法性能对比曲线图;图6为本专利技术具体实例中智能体Ao3算法性能对比曲线图。具体实施方式为了使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作进一步的详细描述说明。如图3所示,本专利技术公开了面向能量效率的无人机群多智能体深度强化学习优化方法,包括如下步骤:S1、获取无人机集群当前状态信息;S2、获取无人机集群历史信息,所述历史信息包括历史状态信息及历史决策信息;对于每一个时隙,都采集多个之前时隙的历史信息作为神经网络进行学习的输入,从而得到当前时隙的决策信息。S3、采用基于Q学习的改进DQN深度强化学习方法,利用无人机集群历史信息对每个智能体的神经网络进行训练更新,得到无人机集群各智能体的信道选择及功率选择决策,训练过程中采用短时经验回放机制训练神经网络,每个神经网络的优化目标为最大化对应智能体的能量效率值;...
【技术保护点】
1.面向能量效率的无人机群多智能体深度强化学习优化方法,其特征在于,包括如下步骤:/nS1、获取无人机集群当前状态信息;/nS2、获取无人机集群历史信息,所述历史信息包括历史状态信息及历史决策信息;/nS3、采用基于Q学习的改进DQN深度强化学习方法,利用无人机集群历史信息对每个智能体的神经网络进行训练更新,得到无人机集群各智能体的信道选择及功率选择决策,训练过程中采用短时经验回放机制训练神经网络,每个神经网络的优化目标为最大化对应智能体的能量效率值;/nS4、基于所述无人机集群中链路的信道及功率决策信息控制无人机集群进行数据传输。/n
【技术特征摘要】
1.面向能量效率的无人机群多智能体深度强化学习优化方法,其特征在于,包括如下步骤:
S1、获取无人机集群当前状态信息;
S2、获取无人机集群历史信息,所述历史信息包括历史状态信息及历史决策信息;
S3、采用基于Q学习的改进DQN深度强化学习方法,利用无人机集群历史信息对每个智能体的神经网络进行训练更新,得到无人机集群各智能体的信道选择及功率选择决策,训练过程中采用短时经验回放机制训练神经网络,每个神经网络的优化目标为最大化对应智能体的能量效率值;
S4、基于所述无人机集群中链路的信道及功率决策信息控制无人机集群进行数据传输。
2.如权利要求1所述的面向能量效率的无人机群多智能体深度强化学习优化方法,其特征在于,步骤S3中,链路合集为L,对任一神经网络,智能体集合为Lm,非智能体的集合为Ls,Ls=L-Lm,步骤S3包括:
S301、初始化回放空间,设置回放空间大小及回放空间清空周期;
S302、初始化智能体的DQN网络参数,智能体的目标Q值网络参数,设置智能体的学习速率和折扣系数;
S303、获取无人机集群中的无人机坐标集合、离散功率集及正交信道集合;
S304、设t=1;
S305、利用目标无人机群在t时隙对应的状态信息,基于ε-greedy算法和DQN网络得到智能体决策并执行,得到回报值以及执行后所有链路可能达到的状态信息,将与t对应的状态信息、回报值以及执行后所有链路可能达到的状态信息作为样本存入回放空间;
S306、从回放空间随机采样训练数据集,训练数据集样本数为k;
S307、从训练数据集中采集一个样本,设样本编号interation=1;
S308、将样本对应的执行后所有链路可能达到的状态信息输入至神经网络,得到新的Q值,取最大的Q值对应的决策作为智能体t时隙的决策;
S309、利用随机梯度下降法根据损失...
【专利技术属性】
技术研发人员:姚昌华,王修来,党随虎,李松柏,阮郎,田辉,范浩人,张海波,
申请(专利权)人:长江师范学院,
类型:发明
国别省市:重庆;50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。