本申请公开了一种大规模集群系统最优编队跟踪控制算法、装置、电子设备及介质。该算法包括:对于集群系统中的智能体,定义性能指标函数和控制器函数;利用Actor神经网络学习离散时间下的所述控制器函数,利用Critic神经网络学习所述性能指标函数;为每个所述智能体设计对应的事件触发条件,满足事件触发条件时,更新所述控制器函数以及Actor神经网络的权值,其余时间则保持所述控制器函数与Actor神经网络的权值;在每一时刻更新Critic神经网络的权值,进而对所述性能指标函数进行优化。进而对所述性能指标函数进行优化。进而对所述性能指标函数进行优化。
【技术实现步骤摘要】
大规模集群系统最优编队跟踪控制算法、装置及介质
[0001]本专利技术涉及集群系统协同控制
,更具体地,涉及一种大规模集群系统最优编队跟踪控制算法、装置、电子设备及介质。
技术介绍
[0002]集群系统协同控制是当前集群系统研究的热点问题,编队跟踪控制作为其中一类经典控制问题,是指集群中的多个智能体能够形成并保持特定的队列形态有序的跟随特定目标。目前,多智能体编队跟踪控制已经广泛应用于智能化列车、航天卫星、无人飞行器以及智能机器人等多种无人智能系统。在城市公共交通中,可利用多轨道列车实现动态列车编队跟踪以缓解潮汐客流、提高线路灵活性与利用效率,进而提高城市轨道交通智能化水平,充分发挥多列车协同化运营优势。在航空航天领域中,通过发射多个微小卫星形成特定的编队,可以实现大型卫星才能发挥的作用,多卫星编队在大大降低系统成本的同时,提高了系统的生存能力与可靠性。在军事对抗背景下,多无人机通过组成合理的编队执行协同侦察与攻击任务,解决了单无人机侦察所面临的侦察范围受限、航程短、风险高等缺点,实现了多无人机集群编队饱和攻击,提高了无人机作战突防能力。在抢险救灾环境下,空中采用多飞行器编队搜寻救援目标,不仅能够严密覆盖搜救区域,同时还提高救援效率;地面利用多机器人编队则可实现协同输送物资、清理灾后废墟、深入高危救援场景以减轻救援人员可能受到的伤害。
[0003]随着集群编队跟踪控制问题研究的不断深入,编队规模也由从前的有限节点扩展到如今的大规模节点。而编队规模的指数级增长势必会对系统性能提出更高的要求,传统的编队控制方法难以实现大规模集群的协同控制。因此,学者们提出了最优控制,其能够平衡系统性能与系统计算能耗,即优化系统性能的同时,降低编队耗能,以减轻系统中的编队负担。我们常通过求解Bellman方程来实现最优控制。然而,对于非线性系统,Bellman方程的解析解难以直接推导。由此,我们引入强化学习算法被用来逼近非线性系统的最优控制器。其中Actor
‑
Critic神经网络作为常用的强化学习架构,利用Critic网络评估系统性能指标以给出反馈来优化系统性能指标,而Actor网络则发出优化的控制指令以改善系统行为。截至目前,大部分的研究均考虑传统的基于时间触发机制的最优控制问题,而该机制通常会持续或者周期性地更新控制器和神经网络,这势必会在大规模编队时,产生巨大的计算资源消耗。
[0004]因此,如何克服现有大规模集群编队技术中存在的不足,是目前需要解决的问题。
[0005]公开于本专利技术
技术介绍
部分的信息仅仅旨在加深对本专利技术的一般
技术介绍
的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。
技术实现思路
[0006]本专利技术提出了一种大规模集群系统最优编队跟踪控制算法、装置、电子设备及介
质,其利用在线Actor
‑
Critic神经网络学习离散时间下的最优编队跟踪控制器,并采用事件触发机制,有效提高了系统的计算效率,降低了系统控制器更新频次以及计算资源消耗。
[0007]第一方面,本公开实施例提供了一种大规模集群系统最优编队跟踪控制算法,包括:对于集群系统中的智能体,定义性能指标函数和控制器函数;
[0008]利用Actor神经网络学习离散时间下的所述控制器函数,利用Critic神经网络学习所述性能指标函数;
[0009]为每个所述智能体设计对应的事件触发条件,满足事件触发条件时,更新所述控制器函数以及Actor神经网络的权值,其余时间则保持所述控制器函数与Actor神经网络的权值;
[0010]在每一时刻更新Critic神经网络的权值,进而对所述性能指标函数进行优化。
[0011]可选方案中,对任一智能体i,定义事件触发时刻序列为该序列由所述事件触发条件决定,
[0012][0013]其中,f
i
(k)为智能体i的事件触发条件,
[0014]为当前分歧误差,为触发时刻误差,表示在该触发时刻,触发条件成立。
[0015]可选方案中,所述性能指标函数和所述控制器函数的形式如下:
[0016][0017][0018]其中,V
i
(ε
i
(k),u
i
(k))为性能指标函数,为控制器函数,通过求解方程得出,β为影响因子,其中描述相邻智能体之间的通信关系,B=diag
i∈
[
1,N
]{b
i
}描述跟随智能体与虚拟领导者之间的通信关系。
[0019]为效用函数。
[0020]可选方案中,所述Actor神经网络的权值通过下式进行更新,
[0021][0022]其中,为Actor神经网络的权值,μ
ai
为Actor神经网络的常值增益,为
Critic神经网络的权值,T为取样周期,ψ
i
(ε
i
)为高斯基函数,为ψ
i
(ε
i
)的转置。
[0023]可选方案中,所述控制器函数通过下式进行更新,
[0024][0025]为控制器函数,α=[α
p
,α
v
],α
p
,α
v
为常数,α
p
>0,α
v
>0。
[0026]可选方案中,所述Critic神经网络的权值通过下式进行更新,
[0027][0028]其中,为神经网络的权值,T为取样周期,μ
ci
为Critic神经网络的常值增益。
[0029]可选方案中,通过下式优化所述性能指标函数,
[0030][0031]其中,性能指标函数,ε
vi
(k+1)为系统分歧误差,常数α=[α
p
,α
v
],β为影响因子。
[0032]第二方面,本公开实施例还提供了一种大规模集群系统最优编队跟踪控制装置,包括:函数模块,用于对于集群系统中的智能体,定义性能指标函数和控制器函数;
[0033]触发条件模块,用于为每个所述智能体设计对应的事件触发条件;
[0034]A
‑
C网络模块,用于利用Actor神经网络学习离散时间下的所述控制器函数,利用Critic神经网络学习所述性能指标函数;
[0035]优化模块,用于满足事件触发条件时,更新所述控制器函数以及Actor神经网络的权值,其余时间则保持所述控制器函数与Actor神经网络的权值;在每一时刻利用所述控制器函数值更新Critic神经网络的权值,进而对所述性能指标函数进行优化。
[0036]第三方面,本公开实施例还提供了一种电子设备,该电子设备包括:
[0037]存储器,存储有可执行指令;
[0038]处理器,所述处理器运行所述存储器中的所述可执行指令,以实现所述的大规模集群本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种大规模集群系统最优编队跟踪控制算法,其特征在于,包括:对于集群系统中的智能体,定义性能指标函数和控制器函数;利用Actor神经网络学习离散时间下的所述控制器函数,利用Critic神经网络学习所述性能指标函数;为每个所述智能体设计对应的事件触发条件,满足事件触发条件时,更新所述控制器函数以及Actor神经网络的权值,其余时间则保持所述控制器函数与Actor神经网络的权值;在每一时刻更新Critic神经网络的权值,进而对所述性能指标函数进行优化。2.根据权利要求1所述的大规模集群系统最优编队跟踪控制算法,其中,对任一智能体i,定义事件触发时刻序列为该序列由所述事件触发条件决定,其中,f
i
(k)为智能体i的事件触发条件,(k)为智能体i的事件触发条件,为当前分歧误差,为触发时刻误差,表示在该触发时刻,触发条件成立。3.根据权利要求2所述的大规模集群系统最优编队跟踪控制算法,其中,所述性能指标函数和所述控制器函数的形式如下:函数和所述控制器函数的形式如下:其中,V
i
(ε
i
(k),u
i
(k))为性能指标函数,为控制器函数,通过求解方程得出,β为影响因子,其中描述相邻智能体之间的通信关系,B=diag
i∈
[
1,N
]{b
i
}描述跟随智能体与虚拟领导者之间的通信关系。为效用函数。4.根据权利要求3所述的大规模集群系统最优编队跟踪控制算法,其中,所述Actor神经网络的权值通过下式进行更新,
其中,为Actor神经网络的权值,μ
ai
为Actor神经网络的常值增益,为Critic神经网络的权值,T为取样周期,ψ
i
(ε
i
)为高斯基函数,为ψ
i
(ε
i
)的转置。5.根据权利要求4所述的大规模集群系统最优编队跟踪控制算法,其中,所述...
【专利技术属性】
技术研发人员:韩亮,严紫薇,李晓多,任章,
申请(专利权)人:北京航空航天大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。