【技术实现步骤摘要】
一种基于强化学习的集群系统协同控制方法及系统
[0001]本文件涉及集群控制
,尤其涉及一种基于强化学习的集群系统协同控制方法及系统。
技术介绍
[0002]生物群体行为是自然界中常见的一种现象。通过个体决策,使整个团队最终从宏观角度表现出自组织、协作、稳定性和对环境的适应性,在智能交通、编队控制、智能网格、传感器网络、机器人任务等领域,与集群系统的局部、分布式和稳定需求密切相关,因此,研究生物集群行为并将其映射到群体系统的协调和自主控制中,是具有重要的意义的。
[0003]现有技术中普遍研究自然界生物群体的短期群体行为,而不考虑生物群体在日常群体行为下所积累的学习经验对生物群体行为的改变,在面对突然的环境改变下对集群的行为调整不当,普遍适应性不强;且现有技术普遍具有固定的控制模型和方法,不能随着环境的变动而自主的适应和调整参数,不能满足复杂系统的控制性能要求;另外,现有技术往往需要知道准确的系统模型才能做出针对性的训练和调整,需要人为的调查和收集所应用的场合信息,训练部分智能体并记录他们的轨迹作为引导路径,花费时间做出相应的训练和调整。
技术实现思路
[0004]本说明书一个或多个实施例提供了一种基于强化学习的集群系统协同控制方法,包括:
[0005]S1.对集群系统中的智能体分别建立动力学模型,并确定各智能体在集群系统中路径规划时的约束条件;
[0006]S2.根据所述约束条件设计效用函数,基于所述效用函数确定各智能体的状态向量;
[0007]S3.根据所述效 ...
【技术保护点】
【技术特征摘要】
1.一种基于强化学习的集群系统协同控制方法,其特征在于,包括:S1.对集群系统中的智能体分别建立动力学模型,并确定各智能体在集群系统中路径规划时的约束条件;S2.根据所述约束条件设计效用函数,基于所述效用函数确定各智能体的状态向量;S3.根据所述效用函数设计智能体的性能指标函数,以性能指标函数最小化为控制目标,利用神经网络构建路径规划模型;S4.基于强化学习对所述路径规划模型进行训练,用梯度下降算法实现对模型参数进行更新,获得集群系统协同控制的最优控制策略。2.根据权利要求1所述的方法,其特征在于,所述集群系统中的智能体包括多个一般智能体、一个虚拟领导者和动态威胁。3.根据权利要求2所述的方法,其特征在于,所述对集群系统中的智能体分别建立动力学模型具体包括:对所述一般智能体建立动力学模型,具体如公式1所示:其中,P
i
和v
i
表示一般智能体i的位置和速度,u
i
为控制变量,f
i
为未知的外部干扰,t表示时间;对所述虚拟领导者建立动力学模型具体如公式2所示:其中,P
r
表示虚拟领导者的位置,v
r
为虚拟领导者的速度;对半径为r
h
的动态威胁建立动力学模型,具体如公式3所示:其中,P
h
表示动态威胁的位置,v
h
为动态威胁的速度。4.根据权利要求2所述的方法,其特征在于,所述确定各智能体在集群系统中路径规划时的约束条件具体为:所述约束条件包括距离约束和角度约束,所述距离约束具体如公式4所示:||P
ri
(t)||<d
r
;P
ri
(t)=P
r
(t)
‑
P
i
(t)||P
ij
(t)||>d
s
;P
ij
(t)=P
i
(t)
‑
P
j
(t)||P
ih
(t)||>d
h
;P
ih
(t)=P
i
(t)
‑
P
he
(t)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式4;其中,d
r
表示每个智能体到虚拟领导者所期望的最大距离;d
s
表示两个智能体之间所期望的最小安全距离;P
he
是被检测到的最近的动态威胁位置,即检测到的威胁的边缘位置;d
h
表示智能体与动态威胁所期望的安全距离;所述角度约束具体如公式5所示:θ
ih
>θ
s
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式5;其中,θ
s
表示所期望的最小安全角;θ
ih
为智能体i与动态威胁的相对速度方向v
ih
与动态威胁边界线的夹角,用来判断智能体的运动方向是否有碰撞到威胁的趋势,具体计算方法如公式6所示:
其中,表示智能体i与动态威胁的相对位置P
ih
和相对速度v
ih
之间的夹角。v
ih
(t)=v
i
(t)
‑
v
h
(t);θ
h
为智能体i检测到的威胁角度范围。5.根据权...
【专利技术属性】
技术研发人员:蓝雪婧,陈怡任,钟嘉威,何树德,邹涛,
申请(专利权)人:广州大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。