当前位置: 首页 > 专利查询>广州大学专利>正文

一种基于强化学习的集群系统协同控制方法及系统技术方案

技术编号:38746757 阅读:14 留言:0更新日期:2023-09-08 23:28
本说明书实施例提供了一种基于强化学习的集群系统协同控制方法及系统,其中,方法包括:对集群系统中的智能体建立动力学模型,确定各智能体在集群系统中路径规划时的约束条件;根据约束条件设计效用函数,确定各智能体的状态向量;根据效用函数设计智能体的性能指标函数,以性能指标函数最小化为控制目标,利用神经网络构建路径规划模型;基于强化学习对路径规划模型进行训练,对模型参数进行更新,获得集群系统协同控制的最优控制策略。本发明专利技术面对未知的动态环境能够快速获得最优控制策略,实现集群智能体避碰控制,能够高效完成高难度的搜索和跟踪任务,具有很大的应用前景。具有很大的应用前景。具有很大的应用前景。

【技术实现步骤摘要】
一种基于强化学习的集群系统协同控制方法及系统


[0001]本文件涉及集群控制
,尤其涉及一种基于强化学习的集群系统协同控制方法及系统。

技术介绍

[0002]生物群体行为是自然界中常见的一种现象。通过个体决策,使整个团队最终从宏观角度表现出自组织、协作、稳定性和对环境的适应性,在智能交通、编队控制、智能网格、传感器网络、机器人任务等领域,与集群系统的局部、分布式和稳定需求密切相关,因此,研究生物集群行为并将其映射到群体系统的协调和自主控制中,是具有重要的意义的。
[0003]现有技术中普遍研究自然界生物群体的短期群体行为,而不考虑生物群体在日常群体行为下所积累的学习经验对生物群体行为的改变,在面对突然的环境改变下对集群的行为调整不当,普遍适应性不强;且现有技术普遍具有固定的控制模型和方法,不能随着环境的变动而自主的适应和调整参数,不能满足复杂系统的控制性能要求;另外,现有技术往往需要知道准确的系统模型才能做出针对性的训练和调整,需要人为的调查和收集所应用的场合信息,训练部分智能体并记录他们的轨迹作为引导路径,花费时间做出相应的训练和调整。

技术实现思路

[0004]本说明书一个或多个实施例提供了一种基于强化学习的集群系统协同控制方法,包括:
[0005]S1.对集群系统中的智能体分别建立动力学模型,并确定各智能体在集群系统中路径规划时的约束条件;
[0006]S2.根据所述约束条件设计效用函数,基于所述效用函数确定各智能体的状态向量;
[0007]S3.根据所述效用函数设计智能体的性能指标函数,以性能指标函数最小化为控制目标,利用神经网络构建路径规划模型;
[0008]S4.基于强化学习对所述路径规划模型进行训练,用梯度下降算法实现对模型参数进行更新,获得集群系统协同控制的最优控制策略。
[0009]本说明书一个或多个实施例提供了一种基于强化学习的集群系统协同控制系统,包括:
[0010]第一模型构建模块:用于对集群系统中的智能体分别建立动力学模型,并确定各智能体在集群系统中路径规划时的约束条件;
[0011]数据处理模块:用于根据所述约束条件设计效用函数,基于所述效用函数确定各智能体的状态向量;
[0012]第二模型构建模块:用于根据所述效用函数设计智能体的性能指标函数,以性能指标函数最小化为控制目标,利用神经网络构建路径规划模型;
[0013]控制策略获取模块:用于基于强化学习对所述路径规划模型进行训练,用梯度下降算法实现对模型参数进行更新,获得集群系统协同控制的最优控制策略。
[0014]本说明书一个或多个实施例提供了一种电子设备,包括处理器,以及被安排成存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器实现上述的一种基于强化学习的集群系统协同控制方法的步骤。
[0015]本说明书一个或多个实施例提供了一种存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被执行时实现上述的一种基于强化学习的集群系统协同控制方法的步骤。
[0016]本专利技术有益效果如下:
[0017]本专利技术应用强化学习理论,采用群体学习的方式,将复杂环境下多个可能的动态威胁设计成价值网络性能指标函数,并以最小化价值网络的输出作为每个智能体的最优控制策略,实现智能体集群协同控制;本专利技术提出的控制策略,能够使得智能体集群对于多样环境具有更强的适应性,能满足任务执行的相关要求和标准;实现了智能体集群在复杂环境下,面对未知的动态环境,能快速获得最优控制策略,实现集群智能体避碰控制,具备高效完成高难度的搜索和跟踪任务的潜力,具有很大的应用前景。
[0018]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。
附图说明
[0019]为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0020]图1为本说明书一个或多个实施例提供的一种基于强化学习的集群系统协同控制方法的流程图;
[0021]图2为本说明书一个或多个实施例提供的一种基于强化学习的集群系统协同控制方法中智能体与动态威胁的关系示意图;
[0022]图3为本说明书一个或多个实施例提供的一种基于强化学习的集群系统协同控制方法中控制策略的结构示意图;
[0023]图4为本说明书一个或多个实施例提供的一种基于强化学习的集群系统协同控制系统的组成示意图;
[0024]图5为本说明书一个或多个实施例提供的一种电子设备的结构示意图。
具体实施方式
[0025]为了使本
的人员更好地理解本说明书一个或多个实施例中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书一个或多个实施例,本领域普通技术人员在没有作出创造
性劳动前提下所获得的所有其他实施例,都应当属于本文件的保护范围。
[0026]方法实施例
[0027]根据本专利技术实施例,提供了一种基于强化学习的集群系统协同控制方法,图1为本说明书一个或多个实施例提供的一种基于强化学习的集群系统协同控制方法的流程图,如图1所示,根据本专利技术实施例的基于强化学习的集群系统协同控制方法具体包括:
[0028]S1.对集群系统中的智能体分别建立动力学模型,并确定各智能体在集群系统中路径规划时的约束条件。
[0029]所述集群系统中的智能体包括多个一般智能体、一个虚拟领导者和动态威胁。
[0030]对于由N个智能体组成的集群系统,假设其环境为二维空间,则对集群系统中的智能体分别建立动力学模型具体包括:
[0031]对所述一般智能体建立动力学模型,具体如公式1所示:
[0032][0033]其中,P
i
和v
i
表示一般智能体i的位置和速度,u
i
为控制变量,f
i
为未知的外部干扰,t表示时间;
[0034]对所述虚拟领导者建立动力学模型,具体如公式2所示:
[0035][0036]其中,P
r
表示虚拟领导者的位置,v
r
为虚拟领导者的速度;
[0037]对半径为r
h
的动态威胁建立动力学模型,具体如公式3所示:
[0038][0039]其中,P
h
表示动态威胁的位置,v
h
为动态威胁的速度。
[0040本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的集群系统协同控制方法,其特征在于,包括:S1.对集群系统中的智能体分别建立动力学模型,并确定各智能体在集群系统中路径规划时的约束条件;S2.根据所述约束条件设计效用函数,基于所述效用函数确定各智能体的状态向量;S3.根据所述效用函数设计智能体的性能指标函数,以性能指标函数最小化为控制目标,利用神经网络构建路径规划模型;S4.基于强化学习对所述路径规划模型进行训练,用梯度下降算法实现对模型参数进行更新,获得集群系统协同控制的最优控制策略。2.根据权利要求1所述的方法,其特征在于,所述集群系统中的智能体包括多个一般智能体、一个虚拟领导者和动态威胁。3.根据权利要求2所述的方法,其特征在于,所述对集群系统中的智能体分别建立动力学模型具体包括:对所述一般智能体建立动力学模型,具体如公式1所示:其中,P
i
和v
i
表示一般智能体i的位置和速度,u
i
为控制变量,f
i
为未知的外部干扰,t表示时间;对所述虚拟领导者建立动力学模型具体如公式2所示:其中,P
r
表示虚拟领导者的位置,v
r
为虚拟领导者的速度;对半径为r
h
的动态威胁建立动力学模型,具体如公式3所示:其中,P
h
表示动态威胁的位置,v
h
为动态威胁的速度。4.根据权利要求2所述的方法,其特征在于,所述确定各智能体在集群系统中路径规划时的约束条件具体为:所述约束条件包括距离约束和角度约束,所述距离约束具体如公式4所示:||P
ri
(t)||<d
r
;P
ri
(t)=P
r
(t)

P
i
(t)||P
ij
(t)||>d
s
;P
ij
(t)=P
i
(t)

P
j
(t)||P
ih
(t)||>d
h
;P
ih
(t)=P
i
(t)

P
he
(t)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式4;其中,d
r
表示每个智能体到虚拟领导者所期望的最大距离;d
s
表示两个智能体之间所期望的最小安全距离;P
he
是被检测到的最近的动态威胁位置,即检测到的威胁的边缘位置;d
h
表示智能体与动态威胁所期望的安全距离;所述角度约束具体如公式5所示:θ
ih
>θ
s
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式5;其中,θ
s
表示所期望的最小安全角;θ
ih
为智能体i与动态威胁的相对速度方向v
ih
与动态威胁边界线的夹角,用来判断智能体的运动方向是否有碰撞到威胁的趋势,具体计算方法如公式6所示:
其中,表示智能体i与动态威胁的相对位置P
ih
和相对速度v
ih
之间的夹角。v
ih
(t)=v
i
(t)

v
h
(t);θ
h
为智能体i检测到的威胁角度范围。5.根据权...

【专利技术属性】
技术研发人员:蓝雪婧陈怡任钟嘉威何树德邹涛
申请(专利权)人:广州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1