System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种多智能体临机自主协同方法及系统技术方案_技高网

一种多智能体临机自主协同方法及系统技术方案

技术编号:44643268 阅读:5 留言:0更新日期:2025-03-17 18:34
本发明专利技术公开了一种多智能体临机自主协同方法及系统,包括:基于智能体集群以及动态目标和区域,智能体与目标间的任务,初始化环境;基于初始化的环境,构建强化学习动作空间;基于强化学习动作空间,搭建计算局部Q<subgt;a</subgt;值的agent动作网络;基于强化学习动作空间,搭建计算全局Q<subgt;tot</subgt;值的Mixer网络;构建红蓝双方行动逻辑,通过agent动作网络计算局部Q<subgt;a</subgt;值,基于局部Q<subgt;a</subgt;值,通过Mixer网络计算全局Q<subgt;tot</subgt;值;基于全局Q<subgt;tot</subgt;值确定下一步动作;重复步骤确定下一步动作,完成任务分配和执行。本发明专利技术可以保证多智能体自主协同优先前往最近的任务目标点,同时,不受目标动态变化、迅速调整位置的影响。

【技术实现步骤摘要】

本专利技术属于多智能体的集群控制领域,具体涉及一种多智能体临机自主协同方法及系统


技术介绍

1、在多智能体协同开展任务过程中,任务分配是一项关键技术,它决定了智能体如何响应动态目标的出现和位置变化。

2、传统的目标分配算法通常设计用于静态目标或基于先前信息的任务分配。然而,在现代复杂环境中,目标可能会动态变化、迅速调整位置,或者对智能体执行任务形成障碍。在这些情况下,传统的目标分配算法可能无法实现最优的任务分配和执行效果。当前的目标分配算法通常专注于静态目标,这些算法依赖于先前的目标信息和静态分配策略。这些方法在处理动态目标时可能表现不佳,因为它们无法有效地适应变化的情况。已有技术中的目标分配算法通常采用以下方法:

3、最近邻分配算法:传统目标分配方法之一,智能体选择距离最近的目标进行分配。这种方法简单直观,但可能导致任务不均匀分配。

4、加权分配算法:一些已有技术引入了目标权重和任务优先级的概念,以考虑任务的相对重要性。

5、最大-最小分配算法:该算法旨在确保任务均匀分配,但仍然面临动态目标分配的挑战。

6、近年来,
的发展趋势表明,任务分配算法需要更好地适应动态目标和自主协同情景。新兴技术和方法,如强化学习、博弈论、混合整数线性规划等,正在逐渐引入智能体任务分配的领域,以应对更具挑战性的情境。这些趋势强调了以下方向:

7、自适应性和智能性:任务分配算法需要具备更强的自适应性,能够根据动态目标的出现和行为变化实时调整任务分配策略。

8、临机任务能力:考虑到临机任务环境,算法需要更强大的临机反应能力,以保障任务分配和执行的有效性和可靠性。

9、大数据和实时性:处理大量数据和传感器信息的技术需要不断进步,以支持实时任务分配决策。

10、随着智能化技术的快速发展,智能体市场需求也在不断增加。多智能体集群系统在智能家居、消防救援、智能制造等领域都具有广泛的应用前景。为了满足不断增长的市场需求,需要提供更高效、更安全和更强大的多智能体集群解决方案,基于此,本专利技术提出一种多智能体临机自主协同方法。


技术实现思路

1、本专利技术的目的在于提供一种多智能体临机自主协同方法及系统,实现智能体的动态目标分配和任务执行,适用于临机动态环境。

2、实现本专利技术目的的技术方案为:

3、一种多智能体临机自主协同方法,包括:

4、步骤1,基于智能体集群以及动态目标和区域,智能体与目标间的任务,初始化环境;

5、步骤2,基于初始化的环境,构建强化学习动作空间;

6、步骤3,基于强化学习动作空间,搭建计算局部qa值的agent动作网络;

7、步骤4,基于强化学习动作空间,搭建计算全局qtot值的mixer网络;

8、步骤5,构建红蓝双方行动逻辑,通过agent动作网络计算局部qa值,基于局部qa值,通过mixer网络计算全局qtot值;

9、步骤6,基于全局qtot值确定下一步动作;

10、步骤7,重复步骤5-6,完成任务分配和执行。

11、进一步地,所述步骤1具体包括:首先构建智能体与目标的分布,记智能体的数量为n_agents,目标数量为n_opponents,智能体距离中心点分布的距离为view_radius,智能体每次前往目标点并执行任务得到的奖励为kill_reward,网格的宽度为grid_width;根据网格宽度,构建出强化学习的网格,网格大小为grid_width*grid_width;在网格中,智能体以某一个随机中心点进行分布,随机分布在边长为view_radius的正方形中,目标区域在整个网格中随机分布。

12、进一步地,所述强化学习动作空间包括智能体本身的移动动作以及完成特定任务的动作,其中智能体本身的移动动作包括向上移动、向下移动、向左移动、向右移动和原地不动五个动作,执行特定任务的动作数量与特定任务的数量一致,每一个特定动作代表完成一个特定任务。

13、进一步地,所述agent动作网络采用gru结构。

14、进一步地,所述agent动作网络包括级联的第一全连接层、循环神经网络和第二全连接层,其中:

15、第一层全连接层的输入维度为强化学习动作空间的观测值的维度,输出维度为隐藏层维度;

16、循环神经网络包括多个gru单元;

17、第二全连接层的输入为循环神经网络的输出,维度为隐藏层维度,输出为动作空间的局部qa值,维度为动作空间的维度。

18、进一步地,所述gru单元的重置门和更新门为:

19、zt=sigmoid(wzxt+uzht-1)

20、rt=sigmoid(wrxt+urht-1)

21、

22、其中,zt为gru更新门权重参数,rt为gru重置门权重参数,ht为在时间步t时循环神经网络的隐藏层权重,为备选隐藏层权重,wz、uz、wr、ur为可学习的线性变换参数,xt为第一全连接层得到的输出,,sigmoid、tanh为激活函数。

23、进一步地,所述mixer网络包含权重矩阵模块、偏置神经网络以及输出神经网络,所述权重矩阵模块包括两个两个稠密神经网络,用以生成两个权重矩阵w1和w2;所述偏置神经网络为稠密神经网络;所述输出神经网络包括两个稠密神经网络。

24、进一步地,所述mixer网络更新的损失函数为:

25、loss=tderror=qtot(evaluate)-(r+γqtot(target))

26、其中,mixer网络接收在状态s下每个agent网络所选行为的q值作为输入,输出为qtot(evaluate),mixer网络在状态s’下每个agent网络所选行为的q值作为输入,输出为qtot(target)。

27、进一步地,采用ε-greedy策略确定下一步动作。

28、一种多智能体临机自主协同系统,包括:

29、环境初始化单元,基于智能体集群以及动态目标和区域,智能体与目标间的任务,初始化环境;

30、强化学习动作空间构建单元,基于初始化的环境进行强化学习动作空间的构建;

31、agent动作网络搭建单元,基于强化学习动作空间,搭建计算局部qa值的agent动作网络;

32、mixer网络搭建单元,基于强化学习动作空间,搭建计算全局qtot值的mixer网络;

33、局部qa值和全局qtot值计算单元,构建红蓝双方行动逻辑,通过agent动作网络计算局部qa值,基于局部qa值,通过mixer网络计算全局qtot值

34、下一步动作确定单元,基于全局qtot值确定下一步动作。

35、与现有技术相比,本专利技术的有益效果为:本专利技术引入了qmix强化学习算法,搭建agent动作网络和mixer网本文档来自技高网...

【技术保护点】

1.一种多智能体临机自主协同方法,其特征在于,包括:

2.根据权利要求1所述的一种多智能体临机自主协同方法,其特征在于,所述步骤1具体包括:首先构建智能体与目标的分布,记智能体的数量为n_agents,目标数量为n_opponents,智能体距离中心点分布的距离为view_radius,智能体每次前往目标点并执行任务得到的奖励为kill_reward,网格的宽度为grid_width;根据网格宽度,构建出强化学习的网格,网格大小为grid_width*grid_width;在网格中,智能体以某一个随机中心点进行分布,随机分布在边长为view_radius的正方形中,目标区域在整个网格中随机分布。

3.根据权利要求1所述的一种多智能体临机自主协同方法,其特征在于,所述强化学习动作空间包括智能体本身的移动动作以及完成特定任务的动作,其中智能体本身的移动动作包括向上移动、向下移动、向左移动、向右移动和原地不动五个动作,执行特定任务的动作数量与特定任务的数量一致,每一个特定动作代表完成一个特定任务。

4.根据权利要求1所述的一种多智能体临机自主协同方法,其特征在于,所述agent动作网络采用GRU结构。

5.根据权利要求4所述的一种多智能体临机自主协同方法,其特征在于,所述agent动作网络包括级联的第一全连接层、循环神经网络和第二全连接层,其中:

6.根据权利要求5所述的一种多智能体临机自主协同方法,其特征在于,所述GRU单元的重置门和更新门为:

7.根据权利要求1所述的一种多智能体临机自主协同方法,其特征在于,所述Mixer网络包含权重矩阵模块、偏置神经网络以及输出神经网络,所述权重矩阵模块包括两个两个稠密神经网络,用以生成两个权重矩阵W1和W2;所述偏置神经网络为稠密神经网络;所述输出神经网络包括两个稠密神经网络。

8.根据权利要求7所述的一种多智能体临机自主协同方法,其特征在于,所述Mixer网络更新的损失函数为:

9.根据权利要求1所述的一种多智能体临机自主协同方法,其特征在于,采用ε-greedy策略确定下一步动作。

10.一种实现权利要求1-9任一所述方法的多智能体临机自主协同系统,其特征在于,包括:

...

【技术特征摘要】

1.一种多智能体临机自主协同方法,其特征在于,包括:

2.根据权利要求1所述的一种多智能体临机自主协同方法,其特征在于,所述步骤1具体包括:首先构建智能体与目标的分布,记智能体的数量为n_agents,目标数量为n_opponents,智能体距离中心点分布的距离为view_radius,智能体每次前往目标点并执行任务得到的奖励为kill_reward,网格的宽度为grid_width;根据网格宽度,构建出强化学习的网格,网格大小为grid_width*grid_width;在网格中,智能体以某一个随机中心点进行分布,随机分布在边长为view_radius的正方形中,目标区域在整个网格中随机分布。

3.根据权利要求1所述的一种多智能体临机自主协同方法,其特征在于,所述强化学习动作空间包括智能体本身的移动动作以及完成特定任务的动作,其中智能体本身的移动动作包括向上移动、向下移动、向左移动、向右移动和原地不动五个动作,执行特定任务的动作数量与特定任务的数量一致,每一个特定动作代表完成一个特定任务。

4.根据权利要求1所述的一种多智...

【专利技术属性】
技术研发人员:付强刘珂尚鹏辉尹宗宇郭宇豪侯博文
申请(专利权)人:杭州智元研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1