System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 多任务场景下多机器人自适应分组合作的控制方法及设备技术_技高网
当前位置: 首页 > 专利查询>湖南大学专利>正文

多任务场景下多机器人自适应分组合作的控制方法及设备技术

技术编号:41699932 阅读:13 留言:0更新日期:2024-06-19 12:33
本发明专利技术提供了一种多任务场景下多机器人自适应分组合作的控制方法及设备,本发明专利技术构建多机器人系统在动态多任务资源收集场景下的自适应分组合作方法,在变化的资源收集场景中多机器人能进行自适应分组分工合作。本发明专利技术根据机器人数目定义多种机器人分组方式,根据环境中各个资源目标点的信息为机器人选择恰当的机器人分组方式,再为每个机器人小组分配一个资源目标点;本发明专利技术能够随着环境中各个资源目标点的变化对机器人重新进行分组,使得多机器人系统适应资源收集场景中的突发情况,高效完成任务。

【技术实现步骤摘要】

本专利技术属于机器人,特别是涉及一种多任务场景下多机器人自适应分组合作的控制方法及设备


技术介绍

1、多机器人任务分配(mrta)是受关注的多机器人系统问题之一,多机器人任务分配(mrta)指的是一组给定的任务需由一组机器人来完成,机器人的目的是最优化一个目标函数(例如,最小化机器人行程距离、最小化任务完成时间、最大化任务完成率等)。

2、在资源收集环境中(例如物品装箱,一个物品可能需要多个机器人一起合作装进箱子中),常见多机器人任务分配的研究方法主要分为两种:集中式和分布式。在集中式中,维护一个中央服务器为每个机器人分配资源目标点。中央服务器根据所有资源目标点状态、机器人相对位置、电池容量等参数分配任务;集中式的方法适用于一组具有稳定通信的机器人,可确保机器人群体之间资源目标点分配的一致性;在分布式中,每个机器人独立安排自己的资源目标点,根据自身状态信息自行分配有利可图的任务,不受通信的影响。集中式方法和分布式方法都不能保证机器人与任务之间的高匹配,这两种方法会促使机器人产生趋易性,机器人优先趋向一同去完成简单任务,即便该任务只需一个机器人就可完成,这就导致在资源收集过程中,机器人浪费大量的时间做无用的事情;同时,在面对一个需要多个机器人协作收集的资源目标时,这两种方法很难保证多个机器人同时进行收集行为,比如多个机器人同时执行抬起物品的动作。

3、深度强化学习(drl,deep reinforcement learning)在解决上述问题上取得了不错的效果,drl方法利用奖励有利行为的机制诱导机器人收集资源,从而完成任务。在大型资源收集场景下,一种常见的drl方法是基于所有资源目标点的信息训练一个机器人分组策略,以机器人小组为单位完成资源收集任务。比如论文《self-organized group forcoorperative multi-agent reinforcement learning》(译为“自组织团队的合作多智能体强化学习”,发表在neurlps上的一篇论文,出版时间2022年11月)提出了一种利用智能体之间的物理距离进行分组的方法,该方法中采用强化学习的方法在智能体之间选择出一个“领导者”,“领导者”与相邻的智能体通过共享探测信息来形成一个子团队。然而,在大型资源收集场景下,使用这类方法的机器人系统由于没有显示的约束机器人小组与资源目标点的匹配度,导致形成的机器人小组很有可能不具备完成任务的能力。论文《multi-agentconcentrative coordination with decentralized task representation》(译为“采用分布式任务表征的多智能体集中协调”,发表在ijcai上的一篇论文,出版时间2022年7月)提出一种根据智能体的信息特征隐式地形成智能体小组的方法,使用这种方法的机器人同样会导致上述问题。不仅如此,在现实环境中,多机器人面对的资源收集环境是复杂且动态变化的,各个资源目标点需要一定数量的机器人才能收集完物资,且环境可能会出现突发情况(例如发现新的资源目标点);这不仅需要机器人系统组成有效的机器人小组,还需机器人系统能够随着环境中各个资源目标点的变化对机器人重新进行分组,以高效完成资源收集任务。


技术实现思路

1、本专利技术的目的是针对现有技术不足,提供了一种多任务场景下多机器人自适应分组合作的控制方法及系统,在变化的资源收集场景中多机器人能适应环境资源目标点动态变化,进行自适应分组分工合作。

2、为了实现上述目的,本专利技术所采用的技术方案是:

3、一种多机器人自适应分组合作的控制方法,包括:

4、获取环境全局信息、每个行动机器人的本地信息,定义行动机器人的所有分组方式;

5、将环境全局信息、每个行动机器人的本地信息作为多机器人自适应分组合作的控制模型的输入,训练多机器人自适应分组合作的控制模型,所述多机器人自适应分组合作的控制模型包括依次连接的第一dqn网络、第二dqn网络、drqn网络;

6、所述多机器人自适应分组合作的控制模型的训练过程包括:

7、s1:初始化第k轮训练周期行动机器人的行动步数t=0,初始化第k轮训练周期中心机器人的行动步数d=0;

8、s2:将当前的环境全局信息sd输入到第一dqn网络中,得到行动机器人的每种分组方式的评分,选择评分最高的分组方式作为当前的行动机器人分组方式γd;

9、s3:将当前的分组方式γd下各个行动机器人小组的类别和当前所有的资源目标点信息输入到第二dqn网络中,得到每个行动机器人小组对各个资源目标点的评分,选择每个行动机器人小组对应的评分最高的资源目标点,作为每个行动机器人小组的任务目标

10、s4:将每个行动机器人小组的任务目标和每个行动机器人的本地信息ot输入到drqn网络中,得到每个行动机器人的可执行动作的评分,选择每个行动机器人的评分最高的动作作为每个行动机器人的目标动作at;

11、s5:存储每个行动机器人的经验轨迹为行动机器人执行at后的任务完成度奖励,ot+1为行动机器人采取动作at后的本地信息;

12、s6:t的值更新为t+1,如果t>t,转至步骤s7;如果t<t,t-d*b<b,转至步骤s4;如果t<t,t-d*b=b,转至步骤s7,b为第二dqn网络的输出频率,t为行动机器人的最大行动步数;

13、s7:存储中心机器人的经验轨迹其中yd为中心机器人的动作,为第一dqn网络的分组奖励和第二dqn网络的分配任务奖励的结合,sd+1为中心机器人采取动作ud后的环境全局信息;

14、s8:d的值更新为d+1,如果t>t,转至步骤s9,否则转至步骤s2;

15、s9:若中心机器人的经验轨迹大于或等于h条,则随机抽取h条中心机器人的经验轨迹和h条行动机器人的经验轨迹,优化多机器人自适应分组合作的控制模型的参数,参数优化后执行步骤s10;否则,k的值更新为k+1,转至步骤s1;

16、s10:k的值更新为k+1,若k<k,转至步骤s1,若k>k,训练结束,得到最终的多机器人自适应分组合作的控制模型,k为最大训练周期数。

17、本专利技术根据环境中各个资源目标点的信息为机器人选择恰当的机器人分组方式,再为每个机器人小组分配资源目标点,多机器人系统能根据不同的资源目标点采取不同的分组收集策略;本专利技术能够随着环境中各个资源目标点的变化对机器人重新进行分组,使得多机器人系统能够适应动态变化的多任务场景,应对收集资源时场景产生的突发情况;本专利技术多机器人系统能在变化的资源收集场景中进行自适应分组分工合作,高效完成任务。

18、进一步地,所述第一dqn网络包括第一q网络和第一target-q网络,第一q网络选择行动机器人的分组方式,第一target-q网络辅助第一q网络的参数优化;第一q网络包括3个全连接层,第一target-q网络的结构与第一q网络相同;

<本文档来自技高网...

【技术保护点】

1.一种多任务场景下多机器人自适应分组合作的控制方法,其特征在于,包括:

2.根据权利要求1所述的多任务场景下多机器人自适应分组合作的控制方法,其特征在于,

3.根据权利要求1所述的多任务场景下多机器人自适应分组合作的控制方法,其特征在于,所述环境全局信息包括所有行动机器人的信息、场景中的障碍物信息、场景中的资源目标点信息;

4.根据权利要求2所述的多任务场景下多机器人自适应分组合作的控制方法,其特征在于,所述优化多机器人自适应分组合作的控制模型的参数的过程包括:

5.一种电子设备,其特征在于,包括:

6.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-4任一项所述方法的步骤。

【技术特征摘要】

1.一种多任务场景下多机器人自适应分组合作的控制方法,其特征在于,包括:

2.根据权利要求1所述的多任务场景下多机器人自适应分组合作的控制方法,其特征在于,

3.根据权利要求1所述的多任务场景下多机器人自适应分组合作的控制方法,其特征在于,所述环境全局信息包括所有行动机器人的信息、场景中的障碍物信息、场景中的资源目标点信息...

【专利技术属性】
技术研发人员:刘璇易纪千徐旸宋继冉
申请(专利权)人:湖南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1