多任务场景下多机器人自适应分组合作的控制方法及设备技术

技术编号：41699932 阅读：21 留言：0更新日期：2024-06-19 12:33

本发明专利技术提供了一种多任务场景下多机器人自适应分组合作的控制方法及设备，本发明专利技术构建多机器人系统在动态多任务资源收集场景下的自适应分组合作方法，在变化的资源收集场景中多机器人能进行自适应分组分工合作。本发明专利技术根据机器人数目定义多种机器人分组方式，根据环境中各个资源目标点的信息为机器人选择恰当的机器人分组方式，再为每个机器人小组分配一个资源目标点；本发明专利技术能够随着环境中各个资源目标点的变化对机器人重新进行分组，使得多机器人系统适应资源收集场景中的突发情况，高效完成任务。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于机器人，特别是涉及一种多任务场景下多机器人自适应分组合作的控制方法及设备。

技术介绍

1、多机器人任务分配(mrta)是受关注的多机器人系统问题之一，多机器人任务分配(mrta)指的是一组给定的任务需由一组机器人来完成，机器人的目的是最优化一个目标函数(例如，最小化机器人行程距离、最小化任务完成时间、最大化任务完成率等)。

2、在资源收集环境中(例如物品装箱，一个物品可能需要多个机器人一起合作装进箱子中)，常见多机器人任务分配的研究方法主要分为两种：集中式和分布式。在集中式中，维护一个中央服务器为每个机器人分配资源目标点。中央服务器根据所有资源目标点状态、机器人相对位置、电池容量等参数分配任务；集中式的方法适用于一组具有稳定通信的机器人，可确保机器人群体之间资源目标点分配的一致性；在分布式中，每个机器人独立安排自己的资源目标点，根据自身状态信息自行分配有利可图的任务，不受通信的影响。集中式方法和分布式方法都不能保证机器人与任务之间的高匹配，这两种方法会促使机器人产生趋易性，机器人优先趋向一同去完成简单任务，即便该任务只需一个机器人就可完成，这就导致在资源收集过程中，机器人浪费大量的时间做无用的事情；同时，在面对一个需要多个机器人协作收集的资源目标时，这两种方法很难保证多个机器人同时进行收集行为，比如多个机器人同时执行抬起物品的动作。

3、深度强化学习(drl，deep reinforcement learning)在解决上述问题上取得了不错的效果，drl方法利用奖励有利行为的机制诱导机器人收

技术实现思路

1、本专利技术的目的是针对现有技术不足，提供了一种多任务场景下多机器人自适应分组合作的控制方法及系统，在变化的资源收集场景中多机器人能适应环境资源目标点动态变化，进行自适应分组分工合作。

2、为了实现上述目的，本专利技术所采用的技术方案是：

3、一种多机器人自适应分组合作的控制方法，包括：

4、获取环境全局信息、每个行动机器人的本地信息，定义行动机器人的所有分组方式；

5、将环境全局信息、每个行动机器人的本地信息作为多机器人自适应分组合作的控制模型的输入，训练多机器人自适应分组合作的控制模型，所述多机器人自适应分组合作的控制模型包括依次连接的第一dqn网络、第二dqn网络、drqn网络；

6、所述多机器人自适应分组合作的控制模型的训练过程包括：

7、s1：初始化第k轮训练周期行动机器人的行动步数t＝0，初始化第k轮训练周期中心机器人的行动步数d＝0；

8、s2：将当前的环境全局信息sd输入到第一dqn网络中，得到行动机器人的每种分组方式的评分，选择评分最高的分组方式作为当前的行动机器人分组方式γd；

9、s3：将当前的分组方式γd下各个行动机器人小组的类别和当前所有的资源目标点信息输入到第二dqn网络中，得到每个行动机器人小组对各个资源目标点的评分，选择每个行动机器人小组对应的评分最高的资源目标点，作为每个行动机器人小组的任务目标

10、s4：将每个行动机器人小组的任务目标和每个行动机器人的本地信息ot输入到drqn网络中，得到每个行动机器人的可执行动作的评分，选择每个行动机器人的评分最高的动作作为每个行动机器人的目标动作at；

11、s5：存储每个行动机器人的经验轨迹为行动机器人执行at后的任务完成度奖励，ot+1为行动机器人采取动作at后的本地信息；

12、s6：t的值更新为t+1，如果t>t，转至步骤s7；如果t＜t，t-d*b<b，转至步骤s4；如果t＜t，t-d*b＝b，转至步骤s7，b为第二dqn网络的输出频率，t为行动机器人的最大行动步数；

13、s7：存储中心机器人的经验轨迹其中yd为中心机器人的动作，为第一dqn网络的分组奖励和第二dqn网络的分配任务奖励的结合，sd+1为中心机器人采取动作ud后的环境全局信息；

14、s8：d的值更新为d+1，如果t>t，转至步骤s9，否则转至步骤s2；

15、s9：若中心机器人的经验轨迹大于或等于h条，则随机抽取h条中心机器人的经验轨迹和h条行动机器人的经验轨迹，优化多机器人自适应分组合作的控制模型的参数，参数优化后执行步骤s10；否则，k的值更新为k+1，转至步骤s1；

16、s10：k的值更新为k+1，若k＜k，转至步骤s1，若k＞k，训练结束，得到最终的多机器人自适应分组合作的控制模型，k为最大训练周期数。

17、本专利技术根据环境中各个资源目标点的信息为机器人选择恰当的机器人分组方式，再为每个机器人小组分配资源目标点，多机器人系统能根据不同的资源目标点采取不同的分组收集策略；本专利技术能够随着环境中各个资源目标点的变化对机器人重新进行分组，使得多机器人系统能够适应动态变化的多任务场景，应对收集资源时场景产生的突发情况；本专利技术多机器人系统能在变化的资源收集场景中进行自适应分组分工合作，高效完成任务。

18、进一步地，所述第一dqn网络包括第一q网络和第一target-q网络，第一q网络选择行动机器人的分组方式，第一target-q网络辅助第一q网络的参数优化；第一q网络包括3个全连接层，第一target-q网络的结构与第一q网络相同；

<本文档来自技高网...

【技术保护点】

1.一种多任务场景下多机器人自适应分组合作的控制方法，其特征在于，包括：

2.根据权利要求1所述的多任务场景下多机器人自适应分组合作的控制方法，其特征在于，

3.根据权利要求1所述的多任务场景下多机器人自适应分组合作的控制方法，其特征在于，所述环境全局信息包括所有行动机器人的信息、场景中的障碍物信息、场景中的资源目标点信息；

4.根据权利要求2所述的多任务场景下多机器人自适应分组合作的控制方法，其特征在于，所述优化多机器人自适应分组合作的控制模型的参数的过程包括：

5.一种电子设备，其特征在于，包括：

6.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-4任一项所述方法的步骤。

【技术特征摘要】

1.一种多任务场景下多机器人自适应分组合作的控制方法，其特征在于，包括：

2.根据权利要求1所述的多任务场景下多机器人自适应分组合作的控制方法，其特征在于，

3.根据权利要求1所述的多任务场景下多机器人自适应分组合作的控制方法，其特征在于，所述环境全局信息包括所有行动机器人的信息、场景中的障碍物信息、场景中的资源目标点信息...

【专利技术属性】
技术研发人员：刘璇，易纪千，徐旸，宋继冉，
申请(专利权)人：湖南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人