System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 多机器人协同搜索的训练方法技术_技高网

多机器人协同搜索的训练方法技术

技术编号:43846390 阅读:5 留言:0更新日期:2024-12-31 18:40
本发明专利技术公开了一种多机器人协同搜索的训练方法,包括:S1:建立多机器人协同搜索任务及该多机器人的运动学模型;S2:设计该多机器人协同搜索的总体奖励,包括环境奖励和动机奖励;S3:根据该总体奖励,训练多机器人协同搜索模型,从而从奖励补充的角度进行出发,得到一个基于个性的情感系统,并将其与多智能体深度确定性策略梯度算法相结合,有效地提高了多机器人在复杂动态环境下机器人的搜索效率和速度。

【技术实现步骤摘要】

本专利技术涉及深度强化学习领域,具体涉及一种多机器人协同搜索的训练方法


技术介绍

1、近年来,深度强化学习(deep reinforcement learning,drl)理论为多机器人协同搜索问题提供了一种新的解决思路。深度强化学习具有强大的感知与决策能力,将智能体的感知、学习、决策能力整合到同一框架中,实现了从原始输入到决策动作“端到端”的感知与决策,为多机器人系统中复杂和不确定的环境问题提供了解决方案。

2、尽管深度强化学习采用端到端的策略,比传统方法更有优势,在多机器人体领域取得了巨大的成功,但现有技术无法处理稀疏奖励、随机噪声等特点的环境,导致搜索机器人只会得到稀疏的奖励,不会收到持续的、有意义的反馈,从而造成机器人的训练效果变差甚至无法学习到有效策略,导致搜索困难。

3、因此,亟待提供一种改进的多机器人协同搜索的训练方法,能够优化传统方法中的奖励函数,提高机器人的自学习能力,进而提高多机器人系统的搜索效率和稳定性。


技术实现思路

1、本专利技术旨在提供一种多机器人协同搜索的训练方法,其能够解决上述技术问题。

2、根据本专利技术的一个方面,提供了一种多机器人协同搜索的训练方法,包括:s1:建立多机器人协同搜索任务及该多机器人的运动学模型;s2:设计该多机器人协同搜索的总体奖励,包括环境奖励和动机奖励;s3:根据该总体奖励,训练多机器人协同搜索模型。

3、优选地,搜索机器人i在t时刻的该总体奖励r(t)为:

4、

5、其中,n为该搜索机器人的总数量,di为该搜索机器人与搜索目标之间的距离值,rie(t)为该环境奖励,riem(t)为动机奖励,xi(t)、yi(t)、xtar(t)、ytar(t)分别为该搜索机器人i与该搜索目标在t时刻的位置坐标值。

6、优选地,该搜索机器人i在t时刻触发一种或多种该环境奖励,包括:第一环境奖励ri1(t)=10,用于奖励该搜索机器人i搜索到目标;第二环境奖励ri2(t)=-2,用于奖励该搜索机器人i与障碍物发生碰撞;第三环境奖励用于奖励该搜索机器人之间发生碰撞,其中λ是碰撞惩罚因子;第四环境奖励ri4(t)=-10×(max(|xi(t)|,|yi(t)|)-0.9),用于奖励该搜索机器人i移动到边界。

7、优选地,该动机奖励的公式为:

8、

9、其中,ei(t)为该搜索机器人i的情感强度,具体可表达为:

10、其中,为该搜索机器人i的个性映射,为该搜索机器人i的情感衰减,为该搜索机器人i的所接收到的外界情感刺激,g(x)为将该情感强度ei(t)的取值保持在[-1,1]范围的函数。

11、优选地,该个性映射为:

12、

13、其中,v为机器人基本情感状态(v=1,2,…m),为该搜索机器人i处于任一该基本情感状态v时在pad情感空间对应的坐标,表示该搜索机器人i的个性在pad情感空间对应的坐标,disi,v(t)表示该搜索机器人i的该个性与任一该基本情感状态间的疏密程度,di(t)表示该搜索机器人i的整体情感倾向。

14、优选地,该情感衰减为:

15、

16、其中,ei(t-1)表示该搜索机器人i上一时刻的该情感强度,φ(ki)表示情感衰减函数,ki表示由个性决定的情感衰减速率,t表示衰减周期。

17、优选地,该外界情感刺激为:

18、

19、其中,si(t-1)为该搜索机器人i上一时刻该受到的刺激强度,rie(t-1)为上一时刻该搜索机器人i的环境奖励。

20、优选地,该多机器人协同搜索模型包括:策略网络根据当前状态s(t)输出当前动作ai(t);评价网络根据该当前状态s(t)和该当前动作ai(t)输出动作价值qi(t);经验池,用于存放经验回放数组m,该经验回放数组包括,该当前状态s(t)、所有搜索机器人的当前动作a(t)、所有搜索机器人的当前总体奖励r(t)以及根据该所有搜索机器人的当前动作a(t)的下一时刻状态s(t+1),其中该当前状态s(t)和该下一时刻状态s(t+1)采用所有搜索机器人的当前联合观察状态o(t)和下一时刻联合观察状态o(t+1)。

21、优选地,根据该总体奖励,训练多机器人协同搜索模型包括:s31:初始化该策略网络、该评价网络以及该当前状态s(t);s32:根据该策略网络和该当前状态s(t),得到每个该搜索机器人i的该当前动作ai(t);s33:执行每个该搜索机器人i的动作ai(t),得到每个该搜索机器人i的下一时刻状态si(t+1)和每个该搜索机器人i的当前总体奖励ri(t);s34:将该当前状态s(t)、该所有搜索机器人的当前动作a(t)、该所有搜索机器人的当前总体奖励r(t)以及该下一时刻状态s(t+1)作为一个该经验回放数组m储存在该经验池;s35:采样该经验回放数组m,更新该策略网络和该评价网络;s36:重复步骤s32-s35至训练结束。

22、优选地,采样该经验回放数组m,更新该策略网络和该评价网络包括:s351:根据该搜索机器人i的期望收益的梯度更新该策略网络:

23、

24、其中,为策略网络参数,o(t)为该当前联合观察状态,o(t)=(o1(t),o2(t),...,on(t)),qi(t)为当前时刻该搜索机器人i的集中评价值;s352:根据时序差分误差更新该策略网络:

25、

26、其中,为评价网络参数,为该评价网络的损失值,y(t)为该评价网络的目标值,r(t)为搜索机器人i在t时刻的该总体奖励,γ为折扣因子,qi(t)为下一时刻该搜索机器人i的集中评价值,为该搜索机器人i的在下一时刻更新的确定性策略。

27、本专利技术公开了一种多机器人协同搜索的训练方法,包括:s1:建立多机器人协同搜索任务及该多机器人的运动学模型;s2:设计该多机器人协同搜索的总体奖励,包括环境奖励和动机奖励;s3:根据该总体奖励,训练多机器人协同搜索模型,从而从奖励补充的角度进行出发,得到一个基于个性的情感系统,并将其与多智能体深度确定性策略梯度算法(multi-agent deep deterministic policy gradient,maddpg)相结合,有效地提高了多机器人在复杂动态环境下机器人的搜索效率和速度。

本文档来自技高网...

【技术保护点】

1.一种多机器人协同搜索的训练方法,其特征在于,包括:

2.根据权利要求1所述的多机器人协同搜索的训练方法,其特征在于,搜索机器人i在t时刻的所述总体奖励R(t)为:

3.根据权利要求2所述的多机器人协同搜索的训练方法,其特征在于,所述搜索机器人i在t时刻触发一种或多种所述环境奖励,包括:

4.根据权利要求2所述的多机器人协同搜索的训练方法,其特征在于,所述动机奖励的公式为:

5.根据权利要求4所述的多机器人协同搜索的训练方法,其特征在于,所述个性映射为:

6.根据权利要求4所述的多机器人协同搜索的训练方法,其特征在于,所述情感衰减为:

7.根据权利要求4所述的多机器人协同搜索的训练方法,其特征在于,所述外界情感刺激为:

8.根据权利要求1所述的多机器人协同搜索的训练方法,其特征在于,所述多机器人协同搜索模型包括:

9.根据权利要求8所述的多机器人协同搜索的训练方法,其特征在于,根据所述总体奖励,训练多机器人协同搜索模型包括:

10.根据权利要求9所述的多机器人协同搜索的训练方法,其特征在于,采样所述经验回放数组M,更新所述策略网络和所述评价网络包括:

...

【技术特征摘要】

1.一种多机器人协同搜索的训练方法,其特征在于,包括:

2.根据权利要求1所述的多机器人协同搜索的训练方法,其特征在于,搜索机器人i在t时刻的所述总体奖励r(t)为:

3.根据权利要求2所述的多机器人协同搜索的训练方法,其特征在于,所述搜索机器人i在t时刻触发一种或多种所述环境奖励,包括:

4.根据权利要求2所述的多机器人协同搜索的训练方法,其特征在于,所述动机奖励的公式为:

5.根据权利要求4所述的多机器人协同搜索的训练方法,其特征在于,所述个性映射为:

6.根据权利要求...

【专利技术属性】
技术研发人员:郑远鹏张翔历莉鲍飞李辉刘亚亮陶廷伟詹鹏宇曹祎楠高日廖红星姚嘉墨庄绪君金锋孙沐霖吴龙升
申请(专利权)人:北京市市政工程设计研究总院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1