System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及深度强化学习领域,具体涉及一种多机器人协同搜索的训练方法。
技术介绍
1、近年来,深度强化学习(deep reinforcement learning,drl)理论为多机器人协同搜索问题提供了一种新的解决思路。深度强化学习具有强大的感知与决策能力,将智能体的感知、学习、决策能力整合到同一框架中,实现了从原始输入到决策动作“端到端”的感知与决策,为多机器人系统中复杂和不确定的环境问题提供了解决方案。
2、尽管深度强化学习采用端到端的策略,比传统方法更有优势,在多机器人体领域取得了巨大的成功,但现有技术无法处理稀疏奖励、随机噪声等特点的环境,导致搜索机器人只会得到稀疏的奖励,不会收到持续的、有意义的反馈,从而造成机器人的训练效果变差甚至无法学习到有效策略,导致搜索困难。
3、因此,亟待提供一种改进的多机器人协同搜索的训练方法,能够优化传统方法中的奖励函数,提高机器人的自学习能力,进而提高多机器人系统的搜索效率和稳定性。
技术实现思路
1、本专利技术旨在提供一种多机器人协同搜索的训练方法,其能够解决上述技术问题。
2、根据本专利技术的一个方面,提供了一种多机器人协同搜索的训练方法,包括:s1:建立多机器人协同搜索任务及该多机器人的运动学模型;s2:设计该多机器人协同搜索的总体奖励,包括环境奖励和动机奖励;s3:根据该总体奖励,训练多机器人协同搜索模型。
3、优选地,搜索机器人i在t时刻的该总体奖励r(t)为:
4、
5、其中,n为该搜索机器人的总数量,di为该搜索机器人与搜索目标之间的距离值,rie(t)为该环境奖励,riem(t)为动机奖励,xi(t)、yi(t)、xtar(t)、ytar(t)分别为该搜索机器人i与该搜索目标在t时刻的位置坐标值。
6、优选地,该搜索机器人i在t时刻触发一种或多种该环境奖励,包括:第一环境奖励ri1(t)=10,用于奖励该搜索机器人i搜索到目标;第二环境奖励ri2(t)=-2,用于奖励该搜索机器人i与障碍物发生碰撞;第三环境奖励用于奖励该搜索机器人之间发生碰撞,其中λ是碰撞惩罚因子;第四环境奖励ri4(t)=-10×(max(|xi(t)|,|yi(t)|)-0.9),用于奖励该搜索机器人i移动到边界。
7、优选地,该动机奖励的公式为:
8、
9、其中,ei(t)为该搜索机器人i的情感强度,具体可表达为:
10、其中,为该搜索机器人i的个性映射,为该搜索机器人i的情感衰减,为该搜索机器人i的所接收到的外界情感刺激,g(x)为将该情感强度ei(t)的取值保持在[-1,1]范围的函数。
11、优选地,该个性映射为:
12、
13、其中,v为机器人基本情感状态(v=1,2,…m),为该搜索机器人i处于任一该基本情感状态v时在pad情感空间对应的坐标,表示该搜索机器人i的个性在pad情感空间对应的坐标,disi,v(t)表示该搜索机器人i的该个性与任一该基本情感状态间的疏密程度,di(t)表示该搜索机器人i的整体情感倾向。
14、优选地,该情感衰减为:
15、
16、其中,ei(t-1)表示该搜索机器人i上一时刻的该情感强度,φ(ki)表示情感衰减函数,ki表示由个性决定的情感衰减速率,t表示衰减周期。
17、优选地,该外界情感刺激为:
18、
19、其中,si(t-1)为该搜索机器人i上一时刻该受到的刺激强度,rie(t-1)为上一时刻该搜索机器人i的环境奖励。
20、优选地,该多机器人协同搜索模型包括:策略网络根据当前状态s(t)输出当前动作ai(t);评价网络根据该当前状态s(t)和该当前动作ai(t)输出动作价值qi(t);经验池,用于存放经验回放数组m,该经验回放数组包括,该当前状态s(t)、所有搜索机器人的当前动作a(t)、所有搜索机器人的当前总体奖励r(t)以及根据该所有搜索机器人的当前动作a(t)的下一时刻状态s(t+1),其中该当前状态s(t)和该下一时刻状态s(t+1)采用所有搜索机器人的当前联合观察状态o(t)和下一时刻联合观察状态o(t+1)。
21、优选地,根据该总体奖励,训练多机器人协同搜索模型包括:s31:初始化该策略网络、该评价网络以及该当前状态s(t);s32:根据该策略网络和该当前状态s(t),得到每个该搜索机器人i的该当前动作ai(t);s33:执行每个该搜索机器人i的动作ai(t),得到每个该搜索机器人i的下一时刻状态si(t+1)和每个该搜索机器人i的当前总体奖励ri(t);s34:将该当前状态s(t)、该所有搜索机器人的当前动作a(t)、该所有搜索机器人的当前总体奖励r(t)以及该下一时刻状态s(t+1)作为一个该经验回放数组m储存在该经验池;s35:采样该经验回放数组m,更新该策略网络和该评价网络;s36:重复步骤s32-s35至训练结束。
22、优选地,采样该经验回放数组m,更新该策略网络和该评价网络包括:s351:根据该搜索机器人i的期望收益的梯度更新该策略网络:
23、
24、其中,为策略网络参数,o(t)为该当前联合观察状态,o(t)=(o1(t),o2(t),...,on(t)),qi(t)为当前时刻该搜索机器人i的集中评价值;s352:根据时序差分误差更新该策略网络:
25、
26、其中,为评价网络参数,为该评价网络的损失值,y(t)为该评价网络的目标值,r(t)为搜索机器人i在t时刻的该总体奖励,γ为折扣因子,qi(t)为下一时刻该搜索机器人i的集中评价值,为该搜索机器人i的在下一时刻更新的确定性策略。
27、本专利技术公开了一种多机器人协同搜索的训练方法,包括:s1:建立多机器人协同搜索任务及该多机器人的运动学模型;s2:设计该多机器人协同搜索的总体奖励,包括环境奖励和动机奖励;s3:根据该总体奖励,训练多机器人协同搜索模型,从而从奖励补充的角度进行出发,得到一个基于个性的情感系统,并将其与多智能体深度确定性策略梯度算法(multi-agent deep deterministic policy gradient,maddpg)相结合,有效地提高了多机器人在复杂动态环境下机器人的搜索效率和速度。
本文档来自技高网...【技术保护点】
1.一种多机器人协同搜索的训练方法,其特征在于,包括:
2.根据权利要求1所述的多机器人协同搜索的训练方法,其特征在于,搜索机器人i在t时刻的所述总体奖励R(t)为:
3.根据权利要求2所述的多机器人协同搜索的训练方法,其特征在于,所述搜索机器人i在t时刻触发一种或多种所述环境奖励,包括:
4.根据权利要求2所述的多机器人协同搜索的训练方法,其特征在于,所述动机奖励的公式为:
5.根据权利要求4所述的多机器人协同搜索的训练方法,其特征在于,所述个性映射为:
6.根据权利要求4所述的多机器人协同搜索的训练方法,其特征在于,所述情感衰减为:
7.根据权利要求4所述的多机器人协同搜索的训练方法,其特征在于,所述外界情感刺激为:
8.根据权利要求1所述的多机器人协同搜索的训练方法,其特征在于,所述多机器人协同搜索模型包括:
9.根据权利要求8所述的多机器人协同搜索的训练方法,其特征在于,根据所述总体奖励,训练多机器人协同搜索模型包括:
10.根据权利要求9所述的多机器人协同搜索的训
...【技术特征摘要】
1.一种多机器人协同搜索的训练方法,其特征在于,包括:
2.根据权利要求1所述的多机器人协同搜索的训练方法,其特征在于,搜索机器人i在t时刻的所述总体奖励r(t)为:
3.根据权利要求2所述的多机器人协同搜索的训练方法,其特征在于,所述搜索机器人i在t时刻触发一种或多种所述环境奖励,包括:
4.根据权利要求2所述的多机器人协同搜索的训练方法,其特征在于,所述动机奖励的公式为:
5.根据权利要求4所述的多机器人协同搜索的训练方法,其特征在于,所述个性映射为:
6.根据权利要求...
【专利技术属性】
技术研发人员:郑远鹏,张翔,历莉,鲍飞,李辉,刘亚亮,陶廷伟,詹鹏宇,曹祎楠,高日,廖红星,姚嘉墨,庄绪君,金锋,孙沐霖,吴龙升,
申请(专利权)人:北京市市政工程设计研究总院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。