System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及强化学习,具体涉及一种应用于四足机器人的强化学习智能体训练方法。
技术介绍
1、四足机器人是一种仿生设计的机器人,具备四个机械腿,每个机械腿由多个关节组成,能够实现复杂的步态和动作。四足机器人的躯干部分搭载有多个传感器,例如imu(inertial measurement unit,惯性测量单元)、激光雷达、摄像头等,用于感知环境和维持平衡。虽然四足机器人具有较为稳定的结构以及多种传感器,但在复杂环境中工作时,四足机器人仍会面临多种挑战。
2、复杂环境中的地面条件变化很多,例如不平整的地面、松软的沙地、湿滑的表面等,这要求四足机器人能够适应不同的地形特征调整足部关节扭矩。同时,环境中的动态和静态障碍物可能会阻碍四足机器人的前进路线,需要四足机器人具备良好的避障能力与及时反应能力。另外,四足机器人配备的传感器可能受到噪声干扰,导致数据失真或不准确。因此,如何使得四足机器人能够在复杂环境中正常工作,是需要解决的问题。
技术实现思路
1、有鉴于此,本专利技术提供了一种应用于四足机器人的强化学习智能体训练方法,以解决四足机器人能够在复杂环境中正常工作的问题。
2、第一方面,本专利技术提供了一种应用于四足机器人的强化学习智能体训练方法,该方法包括:
3、在四足机器人的强化学习智能体开始本轮训练时,获取上一轮训练得到的四足机器人的对抗网络结构的网络参数,对抗网络结构包括对抗网络、策略网络和评价网络;
4、基于对抗网络结构,获取本轮训
5、基于多组环境交互数据,确定本轮训练的累计奖励;
6、基于本轮训练的累计奖励,对上一轮训练得到的四足机器人的对抗网络结构的网络参数进行更新,得到本轮训练的四足机器人的对抗网络结构的网络参数,完成本轮训练;
7、重复上述训练过程,进行多轮训练,得到四足机器人的目标强化学习智能体,使四足机器人应用目标强化学习智能体进行工作。
8、本专利技术实施例提供的应用于四足机器人的强化学习智能体训练方法,通过整合对抗网络、策略网络和评价网络的结构,在多种环境条件下获取环境交互数据,并根据累计奖励来迭代更新多个网络的网络参数,进行多轮训练以获得目标强化学习智能体,提高了目标强化学习智能体的鲁棒性,使得四足机器人应用目标强化学习智能体进行工作时,在多种复杂环境下仍能正常工作,增强其对复杂环境的适应性和鲁棒性。
9、在一种可选的实施方式中,基于对抗网络结构,获取本轮训练中四足机器人与多种环境条件交互得到的多组环境交互数据,包括:
10、在获取第一组环境交互数据时,基于四足机器人的多个传感器,获取初始环境状态;
11、基于对抗网络确定初始环境状态对应的对抗噪声;
12、基于策略网络,根据初始环境状态和初始环境状态对应的对抗噪声,确定四足机器人在初始环境状态下对应的动作;
13、基于评价网络,当四足机器人在初始环境状态下采取动作后,得到奖励;
14、将动作与任一环境条件交互得到的环境状态作为下一组环境交互数据的初始环境状态,重复上述获取初始环境状态、动作和奖励的过程,得到用于本轮训练的多组环境交互数据。
15、本专利技术实施例提供的应用于四足机器人的强化学习智能体训练方法,通过利用四足机器人的传感器捕捉不同环境条件下的环境状态,在该环境状态下通过对抗网络确定对抗噪声,并通过策略网络依据当前环境状态及对抗噪声,决定四足机器人应采取的动作,通过评价网络根据四足机器人执行动作后的结果确定奖励,重复上述过程获取多组环境交互数据,为强化学习智能体的训练提供了丰富的训练样本。
16、在一种可选的实施方式中,基于本轮训练的累计奖励,对上一轮训练得到的四足机器人的对抗网络结构的网络参数进行更新,得到本轮训练的四足机器人的对抗网络结构的网络参数,包括:
17、将对抗网络作为对抗智能体,将策略网络作为本体智能体,构建零和博弈问题;
18、以求解零和博弈问题的纳什均衡点为目标,基于本轮训练的累计奖励,对上一轮训练得到的四足机器人的对抗网络结构的网络参数进行更新,得到本轮训练的四足机器人的对抗网络结构的网络参数。
19、本专利技术实施例提供的应用于四足机器人的强化学习智能体训练方法,通过将对抗网络与策略网络构建成零和博弈问题,并求解纳什均衡点来更新网络参数,在两个智能体之间的动态平衡中寻找最优解,提高强化学习智能体的训练效率。
20、在一种可选的实施方式中,以求解零和博弈问题的纳什均衡点为目标,对上一轮训练得到的四足机器人的对抗网络结构的网络参数进行更新,得到本轮训练的四足机器人的对抗网络结构的网络参数,包括:
21、固定策略网络和评价网络的上一轮训练的网络参数,基于本轮训练的累计奖励,对对抗网络的上一轮训练的网络参数进行梯度上升,得到对抗网络的本轮训练的网络参数;
22、固定对抗网络和评价网络的上一轮训练的网络参数,基于本轮训练的累计奖励,对策略网络的上一轮训练的网络参数进行梯度下降,得到策略网络的本轮训练的网络参数;
23、固定对抗网络和策略网络的上一轮训练的网络参数,对评价网络的上一轮训练的网络参数进行更新,得到评价网络的本轮训练的网络参数。
24、本专利技术实施例提供的应用于四足机器人的强化学习智能体训练方法,通过对抗网络的梯度上升,使其参数向着能够最大化策略网络成本的方向更新,通过策略网络的梯度下降,找到在含有对抗噪声情况下的最优策略,即最小化长期成本,最大化累积奖励,通过对上述过程的迭代,策略网络逐渐学会在含有对抗噪声的环境中做出最优决策,同时对抗网络达到其最佳干扰策略,二者趋于稳定形成纳什均衡点,从而能够得到具有良好泛化能力和鲁棒性的强化学习智能体。
25、在一种可选的实施方式中,重复上述训练过程,进行多轮训练,得到四足机器人的目标强化学习智能体,包括:
26、重复上述训练过程,在训练轮次达到预设轮次的情况下,将对抗网络结构中的策略网络作为目标强化学习智能体;
27、或者,
28、重复上述训练过程,在对抗网络结构的网络参数达到收敛的情况下,将对抗网络结构中的策略网络作为目标强化学习智能体。
29、本专利技术实施例提供的应用于四足机器人的强化学习智能体训练方法,通过持续迭代和优化策略网络直至满足预设条件,使得四足机器人的目标强化学习智能体具备高度的稳定性和良好的泛化能力,确保四足机器人应用该目标强化学习智能体能够在多种复杂环境下正常工作。
30、在一种可选的实施方式中,对抗网络包括第一输入层、第一隐藏层和第一输出层,基于对抗网络确定初始环境状态对应的对抗噪声,包括:
31、基于对抗网络的第一输入层,接收初始环境状态,调整初始环境状态的向量维度,得到初始环境状态的数据特征表示;
...【技术保护点】
1.一种应用于四足机器人的强化学习智能体训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述对抗网络结构,获取本轮训练中所述四足机器人与多种环境条件交互得到的多组环境交互数据,包括:
3.根据权利要求1所述的方法,其特征在于,所述基于所述本轮训练的累计奖励,对上一轮训练得到的所述四足机器人的对抗网络结构的网络参数进行更新,得到本轮训练的所述四足机器人的对抗网络结构的网络参数,包括:
4.根据权利要求3所述的方法,其特征在于,所述以求解所述零和博弈问题的纳什均衡点为目标,对上一轮训练得到的所述四足机器人的对抗网络结构的网络参数进行更新,得到本轮训练的所述四足机器人的对抗网络结构的网络参数,包括:
5.根据权利要求1所述的方法,其特征在于,所述重复上述训练过程,进行多轮训练,得到所述四足机器人的目标强化学习智能体,包括:
6.根据权利要求2所述的方法,其特征在于,所述对抗网络包括第一输入层、第一隐藏层和第一输出层,所述基于所述对抗网络确定所述初始环境状态对应的对抗噪声,包括:
< ...【技术特征摘要】
1.一种应用于四足机器人的强化学习智能体训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述对抗网络结构,获取本轮训练中所述四足机器人与多种环境条件交互得到的多组环境交互数据,包括:
3.根据权利要求1所述的方法,其特征在于,所述基于所述本轮训练的累计奖励,对上一轮训练得到的所述四足机器人的对抗网络结构的网络参数进行更新,得到本轮训练的所述四足机器人的对抗网络结构的网络参数,包括:
4.根据权利要求3所述的方法,其特征在于,所述以求解所述零和博弈问题的纳什均衡点为目标,对上一轮训练得到的所述四足机器人的对抗网络结构的网络参数进行更新,得到本轮训练的所述四足机器人的对抗网络结构的网络参数,包括:
5.根据权利要求1所述的方法,其特征在于,所述重复上述训练过程,进行多轮训练,得到所述四足机器...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。