System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于机器人,尤其涉及基于分布式鲁棒元强化学习的机器人运动控制方法。
技术介绍
1、过去几年,元学习因为其在学术界和工业界的巨大潜力而引起了研究兴趣的激增。这种学习范式通过利用先前的经验,可以提取知识作为先验,并赋予学习模型根据少量示例适应到未知任务的能力。机器人导航任务是机器人技术中的一个经典问题,涉及机器人在已知或未知环境中找到从起点到终点的最优路径,引导机器人一步步向目标地点移动。在元强化学习中,目标是学习一个元策略,该策略在训练过程中通过多个相关任务(环境)的训练数据进行优化,以便在面对新的、未见过的任务时,能够迅速适应并表现出色。具体而言,在元强化学习框架下,机器人导航任务旨在训练一个通用导航策略使得机器人在多种不同的环境和任务中快速适应和高效导航。
2、然而,从任务分布的角度来看,鲁棒性的研究需要更加全面。特别是,最近开发的大模型在很大程度上依赖小样本学习能力,并且在风险敏感的场景中要求预测的鲁棒性。例如,当类似gpt的对话生成系统应用于医疗咨询领域时,不准确的答案可能会对患者、家庭甚至社会造成灾难性的后果。在这些考虑的基础上,在部署元学习模型时,考虑不同任务之间的适应性差异并促进任务鲁棒性的研究以满足实际需求是非常必要的。
3、最近,wang等人提出通过采用尾部风险最小化准则来提高任务分布鲁棒性。在解决非凸风险函数存在下的优化难题时,采用了两阶段优化策略作为解决问题的启发式方法。简而言之,该策略包含两个迭代阶段,分别是:(i)使用crude蒙特卡罗方法在任务空间中估计风险分位数;(i
4、本专利技术也研究了任务空间中快速适应的鲁棒性,并试图填补先前研究中的空白。理论上,本申请注意到(i)之前的研究中不存在解的概念,(ii) 缺乏对两阶段优化策略的算法理解,(iii) 在任务尾部风险中忽略了泛化能力的分析。应用实践上,使用crude蒙特卡罗方法在分位数估计中可能效率较低,并且的近似误差较高,降低了适应鲁棒性。这些瓶颈可能会削弱两阶段优化策略在实践中的通用性,需要在部署前有更多的理解。
5、一般的元强化学习方法优化所有任务上的平均回报,但是这种方法往往在高风险或高难度的任务中表现不佳,导致某些任务的性能显著下降,鲁棒性差,无法提供可靠的导航。
技术实现思路
1、针对上述问题,本申请提出将用于分布鲁棒元学习的两阶段优化策略转换为一个最大-最小优化问题。本质上,这项工作将优化步骤建模为一个stackelberg博弈,任务选择和子梯度优化器分别作为决策中的领导者和追随者角色。从理论上理解有两个方面:
2、1. 本申请将局部stackelberg均衡解作为解概念,估计收敛速度,并描述了学习动态中的渐近行为;
3、2. 本申请在任务尾部风险的情况下推导了泛化界限,将分位数估计与未知任务中的快速适应能力联系起来。
4、同时,本申请检测了估计器的经验影响,并通过包含更准确的分位数估计器来提高元学习器的鲁棒性。
5、为实现上述目的,本专利技术公开的基于分布式鲁棒元强化学习的机器人运动控制方法,包括以下步骤:
6、在机器人运动仿真环境中,采样一批任务,所述任务为采集机器人在二维空间上中的目标地点;
7、对于每一个任务,依据强化学习,用随机初始化的策略采样少量运动轨迹,与环境进行少量交互,对这些运动轨迹进行评估并计算关于策略的梯度,用梯度下降算法对该任务的策略参数进行更新实现快速自适应;
8、更新策略后,用更新后的策略重新采样轨迹进行评估;
9、对一个批次的任务执行完上述步骤后,采用期望尾部风险最小化准则,挑选一部分表现最差的任务进行梯度更新,其中分位数的估计采用核密度估计器;
10、将优化步骤建模为一个stackelberg博弈,任务选择和子梯度优化器分别作为决策中的领导者和追随者角色,并通过分位数估计器提高元学习器的鲁棒性,生成机器人运动控制的学习策略。
11、进一步地,为概率阈值下的条件风险值,分位数为风险值,定义为:,为元学习模型参数,表示完整的任务集,元风险函数值的累积分布,支撑集用于任务表示,查询集包含所有用于回归的数据点,为数据点集合,元风险函数对应于映射,用于评估快速适应性能,表示追随者集合;将归一化的累积分布表示为,尾部风险任务子空间表示为,密度函数表示为。
12、进一步地,所述期望尾部风险最小化准则最小化期望尾部风险,等价地优化风险度量:
13、;
14、其中表示分位数统计,表示学习率,是铰链损失,表示任务分布;
15、给定任务分布和模型无关元学习maml,下的分布式鲁棒maml变为双层优化问题:
16、;
17、其中关于支撑集的梯度更新表示具有学习率𝜆的内循环;外循环执行梯度更新,在参数空间中寻找鲁棒的元初始化。
18、进一步地,每个强化学习任务包含一个初始状态分布和一个状态转移分布,损失函数对应于奖励函数;因此,整个任务是一个具有时间跨度的马尔可夫决策过程,学习者通过从有限次数的采样运动轨迹中进行小样本学习;强化学习任务所学习的模型是一个策略,它在每个时间步从状态映射到对应的动作的分布;任务在模型的损失形式如下:
19、。
20、进一步地,在-shot强化学习中,首先采样一批次个任务,对每个任务根据初始策略采样条运动轨迹,对应的奖励为,用于快速自适应;
21、计算这条轨迹的平均损失,评估当前策略的性能,计算策略梯度并更新:
22、;
23、对该任务用更新的策略重新采样运动轨迹并评估其性能;
24、对每个任务都执行完上述步骤之后,从与环境的一部分交互中学习到元知识,再对元参数进行更新。
25、进一步地,挑选一部分表现最差的任务进行梯度更新,包括两个阶段:首先用核密度估计器方法在任务空间中估计风险分位数;然后从筛选的任务子集中更新元策略参数:
26、;
27、其中为筛选后的任务子集的分布。
28、进一步地,将两阶段梯度更新转换为由两个竞争者做出的决策,最大化操作在任务空间中执行,对应于博弈中的领导者,其效用函数为,是不确定性集合的元素,追随者尝试通过最大化来执行元学习器参数的子梯度更新;
29、两名玩家在中竞争以最大化各自的效用函数,描述为:
30、,领导者;
31、,跟随者;
32、其中,领导者从不确定性集合中指定最坏情况的组合,而追随者对由此产生的归一化尾部风险作出反应,以提高快速适应的鲁棒性。
33、进一步地,通过利用核密度估计kde来改进对的估计,包括:
<本文档来自技高网...【技术保护点】
1.基于分布式鲁棒元强化学习的机器人运动控制方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于分布式鲁棒元强化学习的机器人运动控制方法,其特征在于,为概率阈值下的条件风险值,分位数为风险值,定义为:,为元学习模型参数,表示完整的任务集,元风险函数值的累积分布,支撑集用于任务表示,查询集包含所有用于回归的数据点,为数据点集合,元风险函数对应于映射,用于评估快速适应性能,表示追随者集合;将归一化的累积分布表示为,尾部风险任务子空间表示为,密度函数表示为。
3.根据权利要求2所述的基于分布式鲁棒元强化学习的机器人运动控制方法,其特征在于,所述期望尾部风险最小化准则最小化期望尾部风险,等价地优化风险度量:
4.根据权利要求3所述的基于分布式鲁棒元强化学习的机器人运动控制方法,其特征在于,每个强化学习任务包含一个初始状态分布和一个状态转移分布,损失函数对应于奖励函数;因此,整个任务是一个具有时间跨度的马尔可夫决策过程,学习者通过从有限次数的采样运动轨迹中进行小样本学习;强化学习任务所学习的模型是一个策略,它在每个时间步从状态映射到对应的动作的
5.根据权利要求4所述的基于分布式鲁棒元强化学习的机器人运动控制方法,其特征在于,在-shot强化学习中,首先采样一批次个任务,对每个任务根据初始策略采样条运动轨迹,对应的奖励为,用于快速自适应;
6.根据权利要求5所述的基于分布式鲁棒元强化学习的机器人运动控制方法,其特征在于,将两阶段梯度更新转换为由两个竞争者做出的决策,最大化操作在任务空间中执行,对应于博弈中的领导者,其效用函数为,是不确定性集合的元素,追随者尝试通过最大化来执行元学习器参数的子梯度更新;
7.根据权利要求6所述的基于分布式鲁棒元强化学习的机器人运动控制方法,其特征在于,通过利用核密度估计KDE来改进对的估计,包括:
...【技术特征摘要】
1.基于分布式鲁棒元强化学习的机器人运动控制方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于分布式鲁棒元强化学习的机器人运动控制方法,其特征在于,为概率阈值下的条件风险值,分位数为风险值,定义为:,为元学习模型参数,表示完整的任务集,元风险函数值的累积分布,支撑集用于任务表示,查询集包含所有用于回归的数据点,为数据点集合,元风险函数对应于映射,用于评估快速适应性能,表示追随者集合;将归一化的累积分布表示为,尾部风险任务子空间表示为,密度函数表示为。
3.根据权利要求2所述的基于分布式鲁棒元强化学习的机器人运动控制方法,其特征在于,所述期望尾部风险最小化准则最小化期望尾部风险,等价地优化风险度量:
4.根据权利要求3所述的基于分布式鲁棒元强化学习的机器人运动控制方法,其特征在于,每个强化学习任务包含一个初始状态分布和一个状态转移分布,损失函数对应于奖励函数;因此,整个任务...
【专利技术属性】
技术研发人员:王琦,吕怡琴,谢正,梁栋,杜武妹,梁星星,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。