以高保真度模拟和高速低保真度模拟进行训练制造技术

技术编号：40997324 阅读：30 留言：0更新日期：2024-04-18 21:37

提供了用于训练用于控制机器人的机器人控制策略的实施方式。在第一训练阶段期间，使用第一组训练数据训练机器人控制策略，第一组训练数据包括(i)基于机器人在第一保真度模拟中的模拟操作生成的训练数据，以及(ii)基于机器人在第二保真度模拟中的模拟操作生成的训练数据，其中第二保真度大于第一保真度。当满足用于开始第二训练阶段的一个或多个标准时，使用第二组训练数据进一步训练机器人控制策略，所述第二组训练数据还包括基于机器人在第一保真度模拟和第二保真度模拟中的模拟操作生成的训练数据，所述第一保真度模拟和第二保真度模拟之间的比率低于第一组训练数据中的比率。

全部详细技术资料下载

【技术实现步骤摘要】

技术介绍

1、训练机器人控制策略以使机器人能够自主地导航通过环境，包括与在那些环境中感知的对象交互(例如，触摸、接合、操作、躲避等)。这些机器人控制策略通常采用机器学习模型的形式，诸如强化学习策略。训练机器人控制策略可能是昂贵且耗时的。虽然可以使用模仿学习(il)来引导机器人控制策略，但是仍然需要经由机器人活动的无数训练情节来进一步训练机器人控制策略。

2、通过在至少部分训练期间在模拟环境中模拟机器人的行为，可以稍微减轻训练机器人控制策略所需的资源。然而，在训练期间准确地模拟机器人在模拟环境中的行为仍然可能需要大量资源。例如，准确地模拟环境可能涉及几个计算量很大的组件，诸如物理模拟、在环境中渲染详细资源等。因此，在模拟环境中模拟机器人可能消耗大量计算资源，从而增加训练机器人控制策略所需的时间和/或计算能力。由于训练通常涉及在模拟环境中模拟机器人的非常大量的迭代，因此训练机器人控制策略所需的资源(例如，训练所花费的时间)可以显著扩展。

技术实现思路

1、本文描述了用于使用高速、低保真度模拟和高保真度模拟训练机器人控制策略的实施方式。机器人控制策略最初可以用从低保真度模拟生成的比从高保真度模拟生成的更大量的训练数据来训练，使得可以学习通用策略。随着机器人控制策略的学习减慢(或满足其他标准)，可以在离散步骤中增加基于高保真模拟生成的训练数据的比率，使得可以学习更精细的细节。例如，最初，机器人控制策略可以被训练成其中基于低保真度模拟生成100％的训练数据。当确定机器人控制策略

2、本文描述的技术产生各种技术优点和益处。例如，与以较高保真度模拟环境相比，以较低保真度模拟物理或真实世界环境消耗较少的计算资源(例如，计算时间、消耗的能量、计算能力等)。模拟的保真度可以指示模拟真实世界的准确程度，其中较低的保真度意味着较低的准确度。这样，通过使用用于训练机器人控制策略的低保真度模拟来生成至少一些训练数据，可以节省计算资源(例如，与完全利用基于高保真度模拟生成的训练数据来训练机器人控制策略相比)。另外，由于可以更快地训练机器人控制策略，因此可以减少用于开发机器人的工程周期时间。此外，由于还利用基于高保真模拟生成的训练数据(或者甚至利用基于真实世界环境/操作生成的训练数据)来训练机器人控制策略，因此训练的机器人控制策略的性能基本上不会受到不利影响。

3、另外，虽然理论上可以基于保真度级别递增的多个模拟(例如，而不仅仅是高保真度模拟和低保真度模拟)来生成训练数据，但是这样做不能实现各种潜在的益处。例如，可以基于各种不同的参数来确定给定模拟的保真度。因此，确定哪些参数在训练期间影响机器人控制策略的学习，并且因此确定哪些参数应该被修改以在进一步训练期间改变模拟的保真度可能并不是微不足道的。利用两个(或更多个)离散保真度级别进行模拟(例如，最快和最准确)，并且在训练期间以相同的方式处理基于两个离散保真度级别生成的训练数据，需要较少的配置编码并简化机器人控制策略的训练。

4、机器人控制策略通常被配置用于选择要由与物理或真实世界环境交互的机器人执行的动作，以执行机器人任务，诸如开门、拾取对象并将其放下等。特别地，机器人控制策略可以被配置为接收观察(即，表征环境状态的数据)作为输入，并且处理观察以生成指示由机器人响应于观察而执行的可能动作的概率分布的输出。然后，机器人可以处理动作(例如，利用机器人控制栈)以实现动作。

5、如本文所讨论的，模拟可以用于训练阶段，使得基于模拟环境生成提供给机器人控制策略的观察，并且模拟在由模拟机器人执行的动作之前、期间和之后的环境状态。因此，可以基于所选择的动作是否导致给定机器人任务的执行(例如，基于所得到的模拟状态)来训练机器人控制策略。例如，可以在大量迭代上使用强化学习(rl)来训练机器人控制策略，使用高保真度模拟和低保真度模拟，使得当机器人控制策略选择导致执行给定机器人任务的动作时，使用奖励来训练机器人控制策略。

6、如本文所讨论的，可以使用基于高保真度模拟和低保真度模拟生成的训练数据来训练机器人控制策略。基于低保真度模拟生成的训练数据与基于高保真度模拟生成的训练数据的比例(或比率)最初可以被重加权以有利于低保真度模拟(例如，100％低保真度模拟、0％高保真度模拟)。当满足一个或多个标准时，训练可以转换到第二阶段(例如，第二批训练示例)，使得基于高保真模拟生成的训练数据的比例可以较少地加权以有利于低保真模拟(例如，95％低保真模拟、5％高保真模拟)。该过程可以重复，直到例如完全基于高保真模拟生成训练数据。

7、在训练的每个阶段(例如，一批训练示例)期间，训练数据的相对比例(或比率)可以通过针对每个训练实例基于根据给定阶段的预定概率分布(例如，95％低保真度模拟、5％高保真度模拟)随机选择是使用高保真度模拟还是低保真度模拟来生成训练数据来施加。例如，遵循上述示例，在第二阶段中，概率分布可以使得低保真度模拟将在95％的时间被选择，并且高保真度模拟将在100％的时间被选择。

8、用于在阶段之间转换的标准可以包括例如确定机器人控制策略的学习在当前阶段期间已经减慢。例如，假设使用强化学习(rl)来训练机器人控制策略，则当奖励函数随时间的斜率从先前平均值向下偏离至少阈值量时，可以确定转换到训练的下一阶段。

9、模拟的保真度可以指示所述模拟模拟真实世界的准确程度。换句话说，相对于低保真度模拟，高保真度模拟可以更准确地模拟真实世界。例如，相对于高保真度模拟，可以以较低分辨率渲染低保真度模拟，使得由模拟机器人捕获的传感器数据(例如，模拟环境的图像)具有较低分辨率。在一些实施方式中，可以以比机器人的传感器的预期分辨率更低的分辨率渲染低保真度模拟。这样，传感器数据可以被升级以匹配机器人的传感器的预期分辨率。作为另一示例，低保真度模拟的资产可以用比高保真度模拟更简单的几何形状(例如，具有更少多边形的资产)来渲染；可以简化或绕过阴影、透明度、明暗和/或反射的渲染等。

10、附加地或替代地，低保真度模拟可以包括相对粗略的物理模拟。例如，可以绕过软体动力学的模拟。附加地或替代地，可以以比高保真模拟低的频率对低保真度模拟进行采样，使得被确定的模拟环境的状态之间的时间间隔对于低保真度模拟比对于高保真模拟更大。在一些实施方式中，在渲染模拟之前，可以基于修改(例如，简化)来自高保真度模拟的资产来生成低保真度模拟。在一些附加或替代性实施方式中，可以基于修改提供低保真度模拟的模拟器的一个或多个参数(例如，物理质量、渲染质量、采样频率等)来生成低保真度模拟。

11、本文档来自技高网...

【技术保护点】

1.一种使用一个或多个处理器实现的方法，包括：

2.根据权利要求1所述的方法，还包括：在训练所述机器人控制策略之后，使所述机器人控制策略被部署在控制机器人中。

3.根据权利要求1所述的方法，其中，在多个训练阶段训练所述机器人控制策略，其中，在每个后续训练阶段期间，利用一组训练数据训练所述机器人控制策略，所述一组训练数据具有比在先前训练阶段中更低的基于所述机器人在所述第一保真度模拟中的模拟操作生成的训练数据与基于所述机器人在所述第二保真度模拟中的模拟操作生成的训练数据的比率。

4.根据权利要求1所述的方法，其中，用于开始训练所述机器人控制策略的所述第二阶段的所述一个或多个标准包括确定来自利用所述第一组训练数据的训练的所述机器人控制策略的改进已经偏离到阈值以下。

5.根据权利要求1所述的方法，还包括：

6.根据权利要求1所述的方法，还包括：

7.根据权利要求1所述的方法，其中，生成所述训练数据包括使得所述机器人基于所述机器人控制策略执行一个或多个动作，以便进一步完成任务。

8.根据权利要求7所述的方法

9.根据权利要求1所述的方法，其中，所述训练数据包括以下中的一个或多个：由所述机器人的一个或多个传感器捕获的传感器数据，以及指示所述机器人和/或所述环境的状态的状态信息。

10.根据权利要求1所述的方法，其中基于修改所述第二保真度模拟的一或多个资产而产生所述第一保真度模拟。

11.根据权利要求1所述的方法，其中，基于修改被配置为渲染所述环境的模拟的渲染器和/或被配置为模拟所述环境的模拟的模拟器的一个或多个参数来生成所述第一保真度模拟。

12.根据权利要求1所述的方法，其中，所述第一保真度模拟以比所述第二保真度模拟低的分辨率渲染，并且基于所述第一保真度模拟生成训练数据包括：

13.根据权利要求1所述的方法，其中，利用比所述第二保真度模拟粗糙的物理模拟来模拟所述第一保真度模拟，和/或利用比所述第二保真度模拟低的频率对所述第一保真度模拟进行采样。

14.根据权利要求1所述的方法，其中，所述生成所述第一保真度模拟包括绕过以下中的一个或多个的渲染：明暗、阴影、透明材料和反射。

15.一种系统，包括一个或多个处理器和存储指令的存储器，所述指令响应于由所述一个或多个处理器执行而使所述一个或多个处理器：

16.根据权利要求15所述的系统，其中，所述指令还使得所述一个或多个处理器：

17.根据权利要求15所述的系统，其中基于修改所述第二保真度模拟的一或多个资产而产生所述第一保真度模拟。

18.根据权利要求15所述的系统，其中所述第一保真度模拟是基于修改经配置以渲染所述环境的所述模拟的渲染器和/或经配置以模拟所述环境的所述模拟的模拟器的一或多个参数而产生。

19.根据权利要求15所述的系统，其中，基于所述第一组训练数据训练所述机器人控制策略包括：

20.一种使用一个或多个处理器实现的方法，所述方法包括：

...

【技术特征摘要】

1.一种使用一个或多个处理器实现的方法，包括：

2.根据权利要求1所述的方法，还包括：在训练所述机器人控制策略之后，使所述机器人控制策略被部署在控制机器人中。

5.根据权利要求1所述的方法，还包括：

6.根据权利要求1所述的方法，还包括：

7.根据权利要求1所述的方法，其中，生成所述训练数据包括使得所述机器人基于所述机器人控制策略执行一个或多个动作，以便进一步完成任务。

8.根据权利要求7所述的方法，其中训练所述机器人控制策略包括基于根据所述一个或多个动作是否导致促进所述任务的完成而确定的奖励或惩罚来执行强化学习以训练所述机器人控制策略。

10.根据权利要求1所述的方法，其中基于修改所述第二保真度模拟...

【专利技术属性】
技术研发人员：M·本尼斯，P·贝查德，J·西蒙，J·林，
申请(专利权)人：谷歌有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人