当前位置: 首页 > 专利查询>辉达公司专利>正文

用于自主机器系统和应用的车道规划架构技术方案

技术编号:39120189 阅读:28 留言:0更新日期:2023-10-23 14:45
本公开涉及用于自主机器系统和应用的车道规划架构。在各个示例中,提供了用于基于状态和概率动作空间生成车道规划器输出数据的车道规划器。驾驶系统(基于分层驾驶规划框架进行操作)包括车道规划器和其他规划和控制组件。车道规划器处理车道规划器输入数据(例如,大车道图、源节点、目标节点)以生成车道规划器输出数据(例如,预期时间奖励)。驾驶系统还可以包括路线规划器(例如,第一规划层),其操作以将车道规划器输入数据提供给车道规划器。车道规划器作为第二规划层操作,其至少部分地基于大车道图的状态和概率动作空间来处理车道规划器输入数据并且计算与从大车道图中的源节点导航至目标节点相关联的时间成本。节点导航至目标节点相关联的时间成本。节点导航至目标节点相关联的时间成本。

【技术实现步骤摘要】
用于自主机器系统和应用的车道规划架构

技术介绍

[0001]为了使自主车辆有效地导航通过环境,这些自主车辆需要生成用于在两个或更多个位置之间导航的路线规划。例如,车辆的规划和控制组件可用于识别路线和动作,路线和动作可由车辆针对朝向目标的特定驾驶任务来执行。规划和控制组件(例如,路线规划器、车道规划器和/或行为规划器)可以使用由车辆生成和/或提供给车辆的感知和映射信息。例如,有向图可以包括可用于促进执行与规划和控制组件相关联的操作的感知和映射信息——表示驾驶规划状态和动作。感知和映射信息可在规划和控制组件的接口之间交换以支持导航车辆。
[0002]驾驶或路线规划中的常规车道规划可以利用支持生成输出(例如,车道规划器输出数据)的输入(例如,车道规划器输入数据)进行操作。输入可包括地图、源和目标,其中源和目标可以是例如GPS位置——可选地与车道相关联——从第一点A到第二点B。输出可以包括可由车辆执行的路线和动作。动作可以包括用于执行的指令,如用于保持在车道中、进行车道变换、跟随车道合并或进行车道分离。传统车道规划器可被配置成使得只有一组有限的动作对于车辆是可用的,并且因此提供精确的动作以导航车辆,而不考虑汽车可能无法执行动作——例如,因为安全相关的问题,或者因为在给定当前道路或交通条件无法执行一个或更多个所指示的动作。
[0003]以此方式,常规车道规划可以具体地基于确定性方法。在操作上,生成确定性图形,并且使用搜索算法(例如,迪杰斯特拉(Dijkstra)算法,A*搜索算法)来寻找位置之间的最短路径,同时将动作建模为全确定性的。然而,作为示例,车辆可能尝试变道或至少希望进行变道,但是变道可能被竞争的车辆阻挡,迫使车辆停留在当前车道中。在另一示例中,在车辆进行变道的最后机会,车辆可能被阻挡,使得车辆等待而不是在车道中前进。因此,用于执行动作的输入、输出和控制的当前组合可能是限制性的—并且传统车道规划器不提供复杂的输出来在驾驶系统中以不完全确定的方式执行驾驶规划。因此,具有用于执行车道规划操作的替代基础的更全面的驾驶系统可以改进用于驾驶系统的计算操作和接口。

技术实现思路

[0004]本公开的实施例涉及操作车道规划器以基于状态和概率动作空间生成车道规划器输出数据。车道规划器输出数据对应于驾驶系统的车道检测和/或引导数据,所述驾驶系统基于与车道规划器和其他规划和控制组件相关联的分级驾驶规划框架来操作。车道规划器处理车道规划器输入数据(例如,大车道图、源、目标),以生成车道规划器输出数据(例如,与源和目标之间的大车道图的节点之间的边相对应的预期时间奖励)。驾驶系统还可以包括路线规划器(例如,第一规划层),该路线规划器进行操作以将更高级或粗略的路线信息作为车道规划器输入数据提供至车道规划器——例如以提供源位置、目标位置以及映射源与目标之间的路线的初始高级车道图。车道规划器可作为(例如但不限于)第二规划层进行操作,该第二规划层处理车道规划器输入数据以生成被表示为更细粒度或“大(large)”车道图的状态和概率动作空间,其包括与从源节点导航至一个或更多个目标节点相关联的
时间成本。车道规划器将车道规划器输出数据传送至行为规划器,以引起识别要由车辆执行的至少一个动作,以通过大车道图从源位置(例如,本机的位置)到目标节点从节点到节点地横穿。在实施例中,除了实时感知之外,行为规划器还可使用由车道规划器生成的大车道图(例如,包括具有不同时间奖励的多个可选动作)来作出关于要遵循大车道图的哪些边,以及因此在环境中采取哪条路径的决定。在一些实施例中,行为规划器可将实时感知信息馈送至车道规划器,使得车道规划器可动态更新大车道图,并且行为规划器可仅对填充有实时感知信息的大车道图进行操作。
[0005]与常规系统(如以上所描述的那些)相比,来自车道规划器的输出可以包括针对到达节点的预期等效时间奖励,其中该预期等效时间奖励(可替代地,在此被称为“预期时间奖励”)是例如转换为时间的最佳或最好当前计算的预期奖励。车道规划器输出数据还可包括具有概率分布的动作。例如,在大车道图边的一边中编码的每个动作可具有正的失败概率。在操作上,可以随机地识别边的目标节点,并且可以通过最初使用诸如(并且不限于)Djikstra算法的搜索算法来计算预期的等效时间奖励,以识别从源节点到任何大车道图节点的时间成本。时间成本可以用于值迭代(或值迭代的变体)以计算预期的等效时间奖励。因此,不同于常规系统,本技术方案中的预期的等效时间奖励是基于时间奖励的最佳预期值并且进一步考虑了未来的不确定性。
[0006]更确切地,可以基于强化学习生成车道规划器输出数据。强化学习可以使用与状态集合和动作集合相关联的马尔可夫决策过程(“MDP”)来实现。每个动作将现有状态带到随机输出状态,这触发奖励。作为强化学习的一部分,大车道图可被转化成MDP,其中大车道图节点对应于状态并且边对应于具有随机输出节点的动作。负边成本对应于奖励,并且预期时间奖励可被计算为最佳值。
[0007]在一些实施例中,修改值迭代方法用于控制迭代次数。修改值迭代方法在计算上打破大车道图的循环,因此图形变成非循环的—并且可创建节点的顺序,使得可向源节点有效地传播预期时间奖励。因此,修改值迭代方法的一次迭代——经由这个顺序——可以返回足够好的结果,这与需要多次迭代才能生成最终结果的常规系统相反,其在计算和时间方面都是密集的。
附图说明
[0008]下面参考附图详细描述用于操作车道规划器以基于状态和概率动作空间生成车道规划器输出数据的本系统和方法,其中:
[0009]图1A是根据本公开的一些实施例的用于生成车道规划器输出数据的示例系统;
[0010]图1B是根据本公开的一些实施例的用于生成车道规划器输出数据的示例系统;
[0011]图1C是根据本公开的一些实施例的用于生成车道规划器输出数据的示例数据流图;
[0012]图2A至图2G是根据本公开的一些实施例的用于生成车道规划器输出数据的车道规划数据的示例视觉表示;
[0013]图3A至图3D是根据本公开的一些实施例的用于利用修改值迭代算法生成车道规划器输出数据的计算的示例视觉表示;
[0014]图4A至图4B是根据本公开的一些实施例的用于生成车道规划器输出数据的车道
规划数据的示例视觉表示;
[0015]图5至图6是示出根据本公开的一些实施例的用于提供车道规划器输出数据的方法的流程图;
[0016]图7A是根据本公开的一些实施例的示例自主车辆的图示;
[0017]图7B是根据本公开的一些实施例的图7A的示例自主车辆的相机位置和视野的示例;
[0018]图7C是根据本公开的一些实施例的图7A的示例自主车辆的示例系统架构的框图;
[0019]图7D是根据本公开的一些实施例的基于云的服务器和图7A的示例自主车辆之间的通信的系统示意图;
[0020]图8是适用于实现本公开的一些实施例的示例计算设备的框图;以及
[0021]图9是适用于实现本公开的一些实施例的示例数据中心本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种处理器,包括:一个或更多个电路,用于:生成第一车道图,对于所述第一车道图中的至少一个车道,所述第一车道图包括多个边和在所述至少一个车道内纵向间隔开的多个节点,每个边连接一对节点并且具有与其相关联的关联成本值;使用确定性算法、所述第一车道图以及每个边的所述关联成本值来生成第二车道图,所述第二车道图包括从源节点到目标节点的一条或更多条路径,所述一条或更多条路径中的至少一条路径包括所述多个节点的子集和所述多个边的子集;使用随机算法和所述第二车道图来生成第三车道图,所述第三车道图包括用于所述第三车道图的至少一个边的更新的关联成本值;以及至少部分地基于每个边的所述更新的关联成本值来确定通过所述第三车道图的行驶路线。2.根据权利要求1所述的处理器,其中所述行驶路线的确定进一步至少部分地基于实时感知信息。3.根据权利要求1所述的处理器,其中至少部分地基于与所述至少一个边相关联的动作被成功完成的概率来计算该边的所述更新的关联成本值。4.根据权利要求1所述的处理器,其中所述确定性算法包括最短路径算法。5.根据权利要求4所述的处理器,其中所述最短路径算法包括迪杰斯特拉算法或A*算法中的至少一个。6.根据权利要求1所述的处理器,其中所述随机算法包括强化学习算法。7.根据权利要求6所述的处理器,其中所述强化学习算法包括马尔可夫决策过程MDP算法,并且所述第三车道图被表示为MDP。8.根据权利要求1所述的处理器,其中使用行为规划器来执行最终行驶路线的确定。9.根据权利要求1所述的处理器,其中使用路线规划器来生成所述第一车道图,并且使用车道规划器来生成所述第二车道图和所述第三车道图中的至少一个。10.根据权利要求1所述的处理器,其中使用从目标奖励、花费的时间、花费的资源、不适、舒适、障碍物安全、路径服从或等待条件服从中选择的至少一个优化类别,来确定所述关联成本值或所述更新的关联成本值中的至少一个。11.根据权利要求1所述的处理器,其中所述多个节点中的至少一个节点与车辆状态相对应,并且所述多个边中的至少一个边与车辆动作相对应。12.根据权利要求11所述的处理器,其中所述车辆动作包括车道保持、变道、转弯、选择岔路或并线中的至少一个。13.根据权利要求1所述的处理器,其中至少部分地基于执行修改值迭代来计算至少一个边的所述更新的关联成本值,所述修改值迭代控制用于执行修改值迭代操作的迭代次数。14.根据权利要求1所述的处理器,其中所述至少一个边的关联成本值和所述至少一个边的更新的关联成本值与预期时间奖励相对应,所述预期时间奖励与执行与所述至少一个边相关联的动作相关联。15.根据权利要求14所述的处理器,其中用于计算所述预期时间奖励的至少一个输入
至少部分地通过将所述至少一个输入转换成基于时间的输入来计算。16.根据权利要求1所述的处理器,其中所述处理器被包括在以下的至少一者中:用于自主或半自主机器的控制系统;用于自主或半自主机器的感知系统;用于执行模拟操作的系统;用于执行光传输模拟的系统;用于为3D资产执行协作内容创建的系统;用于执行深度学习操作的系统;使用边缘设备实现的系统;使用机器人实现的系统;用于执行会话AI操作的系统;用于生成合成数据的系统;包含一个或更多个虚拟机VM的系统;至少部分地在数据中心中实现的系统;或至少部分地使用云计算资源实现的系统。17.一种系统,包括:一个或更多个处理器,其包括处理电路,所述处理电路用于:至少部分地基于表示地图的地图数据生成确定性车道表示,所述确定性车道表示包括多个节点和在所述多个节点中的至少两个节点之间延伸的一个...

【专利技术属性】
技术研发人员:D
申请(专利权)人:辉达公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1