生成用于自动驾驶标记的紧密2D边界框的新方法技术

技术编号:28538367 阅读:24 留言:0更新日期:2021-05-21 09:02
公开了一种用于为三维(3D)场景中的可视对象生成紧密二维(2D)边界框的方法、设备和系统。包括一个或多个对象的三维(3D)场景的二维(2D)分割图像是通过用分割相机渲染3D场景而生成的。每个对象以单个相应的不同颜色呈现。接着,基于分割图像在一个或多个对象中识别3D场景中的一个或多个可视对象。接下来,针对3D场景中每个可视对象分别生成2D非模态分割图像。每个非模态分割图像仅包括为其生成的单个可视对象。此后,基于可视对象的非模态分割图像针对3D场景中的每个可视对象生成2D边界框。

【技术实现步骤摘要】
生成用于自动驾驶标记的紧密2D边界框的新方法
本公开的实施方式总体上涉及操作自动驾驶车辆。更具体地,本公开的实施方式涉及生成用于训练自动驾驶车辆的感知模块的数据。
技术介绍
以自主模式(例如,无驾驶员)操作的车辆可以减轻乘坐者,尤其是驾驶员的某些驾驶相关的责任。当在自主模式下操作时,车辆可以使用车载传感器导航到各种位置,从而允许车辆以最小的人机交互或者在一些情况下不需要任何乘客来行进。运动规划和控制是自动驾驶中的关键操作。然而,传统的运动规划操作主要根据完成给定路径的曲率和速度来估计完成给定路径的难度,而不考虑不同类型的车辆的特征的差异。相同的运动规划和控制被应用于所有类型的车辆,其在某些情况下可能不是精确和平滑的。感知模块是自动驾驶车辆栈中的关键部件。在感知模块中使用的人工智能(AI)算法需要大量的标记图像用于训练。手动标记既耗时又昂贵,并且可能不准确。因此,在本领域中有时使用合成数据来生成标记数据,以帮助感知模块获得更好的结果。理想地,在被标记的图像中,与自动驾驶相关的每个障碍物用紧密的二维(2D)边界框来标记。在可用于自动驾驶的现有合成数据集中,一些(例如,PlayingforData、SYNTHIA)不提供2D边界框,而其他一些(例如,FordCenterforAutonomousVehicles“FCAV”、PlayingforBenchmarks)仅具有用于可视像素的2D边界框(与用于包括可视对象的遮挡或截断的像素在内的所有的2D边界框相反),以及还有其他一些对象(例如,VirtualKITTI)提供、比对象本身更大的2D边界框。为了获得最佳的训练结果,感知模块需要紧密的2D边界框,其同时覆盖对象的可视部分和遮挡或截断的部分。
技术实现思路
根据第一方面,本公开的一些实施方式提供了用于感知自动驾驶的障碍物的计算机实现的方法,所述方法包括:通过用分割相机渲染包括一个或多个对象的三维3D场景,生成所述3D场景的二维2D分割图像,其中,所述对象中的每一个以相应的不同单一颜色渲染;基于所述分割图像,在所述一个或多个对象中识别所述3D场景中的一个或多个可视对象;针对所述3D场景中的每个可视对象分别生成2D非模态分割图像,其中,每个非模态分割图像仅包括生成所述非模态分割图像所针对的单个可视对象;以及针对所述3D场景中的每个可视对象,基于所述可视对象的非模态分割图像生成2D边界框。根据第二方面,本公开的一些实施方式提供了非暂时性机器可读介质,其中存储有指令,所述指令在由处理器执行时使得所述处理器执行用于感知自动驾驶的障碍物的操作,所述操作包括:通过用分割相机渲染包括一个或多个对象的三维3D场景,生成所述3D场景的二维2D分割图像,其中,所述对象中的每一个以相应的不同单一颜色渲染;基于所述分割图像,在所述一个或多个对象中识别所述3D场景中的一个或多个可视对象;针对所述3D场景中的每个可视对象分别生成2D非模态分割图像,其中,每个非模态分割图像仅包括生成所述非模态分割图像所针对的单个可视对象;以及针对所述3D场景中的每个可视对象,基于可视对象的非模态分割图像生成2D边界框。根据第三方面,本公开的一些实施方式提供了数据处理系统,其包括处理器和存储器,所述存储器联接到所述处理器并存储指令,所述指令在由所述处理器执行时致使所述处理器执行用于感知自动驾驶的障碍物的操作,所述操作包括:通过用分割相机渲染包括一个或多个对象的三维3D场景,生成所述3D场景的二维2D分割图像,其中,所述对象中的每一个以相应的不同单一颜色渲染;基于所述分割图像,在所述一个或多个对象中识别所述3D场景中的一个或多个可视对象;针对所述3D场景中的每个可视对象分别生成2D非模态分割图像,其中,每个非模态分割图像仅包括生成所述非模态分割图像所针对的单个可视对象;以及针对所述3D场景中的每个可视对象,基于可视对象的非模态分割图像生成2D边界框。附图说明本公开的实施方式以示例而非限制的方式示出在附图的各图中,在附图中类似附图标记指示类似元件。图1是示出根据一个实施方式的网络化系统的框图。图2是示出根据一个实施方式的自动驾驶车辆的示例的框图。图3A至图3B是示出根据一个实施方式的与自动驾驶车辆一起使用的感知与规划系统的示例的框图。图4是示出这里描述的各种类型的边界框的图。图5是说明根据本专利技术实施方式使用的各种组件的框图。图6A至图6D是为本公开的实施方式生成的图像,并且示出了本公开的实施方式。图7是示出根据一实施方式的用于针对三维(3D)场景中的可视对象生成紧密二维(2D)边界框的示例性方法的流程图。图8是示出根据一实施方式的示例性装置的框图。具体实施方式将参考以下所讨论的细节来描述本公开的各种实施方式和方面,附图将示出所述各种实施方式。下列描述和附图是对本公开的说明,而不应当解释为限制本公开。描述了许多特定细节以提供对本公开各种实施方式的全面理解。然而,在某些情况下,并未描述众所周知的或常规的细节以提供对本公开的实施方式的简洁讨论。本说明书中对“一个实施方式”或“实施方式”的引述意味着结合该实施方式所描述的特定特征、结构或特性可包括在本公开的至少一个实施方式中。短语“在一个实施方式中”在本说明书中各处的记载不必全部指同一实施方式。一些实施方式涉及用于针对三维(3D)场景中的可视对象生成紧密二维(2D)边界框的方法、装置和系统。首先,通过用分割相机渲染包括一个或多个对象的三维(3D)场景来生成3D场景的(2D)分割图像。每个对象以相应的不同单一颜色呈现。接着,基于分割图像在一个或多个对象中识别3D场景中的一个或多个可视对象。接下来,针对3D场景中每个可视对象分别生成2D非模态分割图像。每个非模态分割图像仅包括其所针对生成的单个可视对象,并且在相应的非模态分割图像中,整个可视对象在其整体上被渲染而不被遮挡,即使当用常规的传感器相机渲染时,其会被场景中的另一对象部分地遮挡。此后,基于可视对象的非模态分割图像针对3D场景中的每个可视对象生成2D边界框。包括所生成的2D边界框的数据集可用于训练自动驾驶车辆的感知模块。在一个实施方式中,为了基于分割图像识别3D场景中的一个或多个可视对象,确定3D场景中的每个对象的可视像素的数量。应当理解,存在于与对象相关联的分割图像中的所有像素都是可视像素,并且可以基于像素的颜色和与该像素相关联对象的单一颜色来识别该像素与相关联的对象之间的对应关系。接下来,对于每个对象,确定与该对象相关联的可视像素的数量是否大于预定阈值。此后,如果与3D场景中的对象相关联的可视像素的数量大于预定阈值,则将该对象识别为可视对象。在一个实施方式中,为了基于可视对象的非模态分割图像针对3D场景中的每个可视对象生成2D边界框,基于非模态分割图像确定与可视对象的像素相关联的最小x坐标、最小y坐标、最大x坐标和最大y坐标。然后,生成与最小x坐标、最小y坐标、最大x坐标和最大y坐标相关联的矩形作为可本文档来自技高网
...

【技术保护点】
1.用于感知自动驾驶的障碍物的计算机实现的方法,所述方法包括:/n通过用分割相机渲染包括一个或多个对象的三维3D场景,生成所述3D场景的二维2D分割图像,其中,所述对象中的每一个以相应的不同单一颜色渲染;/n基于所述分割图像,在所述一个或多个对象中识别所述3D场景中的一个或多个可视对象;/n针对所述3D场景中的每个可视对象分别生成2D非模态分割图像,其中,每个非模态分割图像仅包括生成所述非模态分割图像所针对的单个可视对象;以及/n针对所述3D场景中的每个可视对象,基于所述可视对象的非模态分割图像生成2D边界框。/n

【技术特征摘要】
20191120 US 16/689,9821.用于感知自动驾驶的障碍物的计算机实现的方法,所述方法包括:
通过用分割相机渲染包括一个或多个对象的三维3D场景,生成所述3D场景的二维2D分割图像,其中,所述对象中的每一个以相应的不同单一颜色渲染;
基于所述分割图像,在所述一个或多个对象中识别所述3D场景中的一个或多个可视对象;
针对所述3D场景中的每个可视对象分别生成2D非模态分割图像,其中,每个非模态分割图像仅包括生成所述非模态分割图像所针对的单个可视对象;以及
针对所述3D场景中的每个可视对象,基于所述可视对象的非模态分割图像生成2D边界框。


2.如权利要求1所述的方法,其中,基于所述分割图像识别所述3D场景中的所述一个或多个可视对象还包括:
确定所述3D场景中的每个对象的可视像素的数量,其中,存在于与对象相关联的分割图像中的所有像素是可视像素,以及其中,基于像素的颜色和与所述像素相关联的对象的所述单一颜色来识别所述像素与所述相关联的对象之间的对应关系;
对于每个对象,确定与所述对象相关联的可视像素的数量是否大于预定阈值;以及
响应于确定与对象相关联的可视像素的数量大于所述预定阈值,将所述3D场景中的所述对象识别为可视对象。


3.如权利要求1所述的方法,其中,针对所述3D场景中的每个可视对象,基于所述可视对象的所述非模态分割图像生成所述2D边界框还包括:
基于所述非模态分割图像,确定与所述可视对象的像素相关联的最小x坐标、最小y坐标、最大x坐标和最大y坐标;
生成与所述最小x坐标、所述最小y坐标、所述最大x坐标和所述最大y坐标相关联的矩形作为所述可视对象的所述2D边界框。


4.如权利要求1所述的方法,其中,与单个可视对象相关联的每个非模态分割图像是以1位颜色深度生成的。


5.如权利要求4所述的方法,其中,在单个渲染通路中将多个非模态分割图像渲染成单个色彩格式图像,以及其中,所述色彩格式图像中的每个色彩信息位对应于相应的可视对象。


6.如权利要求5所述的方法,其中,在单个渲染通路中将与32个可视对象相关联的32个非模态分割图像渲染成单个32位彩色格式图像。


7.如权利要求4所述的方法,其中,用多重渲染目标(MRT)技术在单个渲染通路中将第一数量的非模态分割图像渲染成第二数量的色彩格式图像,以及其中,每个色彩格式图像中的每个色彩信息位对应于相应的可视对象。


8.如权利要求7所述的方法,其中,在单个渲染通路中将与128个可视对象相关联的128个非模态分割图像渲染成四个32位彩色格式图像。


9.非暂时性机器可读介质,其中存储有指令,所述指令在由处理器执行时使得所述处理器执行用于感知自动驾驶的障碍物的操作,所述操作包括:
通过用分割相机渲染包括一个或多个对象的三维3D场景,生成所述3D场景的二维2D分割图像,其中,所述对象中的每一个以相应的不同单一颜色渲染;
基于所述分割图像,在所述一个或多个对象中识别所述3D场景中的一个或多个可视对象;
针对所述3D场景中的每个可视对象分别生成2D非模态分割图像,其中,每个非模态分割图像仅包括生成所述非模态分割图像所针对的单个可视对象;以及
针对所述3D场景中的每个可视对象,基于可视对象的非模态分割图像生成2D边界框。


10.如权利要求9所述的非暂时性机器可读介质,基于所述分割图像识别所述3D场景中的所述一个或多个可视对象还包括:
确定所述3D场景中的每个对象的可视像素的数量,其中,存在于与对象相关联的分割图像中的所有像素是可视像素,以及其中,基于像素的颜色和与所述像素相关联的对象的所述单一颜色来识别...

【专利技术属性】
技术研发人员:荣国栋赵培涛郑在源
申请(专利权)人:百度美国有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1