生成用于自动驾驶标记的紧密2D边界框的新方法技术

技术编号：28538367 阅读：24 留言：0更新日期：2021-05-21 09:02

公开了一种用于为三维(3D)场景中的可视对象生成紧密二维(2D)边界框的方法、设备和系统。包括一个或多个对象的三维(3D)场景的二维(2D)分割图像是通过用分割相机渲染3D场景而生成的。每个对象以单个相应的不同颜色呈现。接着，基于分割图像在一个或多个对象中识别3D场景中的一个或多个可视对象。接下来，针对3D场景中每个可视对象分别生成2D非模态分割图像。每个非模态分割图像仅包括为其生成的单个可视对象。此后，基于可视对象的非模态分割图像针对3D场景中的每个可视对象生成2D边界框。

全部详细技术资料下载

【技术实现步骤摘要】
生成用于自动驾驶标记的紧密2D边界框的新方法
本公开的实施方式总体上涉及操作自动驾驶车辆。更具体地，本公开的实施方式涉及生成用于训练自动驾驶车辆的感知模块的数据。
技术介绍
以自主模式(例如，无驾驶员)操作的车辆可以减轻乘坐者，尤其是驾驶员的某些驾驶相关的责任。当在自主模式下操作时，车辆可以使用车载传感器导航到各种位置，从而允许车辆以最小的人机交互或者在一些情况下不需要任何乘客来行进。运动规划和控制是自动驾驶中的关键操作。然而，传统的运动规划操作主要根据完成给定路径的曲率和速度来估计完成给定路径的难度，而不考虑不同类型的车辆的特征的差异。相同的运动规划和控制被应用于所有类型的车辆，其在某些情况下可能不是精确和平滑的。感知模块是自动驾驶车辆栈中的关键部件。在感知模块中使用的人工智能(AI)算法需要大量的标记图像用于训练。手动标记既耗时又昂贵，并且可能不准确。因此，在本领域中有时使用合成数据来生成标记数据，以帮助感知模块获得更好的结果。理想地，在被标记的图像中，与自动驾驶相关的每个障碍物用紧密的二维(2D)边界框来标记。在可用于自动驾驶的现有合成数据集中，一些(例如，PlayingforData、SYNTHIA)不提供2D边界框，而其他一些(例如，FordCenterforAutonomousVehicles“FCAV”、PlayingforBenchmarks)仅具有用于可视像素的2D边界框(与用于包括可视对象的遮挡或截断的像素在内的所有的2D边界框相反),以及还有其他一些对象(例如，Virtu...

【技术保护点】
1.用于感知自动驾驶的障碍物的计算机实现的方法，所述方法包括：/n通过用分割相机渲染包括一个或多个对象的三维3D场景，生成所述3D场景的二维2D分割图像，其中，所述对象中的每一个以相应的不同单一颜色渲染；/n基于所述分割图像，在所述一个或多个对象中识别所述3D场景中的一个或多个可视对象；/n针对所述3D场景中的每个可视对象分别生成2D非模态分割图像，其中，每个非模态分割图像仅包括生成所述非模态分割图像所针对的单个可视对象；以及/n针对所述3D场景中的每个可视对象，基于所述可视对象的非模态分割图像生成2D边界框。/n

【技术特征摘要】
20191120 US 16/689,9821.用于感知自动驾驶的障碍物的计算机实现的方法，所述方法包括：
通过用分割相机渲染包括一个或多个对象的三维3D场景，生成所述3D场景的二维2D分割图像，其中，所述对象中的每一个以相应的不同单一颜色渲染；
基于所述分割图像，在所述一个或多个对象中识别所述3D场景中的一个或多个可视对象；
针对所述3D场景中的每个可视对象分别生成2D非模态分割图像，其中，每个非模态分割图像仅包括生成所述非模态分割图像所针对的单个可视对象；以及
针对所述3D场景中的每个可视对象，基于所述可视对象的非模态分割图像生成2D边界框。

2.如权利要求1所述的方法，其中，基于所述分割图像识别所述3D场景中的所述一个或多个可视对象还包括：
确定所述3D场景中的每个对象的可视像素的数量，其中，存在于与对象相关联的分割图像中的所有像素是可视像素，以及其中，基于像素的颜色和与所述像素相关联的对象的所述单一颜色来识别所述像素与所述相关联的对象之间的对应关系；
对于每个对象，确定与所述对象相关联的可视像素的数量是否大于预定阈值；以及
响应于确定与对象相关联的可视像素的数量大于所述预定阈值，将所述3D场景中的所述对象识别为可视对象。

3.如权利要求1所述的方法，其中，针对所述3D场景中的每个可视对象，基于所述可视对象的所述非模态分割图像生成所述2D边界框还包括：
基于所述非模态分割图像，确定与所述可视对象的像素相关联的最小x坐标、最小y坐标、最大x坐标和最大y坐标；
生成与所述最小x坐标、所述最小y坐标、所述最大x坐标和所述最大y坐标相关联的矩形作为所述可视对象的所述2D边界框。

4.如权利要求1所述的方法，其中，与单个可视对象相关联的每个非模态分割图像是以1位颜色深度生成的。

5.如权利要求4所述的方法，其中，在单个渲染通路中将多个非模态分割图像渲染成单个色彩格式图像，以及其中，所述色彩格式图像中的每个色彩信息位对应于相应的可视对象。

6.如权利要求5所述的方法，其中，在单个渲染通路中将与32个可视对象相关联的32个非模态分割图像渲染成单个32位彩色格式图像。

7.如权利要求4所述的方法，其中，用多重渲染目标(MRT)技术在单个渲染通路中将第一数量的非模态分割图像渲染成第二数量的色彩格式图像，以及其中，每个色彩格式图像中的每个色彩信息位对应于相应的可视对象。

8.如权利要求7所述的方法，其中，在单个渲染通路中将与128个可视对象相关联的128个非模态分割图像渲染成四个32位彩色格式图像。

9.非暂时性机器可读介质，其中存储有指令，所述指令在由处理器执行时使得所述处理器执行用于感知自动驾驶的障碍物的操作，所述操作包括：
通过用分割相机渲染包括一个或多个对象的三维3D场景，生成所述3D场景的二维2D分割图像，其中，所述对象中的每一个以相应的不同单一颜色渲染；
基于所述分割图像，在所述一个或多个对象中识别所述3D场景中的一个或多个可视对象；
针对所述3D场景中的每个可视对象分别生成2D非模态分割图像，其中，每个非模态分割图像仅包括生成所述非模态分割图像所针对的单个可视对象；以及
针对所述3D场景中的每个可视对象，基于可视对象的非模态分割图像生成2D边界框。

10.如权利要求9所述的非暂时性机器可读介质，基于所述分割图像识别所述3D场景中的所述一个或多个可视对象还包括：
确定所述3D场景中的每个对象的可视像素的数量，其中，存在于与对象相关联的分割图像中的所有像素是可视像素，以及其中，基于像素的颜色和与所述像素相关联的对象的所述单一颜色来识别...

【专利技术属性】
技术研发人员：荣国栋，赵培涛，郑在源，
申请(专利权)人：百度美国有限责任公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人