System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及一种用于训练机器学习模型以生成车辆周围环境的基于体素的3d表示的方法。
技术介绍
1、在当今在现有技术中已知的2d或3d对象识别中,通常使用所谓的机器学习模型(ml模型),所述机器学习模型基于已知的并且在现有数据中标记的对象——例如车辆、行人或交通标志—一来训练。此类方法在此以大量现有的带注释的图像数据为前提,以便训练用于对应品质的神经网络。
2、然而,这种方案对于自主驾驶的应用领域来说是不够的。因为自主驾驶车辆必须能够识别车辆的360度周围环境半径内可能发生碰撞的每个对象。此类任务借助于所谓的通用对象检测来解决。在现有技术中已知的用于通用对象检测的解决方案迄今为止通常采用通过融合立体和时间信息来获得关于车辆周围的对象的运动程度和深度的信息的方案。然而,这种方案仅可应用于2d域中的单个图像或图像对,并且通常意味着应用基于经典计算机视觉的技术,所述技术与基于机器学习模型的技术相比仅具有非常低的性能。
3、一种更先进的用于通用对象识别的方案基于所谓的3d体素网络(=机器学习模型)的应用,所述3d体素网络也可以称为3d-occupancy(占用)网络或3d占用网络,所述3d-occupancy网络或3d占用网络预测占用。这些3d体素网络基于为3d网格(=在其中存储网络预测的表示)中的每个体素分配占用,即体素是否被现实世界中的对象占用。在us2023222748a1中示例性地描述了用于识别车辆周围对象的基于体素的3d网格的应用。
4、然而,3d体素网络的应用迄今为止始终需要大量数据来训练
5、因此,本专利技术的任务是提供一种解决方案,借助于该解决方案可以以高效且成本有效的方式训练诸如3d占用网络之类的机器学习模型,以便生成车辆周围环境的基于体素的3d表示。
技术实现思路
1、该任务通过一种具有独立权利要求的特征的方法来解决,所述方法用于训练机器学习(ml)模型来生成车辆的周围环境的基于体素的3d表示。
2、根据第一方面,本公开涉及一种用于训练机器学习(ml)模型以生成车辆的周围环境的基于体素的3d表示的方法。
3、在第一步骤中,基于表示车辆的周围环境的至少一个数据源生成第一图像数据。
4、在第二步骤中,借助于可训练的ml模型从第一图像数据中提取至少一个图像特征。
5、在第三步中,借助于可训练的ml模型生成车辆的周围环境的基于体素的3d表示,其方式是将2d域中的至少一个图像特征变换为3d域中的对应的体素特征,其中每个体素特征包含关于占用的信息和体素特征的3d位置的颜色信息。
6、在第四步骤中,基于颜色信息和关于占用的信息来渲染至少一个体素特征的所生成的3d表示,以便生成第二图像数据。为此,使用所预测的颜色信息以及所预测的占用概率。
7、在第五步骤中,将第一输入图像数据与所生成的第二输出图像数据进行比较,并且在明确偏差的情况下,在第六步骤中调整ml模型的至少一个参数,该至少一个参数在此是ml模型的权重,以便最小化所确定的偏差,并且从而训练ml模型和因此改进ml模型的所生成的3d表示。
8、本专利技术的基本思想在于,借助于可训练的ml模型为车辆的周围环境生成基于体素的3d表示,其中3d域中的每个所生成的体素特征对应于2d域中的图像特征,并且包含关于占用的信息和体素特征的3d位置的颜色信息。
9、通过将第一输入(或input)图像数据与在体素特征的所生成的3d表示的基础上所生成的第二输出(或0utput)图像数据进行比较,借助于损失函数来检测输入图像数据和输出图像数据之间的偏差,这有助于连续改进所使用的ml模型。
10、本专利技术的另一个重要方面还在于,本专利技术适合于通过所谓的神经辐射场(=nerfs)的所谓自监督或具有occupancy网络(“占用网络”)的3d对象表示的体积渲染以高效的方式来组合高效的数据处理。
11、因此,利用本专利技术,可以以高效且成本有利的方式实现以下优点,而为此不需要大量训练数据来训练神经网络:
12、-基于标记或注释的训练数据进行通用对象识别,而不是特定于类别的对象识别。
13、-执行所谓的自监督,即在考虑数据效率的情况下对神经网络的独立的高效的训练。
14、-可以随时向要训练的神经网络模型馈送新的输入数据(长期学习),而无需对收集的数据使用常见的注释和标记技术或所谓的基本事实(ground-truth)计算。
15、-通过更丰富的3d体积表示生成所改进的且更准确的预测。
16、-改进高分辨率和细粒度的占用(或occupancy)信息
17、-ml模型可以根据不同的应用和使用领域(例如,用于技术设备或车辆的自主驾驶、环境观测等)进行不同地缩放。
18、-ml模型的更好的预测结果。
19、该方法的一个可能的构型方案规定,利用来自激光雷达数据源的附加的训练数据来训练ml模型。激光雷达数据在此可用于创建体素的实际占用的粗略估计,以促进ml模型的训练过程。来自激光雷达数据源的数据被转换为基于体素的表示,例如体素网格,它们然后被用作训练数据。由此实现的优点是,可以更轻松和更好地训练ml模型,使得可以高效地生成车辆的周围环境的精确3d对象表示。
20、该方法的一种可能的构型方案规定,渲染的步骤被实现为可微体积渲染。由此实现了以下优点:第一输入图像数据和第二输出图像数据之间的偏差可用于改进ml模型并因此改进所生成的3d表示。
21、该方法的一种可能的构型方案规定,在生成基于体素的3d表示的步骤中,使用时间信息,其方式是通过聚合来自至少一个先前时间点的至少一个另外的体素特征来扩展所述至少一个体素特征。由此实现了以下优点:可以基于以这种方式改进的ml模型来生成车辆周围环境的所改进的3d对象表示,因为ml模型包含附加的时间信息。
22、根据第二方面,本公开涉及一种包含机器可读指令的计算机程序,当在一个或多个计算机和/或计算机实例上执行所述指令时,所述指令促使所述计算机或计算机实例执行根据本专利技术的方法。
23、根据第三方面,本公开涉及一种具有计算机程序的机器可读数据载体和/或下载产品。
24、根据第四方面,本公开涉及具有计算机程序和/或具有机器可读数据载体和/或下载产品的一个或多个计算机和/或计算机实例。
25、下面基于附图与对本专利技术的优选实施例的描述一起更详细地示出改进本专利技术的其他措施。
本文档来自技高网...【技术保护点】
1.一种用于训练ML模型(30)以生成车辆(60)的周围环境(50)的基于体素的3D表示的方法(100),所述方法具有如下步骤:
2.根据权利要求1所述的方法(100),其中利用来自激光雷达数据源(9)的附加训练数据来训练所述ML模型(30)。
3.根据前述权利要求中任一项所述的方法(100),其中渲染的步骤(108)被实现为可微体积渲染。
4.根据前述权利要求中任一项所述的方法(100),其中在生成(106)基于体素的3D表示(70)的步骤中使用时间信息(81),其方式是通过聚合来自至少一个先前的时间点的至少一个另外的体素特征(14-2)来扩展所述至少一个体素特征(14)。
5.一种包含机器可读指令的计算机程序,当在一个或多个计算机和/或计算机实例上执行所述指令时,所述指令促使所述计算机或计算机实例执行根据权利要求1至4中任一项所述的方法。
6.一种具有根据权利要求5所述的计算机程序的机器可读数据载体和/或下载产品。
7.具有根据权利要求5所述的计算机程序和/或具有根据权利要求6所述的机器可读数据载体和/或
...【技术特征摘要】
1.一种用于训练ml模型(30)以生成车辆(60)的周围环境(50)的基于体素的3d表示的方法(100),所述方法具有如下步骤:
2.根据权利要求1所述的方法(100),其中利用来自激光雷达数据源(9)的附加训练数据来训练所述ml模型(30)。
3.根据前述权利要求中任一项所述的方法(100),其中渲染的步骤(108)被实现为可微体积渲染。
4.根据前述权利要求中任一项所述的方法(100),其中在生成(106)基于体素的3d表示(70)的步骤中使用时间信息(81),其方式是通过聚...
【专利技术属性】
技术研发人员:S·博德尔,F·吉根加克,O·兰格,
申请(专利权)人:罗伯特·博世有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。