一种自监督占用网络的训练方法和系统技术方案

技术编号：42904644 阅读：12 留言：0更新日期：2024-09-30 15:20

本发明专利技术公开了一种自监督占用网络的训练方法和系统，涉及3D占用预测技术领域，方法包括：构建数据集，数据集包括多个摄像装置在多个连续时刻采集的样本图像；基于数据集对占用网络进行训练，在训练过程中，实时计算包含动态区域的光度重投影损失，直至计算出的包含动态区域的光度重投影损失收敛，得到训练好的占用网络。本发明专利技术结合包含动态区域的光度重投影损失，对占用网络进行训练，提高了在预测动态场景方面的预测能力，提高对动态区域的预测效果。

全部详细技术资料下载

【技术实现步骤摘要】

所属的技术人员知道，本专利技术可以实现为系统、方法或计算机程序产品，因此，本专利技术可以具体实现为以下形式，即：可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等)，还可以是硬件和软件结合的形式，本文一般称为“电路”、“模块”或“系统”。此外，在一些实施例中，本专利技术还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是一一但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)，只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本专利技术中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。尽管上面已经示出和描述了本专利技术的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本专利技术的限制，本领域的普通技术人员在本专利技术的范围内可以对上述实施例进行变化、修改、替换和变型。

技术介绍

1、在自动驾驶领域，3d占用预测可以输出体素(voxel)级的空间占用情况和语义标签，与传统的3d

2、目前大多数方法依赖于激光雷达点云来生成占用标签进行训练，也有论文提出了基于神经辐射场的自监督占用网络训练方法，但是，目前的自监督方法对于可行驶区域、人行道、植被等静态区域的语义占用预测有不错的效果，但是对于行人、车辆等运动物体的语义占用预测效果很差。这是因为现有方法在重建图像时仅考虑了自车的位姿变化，没有考虑场景中其他物体的运动，所以无法重建出图像中的动态区域，导致光度重投影损失无法监督场景中的动态区域。而仅通过多摄像头的图像视频序列建模3d空间中的物体运动十分困难。

技术实现思路

1、本专利技术所要解决的技术问题是针对现有技术的不足，具体提供了一种自监督占用网络的训练方法和系统，具体如下：

2、1)第一方面，本专利技术提供一种自监督占用网络的训练方法，具体技术方案如下：

3、构建数据集，数据集包括多个摄像装置在多个连续时刻采集的样本图像；

4、基于数据集对占用网络进行训练，在训练过程中，实时计算包含动态区域的光度重投影损失，直至计算出的包含动态区域的光度重投影损失收敛，得到训练好的占用网络。

5、本专利技术提供的一种自监督占用网络的训练方法的有益效果如下：

6、本专利技术结合包含动态区域的光度重投影损失，对占用网络进行训练，提高了在预测动态场景方面的预测能力，提高对动态区域的预测效果。

7、在上述方案的基础上，本专利技术的一种自监督占用网络的训练方法还可以做如下改进。

8、进一步，包含动态区域的光度重投影损失的计算过程包括：

9、根据相邻两时刻的样本图像和第一网络模型，分别得到对应时刻的占用网格的3d体素特征；

10、将第一时刻的占用网格的3d体素特征输入第二网络模型，预测得出3d空间占用率，并将3d空间占用率进行转换，得到第一时刻的每个样本图像对应的深度图；

11、将第一时刻的占用网格的3d体素特征和第二时刻对应的占用网格的3d体素特征进行特征匹配，获取体素坐标偏移预测结果，其中，相邻两时刻中的前一时刻为第一时刻，相邻两时刻中的后一时刻为第二时刻；

12、利用体素坐标偏移预测结果和与第一时刻的每个样本图像对应的深度图，计算第一时刻对应的包含动态区域的光度重投影损失。

13、采用上述进一步方案的有益效果是：通过特征匹配的方式计算体素坐标偏移预测结果，提高在预测动态场景方面的预测能力，且该计算过程是是无参数方法，不会增加占用网络的训练参数。

14、进一步，根据相邻两时刻的样本图像和第一网络模型，分别得到对应时刻的占用网格的3d体素特征，包括：

15、将第一时刻的每个样本图像输入第一网络模型，得到第一时刻的每个样本图像的2d图像特征，并结合每个摄像装置的内外参，将第一时刻的每个样本图像的2d图像特征变换到3d空间，得到第一时刻对应的占用网格的3d体素特征，将第二时刻的每个样本图像输入第一网络模型，得到第二时刻的每个样本图像的2d图像特征，并结合每个摄像装置的内外参，将第二时刻的每个样本图像的2d图像特征变换到3d空间，得到第二时刻对应的占用网格的3d体素特征。

16、采用上述进一步方案的有益效果是：能够快速且准确得到不同时刻的占用网格的3d体素特征。

17、进一步，将第一时刻的占用网格的3d体素特征和第二时刻对应的占用网格的3d体素特征进行特征匹配，获取体素坐标偏移预测结果，包括：

18、确定并根据第一时刻的占用网格的3d体素特征和第二时刻对应的占用网格的3d体素特征之间的对应关系，得到相关概率分布图；

19、根据相关概率分布图，得到体素坐标偏移预测结果。

20、采用上述进一步方案的有益效果是：考虑第一时刻的占用网格的3d体素特征和第二时刻对应的占用网格的3d体素特征之间的对应关系，能够保证获取体素坐标偏移预测结果的准确度。

21、进一步，根据相关概率分布图，得到体素坐标偏移预测结果，包括：

22、根据相关概率分布图，对第二时刻的占用网格的3d体素特征中的所有体素坐标进行加权求和，得到第一时刻在第二时刻时的预测体素坐标，将第一时刻对应的体素坐标与第一时刻在第二时刻时的预测体素坐标之间的差值作为体素坐标偏移预测结果。

23、采用上述进一步方案的有益效果是：将第一时刻对应的体素坐标与第一时刻在第二时刻时的预测体素坐标之间的差值作为体素坐标偏移预测结果，保证体素坐标偏移预测结果的合理性。

24、进一步，利用体素坐标偏移预测结果和与第一时刻的每个样本图像对应的深度图，计算第一时刻对应的包含动态区域的光度重投影损失，包括：

25、根据第一时刻的每个样本图像对应的深度图，计算出第一时刻的每个样本图像的每个像素的三维坐标；

26、根据第一时刻的每个样本图像的每个像素的三维坐标，确定第一时刻的每个样本图像的每个像素的三维坐标在第二时刻时的预测三维坐标；

27、根据第一时刻的每个样本图像的每个像素的三维坐标在第二时刻时的预测三维坐标和第二时刻的每个样本图像，得到第一时刻的每个样本图像所分别对应的重建样本图像；

28、计算并将每个摄像装置拍摄的第一时刻的每个样本图像所分别对应的重建样本图像与第一时刻的每个样本图像之间的光度重投影损失之和，作为第一时刻对应的包含动态区域本文档来自技高网...

【技术保护点】

1.一种自监督占用网络的训练方法，其特征在于，包括：

2.根据权利要求1所述的一种自监督占用网络的训练方法，其特征在于，所述包含动态区域的光度重投影损失的计算过程包括：

3.根据权利要求2所述的一种自监督占用网络的训练方法，其特征在于，根据相邻两时刻的样本图像和第一网络模型，分别得到对应时刻的占用网格的3D体素特征，包括：

4.根据权利要求2所述的一种自监督占用网络的训练方法，其特征在于，将第一时刻的占用网格的3D体素特征和第二时刻对应的占用网格的3D体素特征进行特征匹配，获取体素坐标偏移预测结果，包括：

5.根据权利要求4所述的一种自监督占用网络的训练方法，其特征在于，根据所述相关概率分布图，得到所述体素坐标偏移预测结果，包括：

6.根据权利要求2所述的一种自监督占用网络的训练方法，其特征在于，利用所述体素坐标偏移预测结果和与第一时刻的每个样本图像对应的深度图，计算第一时刻对应的包含动态区域的光度重投影损失，包括：

7.根据权利要求6所述的一种自监督占用网络的训练方法，其特征在于，根据第一时刻的每个样本图像

8.根据权利要求6所述的一种自监督占用网络的训练方法，其特征在于，根据第一时刻的每个样本图像的每个像素的三维坐标，确定第一时刻的每个样本图像的每个像素的三维坐标在第二时刻时的预测三维坐标，包括：

9.根据权利要求6所述的一种自监督占用网络的训练方法，其特征在于，根据第一时刻的每个样本图像的每个像素的三维坐标在第二时刻时的预测三维坐标和第二时刻的每个样本图像，得到第一时刻的每个样本图像所分别对应的重建样本图像，包括：

10.一种自监督占用网络的训练系统，其特征在于，包括数据集构建模块和模型训练模块；

...

【技术特征摘要】

1.一种自监督占用网络的训练方法，其特征在于，包括：

2.根据权利要求1所述的一种自监督占用网络的训练方法，其特征在于，所述包含动态区域的光度重投影损失的计算过程包括：

3.根据权利要求2所述的一种自监督占用网络的训练方法，其特征在于，根据相邻两时刻的样本图像和第一网络模型，分别得到对应时刻的占用网格的3d体素特征，包括：

4.根据权利要求2所述的一种自监督占用网络的训练方法，其特征在于，将第一时刻的占用网格的3d体素特征和第二时刻对应的占用网格的3d体素特征进行特征匹配，获取体素坐标偏移预测结果，包括：

5.根据权利要求4所述的一种自监督占用网络的训练方法，其特征在于，根据所述相关概率分布图，得到所述体素坐标偏移预测结果，包括：

6.根据权利要求2所述的一种自监督占用网络的训练方法，其特征在于，利用所述体素坐标偏移预测结果和与第一...

【专利技术属性】
技术研发人员：安家锐，陈佳，任杰，
申请(专利权)人：元橡科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人