室内环境的自监督式深度估计框架制造技术

技术编号：38819756 阅读：37 留言：0更新日期：2023-09-15 19:58

多个系统和多个方法被提供用于以一自监督方式从一个或多个图像估计一深度图。本文公开的所述多个系统和多个方法可以执行所述深度分解模块，所述深度分解模块包括一深度网络及一尺度网络，所述深度网络被配置为从一目标图像确定一深度图，所述尺度网络被配置为从所述目标图像确定一全局尺度因子及以所述全局尺度因子更新所述深度图，以确定一相对深度图。本文的系统和方法还可以执行一残差姿态估计模块，所述残差姿态估计模块被配置为迭代地预测在多个被重建的合成图像与所述目标图像之间的多个残差相机姿态，并且基于所述相对深度图、全局尺度因子和所述多个迭代预测的残差相机姿态以训练一深度估计模型。相机姿态以训练一深度估计模型。相机姿态以训练一深度估计模型。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】室内环境的自监督式深度估计框架
[0001]相关申请的交叉引用
[0002]本申请要求2021年3月18日提交且标题为“室内环境的自监督式深度估计框架”的美国临时申请第63/162,940号的权益，所述申请的全部内容通过引用并入本文。

[0003]本公开通常涉及用于从一个或多个图像进行深度估计的系统和方法，并且具体地涉及用于室内环境的深度估计的自监督式方法。

技术介绍

[0004]深度估计在各种3D感知任务中发挥着重要作用，例如自动驾驶、虚拟现实(VR)和增强现实(AR)。深度估计可以利用一深度图(a depth map)，所述深度图可以用一被监督方式和/或一自监督方式从单个图像被估计。与诸多被监督式方法相比，自监督使所述方法不必使用诸多深度传感器(譬如激光雷达)来捕获一地面真值深度(ground
‑
truth depth)，因此，在无法获得地面真值的情况下可能更有吸引力。
[0005]最近，诸多自监督式方法成功产生的深度预测与诸多被监督式方法产生的深度预测相当。例如，在卡尔斯鲁厄理工学院和丰田理工学院(KITTI)数据集上，Monodepth2(一种自监督式方法)实现10.6％的绝对相对深度误差(AbsRel)，与通过被监督式DORN(一种被监督式方法)的7.2％的AbsRel相差不远。然而，现有的自监督式深度预测方法仅在KITTI等室外数据集上进行评估，使其在室内环境中的性能不透明。
[0006]一些方法考虑室内自监督式深度预测，但它们的性能仍然远远落后在室外数据...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种单目图像深度估计的方法，其特征在于：包括：获取多个图像帧，所述多个图像帧至少包括一第一图像帧和一第二图像帧，其中，所述多个图像帧由至少一个图像传感器捕获；基于一深度模型导出所述第一图像帧的一深度图；将所述深度图分解为用于所述第一图像的一全局尺度因子；通过使用所述全局尺度因子更新所述深度图以确定所述第一图像的一相对深度图；和训练一深度估计模型以基于所述相对深度图和全局尺度因子从所述第二图像帧预测所述第一图像帧。2.如权利要求1所述的方法，其特征在于：所述深度模型包括一深度网络，所述深度网络具有一编码器和一解码器，其中所述第一图像帧是所述编码器的一输入并且所述深度图由所述解码器输出。3.如权利要求2所述的方法，其特征在于：所述深度模型包括在所述编码器与解码器之间的多个跳跃连接。4.如权利要求1至3中的任一项所述的方法，其特征在于：将所述深度图分解为一全局尺度因子是基于从所述第一图像帧提取的多个特征表述学习的自注意力。5.如权利要求4所述的方法，其特征在于：还包括：从基于学习的自注意力的一概率尺度回归头预测所述全局尺度因子。6.如权利要求1至5中所述的任一项的方法，其特征在于：还包括：基于一个或多个合成图像帧确定所述图像传感器在所述第一图像帧与所述第二图像帧之间的一相对姿态，所述一个或多个合成图像帧从所述第二图像帧导出；基于所述被确定的相对位姿训练所述深度估计模型。7.如权利要求6所述的方法，其特征在于：还包括：对所述第二图像帧应用一逆扭曲以生成一第一合成图像帧；和确定一第一残差相机姿态指示所述图像传感器在所述第一图像帧与所述第一合成图像帧之间的一相对姿态，其中，所述被确定的相对姿态基于所述第一残差相机姿态。8.如权利要求6和7中的一项所述的方法，其特征在于：还包括：通过迭代地将一逆扭曲应用于每个先前的合成图像帧以生成多个顺序的合成图像帧；和确定多个残差相机姿态指示所述图像传感器在所述第一图像帧与每个顺序的合成图像帧之间的一相对姿态，其中，所述被确定的相对姿态基于所述多个顺序的残差相机姿态。9.如权利要求1至8中的任一项所述的方法，其特征在于：每个图像包括一室内环境的一场景。10.一种非暂时性计算机可读存储介质，存储可由一个或多个处理器执行的多个指令，其特征在于：所述多个指令由一个或多个处理器执行时致使所述一个或多个处理器进行一方法，所述方法包括：获取多个图像帧，所述多个图像帧至少包括一第一图像帧和一第二图像帧，其中所述多个图像帧由至少一个图像传感器捕获；基于一个或多个合成图像帧确定所述图像传感器在所述第一图像帧与所述第二图像帧之间的一相对姿态，所述一个或多个合成图像帧从所述第二图像帧导出；和
基于所述被确定的相对姿态训练所述深度估计模型。11.如权利要求10所述的非暂时性计算机可读存储介质，其特征在于：所述方法还包括：对所述第二图像帧应用一逆扭曲以生成一第一合成图像帧；和确定一第一残差相机姿态指示...

【专利技术属性】
技术研发人员：嵇盼，徐毅，
申请(专利权)人：创峰科技，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人