当前位置: 首页 > 专利查询>创峰科技专利>正文

室内环境的自监督式深度估计框架制造技术

技术编号:38819756 阅读:24 留言:0更新日期:2023-09-15 19:58
多个系统和多个方法被提供用于以一自监督方式从一个或多个图像估计一深度图。本文公开的所述多个系统和多个方法可以执行所述深度分解模块,所述深度分解模块包括一深度网络及一尺度网络,所述深度网络被配置为从一目标图像确定一深度图,所述尺度网络被配置为从所述目标图像确定一全局尺度因子及以所述全局尺度因子更新所述深度图,以确定一相对深度图。本文的系统和方法还可以执行一残差姿态估计模块,所述残差姿态估计模块被配置为迭代地预测在多个被重建的合成图像与所述目标图像之间的多个残差相机姿态,并且基于所述相对深度图、全局尺度因子和所述多个迭代预测的残差相机姿态以训练一深度估计模型。相机姿态以训练一深度估计模型。相机姿态以训练一深度估计模型。

【技术实现步骤摘要】
【国外来华专利技术】室内环境的自监督式深度估计框架
[0001]相关申请的交叉引用
[0002]本申请要求2021年3月18日提交且标题为“室内环境的自监督式深度估计框架”的美国临时申请第63/162,940号的权益,所述申请的全部内容通过引用并入本文。


[0003]本公开通常涉及用于从一个或多个图像进行深度估计的系统和方法,并且具体地涉及用于室内环境的深度估计的自监督式方法。

技术介绍

[0004]深度估计在各种3D感知任务中发挥着重要作用,例如自动驾驶、虚拟现实(VR)和增强现实(AR)。深度估计可以利用一深度图(a depth map),所述深度图可以用一被监督方式和/或一自监督方式从单个图像被估计。与诸多被监督式方法相比,自监督使所述方法不必使用诸多深度传感器(譬如激光雷达)来捕获一地面真值深度(ground

truth depth),因此,在无法获得地面真值的情况下可能更有吸引力。
[0005]最近,诸多自监督式方法成功产生的深度预测与诸多被监督式方法产生的深度预测相当。例如,在卡尔斯鲁厄理工学院和丰田理工学院(KITTI)数据集上,Monodepth2(一种自监督式方法)实现10.6%的绝对相对深度误差(AbsRel),与通过被监督式DORN(一种被监督式方法)的7.2%的AbsRel相差不远。然而,现有的自监督式深度预测方法仅在KITTI等室外数据集上进行评估,使其在室内环境中的性能不透明。
[0006]一些方法考虑室内自监督式深度预测,但它们的性能仍然远远落后在室外数据集上评估的方法或在室内数据集上的被监督式对应方案。例如,在室内NYUv2数据集上,一种示例方法的AbsRel达到18.9%,这远高于Monodepth2在KITTI上可以达到的水平。

技术实现思路

[0007]根据被公开的技术的各种实施例,提供用于以一自监督方式从一个或多个图像估计一深度图的系统和方法。
[0008]根据一些实施例,提供用于从诸多单目图像进行深度估计的方法和系统。所述方法包括获得多个图像帧,所述多个图像帧包括至少第一图像帧和一第二图像帧,其中所述多个图像帧由至少一个图像传感器捕获;基于一深度模型导出所述第一图像帧的一深度图;将所述深度图分解为所述第一图像的一全局尺度因子;通过使用所述全局尺度因子更新所述深度图以确定所述第一图像的一相对深度图;及训练一深度估计模型以基于所述相对深度图和全局尺度因子从所述第二图像帧预测所述第一图像帧。
[0009]在另一方面,提供一种非暂时性计算机可读存储介质,存储用于从诸多单目图像进行深度估计的多个指令。所述指令可由一个或多个处理器执行,并且当由所述一个或多个处理器执行时,使得所述一个或多个处理器执行一种方法,所述方法包括获得多个图像帧,所述多个图像帧包括至少第一图像帧和一第二图像帧,其中所述多个图像帧由至少一
个图像传感器捕获;基于一个或多个合成图像帧确定所述图像传感器在所述第一图像帧与所述第二图像帧之间的一相对姿态,所述一个或多个合成图像帧从所述第二图像帧导出;及基于所述被确定的相对姿态训练所述深度估计模型。
[0010]在另一方面,提供一种用于深度估计的系统。所述系统包括被配置为存储指令的一存储器及可通信地耦合到所述存储器的一个或多个处理器。所述一个或多个处理器被配置为执行所述指令以执行一深度分解模块和一残差姿态估计模块。所述深度分解模块包括:一深度网络,被配置为从作为一输入的一目标图像以确定一深度图;及一尺度网络,被配置为从作为一输入的所述目标图像确定一全局尺度因子,并且基于以所述全局尺度因子更新所述深度图以确定一相对深度图。所述残差姿态估计模块被配置为迭代地预测在多个迭代重建的合成图像和所述多个目标图像之间的多个残差相机姿态,其中一第一迭代重建的合成图像基于所述目标图像与一来源图像之间的一相对相机姿态,其中所述第一迭代重建的合成图像随后的每个迭代重建的合成图像是基于一先前迭代重建的合成图像与所述目标图像之间的一残差相机姿态被生成。所述一个或多个处理器被配置为执行所述指令,基于所述相对深度图、全局尺度因子和迭代预测的残差相机姿态以训练一深度估计模型。
[0011]根据如下结合附图的详细描述,被公开的技术的其他特征和方面将变得显而易见,附图通过示例以图例说明根据被公开的技术的实施例的特征。所述概述并不旨在限制本文描述的任何专利技术的范围,这些专利技术仅由所附权利要求书限定。
附图说明
[0012]本公开参照附图详细描述根据一个或多个不同实施例。附图仅出于说明的目的被提供并且仅描绘典型或示例实施例。
[0013]图1以图例说明根据本文公开的诸多实施例的自监督式深度估计系统的一示例架构的一图。
[0014]图2以图例说明根据本文公开的诸多实施例的用于学习在多个图像之间的所述相对相机姿态的一示例残差姿态估计。
[0015]图3以图例说明在EuRoC MAV数据集上使用图1的所述深度估计系统进行的深度预测的定性比较。
[0016]图4以图例说明对NYUv2深度数据集使用图1的所述深度估计系统进行的深度预测的定性比较。
[0017]图5是可被用于实现本公开中描述的诸多实施例的各种特征的一示例计算组件。
[0018]提及这些说明性实施例并非为了限制或定义本公开,而是为了提供诸多示例以帮助理解本公开。另外的实施例在具体实施方式中被讨论,并且在那里提供进一步的描述。
具体实施方式
[0019]本文公开的诸多系统和诸多方法的诸多实施例可以提供以一自监督方式从一个或多个图像估计一深度图。例如,本公开的诸多实施例提供使用一深度分解模块和一残差姿态估计模块中的至少一者的自监督式深度估计。根据各种实施例,所述深度分解模块可以被配置为通过被添加到一深度网络的一分支以学习一全局尺度因子和/或一相对深度图。所述残差姿态估计模块可以被配置为估计用于视图合成的多个准确相机姿态,这进而
改进所述深度模型。各种实施例包括所述深度分解模块和所述残差姿态估计模块两者。
[0020]如上所述,现有的室内自监督式深度预测方法的性能远远落后于室外自监督式方法或被监督式对应方案。这种差异可能部分是因为室内环境的序列场景的深度范围比室外的序列场景的深度范围的变化更大。这可能会导致一深度网络难以跨多个图像引入一致的深度线索。性能差异也可能是因为自监督式方法中常用的姿态网络在旋转预测方面往往存在大的误差。即使在使用一循环姿态网络(a recurrent pose network)后,诸多预测姿态也可能具有比几何同时定位与地图构建(SLAM)高得多的旋转误差(譬如大10倍)。这个问题对室外数据集来说可能并不突出,因为其中的运动大多是平移的。然而,由于室内数据集通常由手持相机或微型飞行器(MAV)捕获,不可避免地会经历频繁的旋转,因此不准确的旋转预测不利于室内环境的一深度模型的自监督训练。
[0021]给定上述考虑因素,本文公开的诸多实施例提供对于室内环境量身定制的单目自监督式深度估计系统和方法本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种单目图像深度估计的方法,其特征在于:包括:获取多个图像帧,所述多个图像帧至少包括一第一图像帧和一第二图像帧,其中,所述多个图像帧由至少一个图像传感器捕获;基于一深度模型导出所述第一图像帧的一深度图;将所述深度图分解为用于所述第一图像的一全局尺度因子;通过使用所述全局尺度因子更新所述深度图以确定所述第一图像的一相对深度图;和训练一深度估计模型以基于所述相对深度图和全局尺度因子从所述第二图像帧预测所述第一图像帧。2.如权利要求1所述的方法,其特征在于:所述深度模型包括一深度网络,所述深度网络具有一编码器和一解码器,其中所述第一图像帧是所述编码器的一输入并且所述深度图由所述解码器输出。3.如权利要求2所述的方法,其特征在于:所述深度模型包括在所述编码器与解码器之间的多个跳跃连接。4.如权利要求1至3中的任一项所述的方法,其特征在于:将所述深度图分解为一全局尺度因子是基于从所述第一图像帧提取的多个特征表述学习的自注意力。5.如权利要求4所述的方法,其特征在于:还包括:从基于学习的自注意力的一概率尺度回归头预测所述全局尺度因子。6.如权利要求1至5中所述的任一项的方法,其特征在于:还包括:基于一个或多个合成图像帧确定所述图像传感器在所述第一图像帧与所述第二图像帧之间的一相对姿态,所述一个或多个合成图像帧从所述第二图像帧导出;基于所述被确定的相对位姿训练所述深度估计模型。7.如权利要求6所述的方法,其特征在于:还包括:对所述第二图像帧应用一逆扭曲以生成一第一合成图像帧;和确定一第一残差相机姿态指示所述图像传感器在所述第一图像帧与所述第一合成图像帧之间的一相对姿态,其中,所述被确定的相对姿态基于所述第一残差相机姿态。8.如权利要求6和7中的一项所述的方法,其特征在于:还包括:通过迭代地将一逆扭曲应用于每个先前的合成图像帧以生成多个顺序的合成图像帧;和确定多个残差相机姿态指示所述图像传感器在所述第一图像帧与每个顺序的合成图像帧之间的一相对姿态,其中,所述被确定的相对姿态基于所述多个顺序的残差相机姿态。9.如权利要求1至8中的任一项所述的方法,其特征在于:每个图像包括一室内环境的一场景。10.一种非暂时性计算机可读存储介质,存储可由一个或多个处理器执行的多个指令,其特征在于:所述多个指令由一个或多个处理器执行时致使所述一个或多个处理器进行一方法,所述方法包括:获取多个图像帧,所述多个图像帧至少包括一第一图像帧和一第二图像帧,其中所述多个图像帧由至少一个图像传感器捕获;基于一个或多个合成图像帧确定所述图像传感器在所述第一图像帧与所述第二图像帧之间的一相对姿态,所述一个或多个合成图像帧从所述第二图像帧导出;和
基于所述被确定的相对姿态训练所述深度估计模型。11.如权利要求10所述的非暂时性计算机可读存储介质,其特征在于:所述方法还包括:对所述第二图像帧应用一逆扭曲以生成一第一合成图像帧;和确定一第一残差相机姿态指示...

【专利技术属性】
技术研发人员:嵇盼徐毅
申请(专利权)人:创峰科技
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1