深度估计方法、单目深度估计模型生成方法和电子设备技术

技术编号:37679607 阅读:22 留言:0更新日期:2023-05-26 04:46
本申请提供一种深度估计方法、单目深度估计模型生成方法和电子设备,涉及图像处理技术领域,能够提高电子设备在使用AR功能时,对现实场景中物体的深度信息估计更为准确,提高了深度信息的时序一致性,保证了虚拟物体和现实物体之间的遮挡关系在时间维度上的一致性和准确性,提高了用户的使用体验。该方法包括:训练设备获取目标场景的多个视角的样本拍摄图像和每个样本拍摄图像的GT深度图;训练设备获取目标场景的几何约束;训练设备以样本拍摄图像作为训练数据,样本拍摄图像的GT深度图和样本拍摄图像的几何约束作为监督信息,迭代训练初始单目深度估计模型,得到目标单目深度估计模型。模型。模型。

【技术实现步骤摘要】
深度估计方法、单目深度估计模型生成方法和电子设备


[0001]本申请涉及图像处理
,尤其涉及一种深度估计方法、单目深度估计模型生成方法和电子设备。

技术介绍

[0002]为了提高用户的使用体验,手机等电子设备大都具备有增强现实(augemented reality,AR)功能。AR功能可以在电子设备拍摄现实场景的情况下,在电子设备的显示界面中显示各类虚拟物体。例如,动漫角色、虚拟路标等。这样一来,在不同的使用场景下,AR功能可以带给用户更好的使用体验。
[0003]在实现AR功能的过程中,电子设备需要根据拍摄图像中的深度信息结合使用场景,确定虚拟物体在拍摄图像中的具体深度,进而在显示界面中合理的位置显示该虚拟物体。此外,由于大部分具备摄像功能的电子设备都采用的是单目摄像头,所以电子设备的拍摄图像中的深度信息需要基于单目深度估计模型估计得出。而目前的单目深度估计模型对拍摄图像中各物体深度的估计会存在偏差,使得依据该深度信息确定的虚拟物体的深度信息不准确,甚至连续两帧拍摄图像中虚拟和真实物体之间的遮挡关系存在差异。这样一来,也严重影响了用户对AR功能的使用体验。

技术实现思路

[0004]本申请实施例提供一种深度估计方法、单目深度估计模型生成方法和电子设备,能够提高电子设备在使用AR功能时,对现实场景中物体的深度信息估计更为准确,提高了深度信息的时序一致性,保证了虚拟物体和现实物体之间的遮挡关系在时间维度上的一致性和准确性,提高了用户的使用体验。
[0005]为达到上述目的,本申请的实施例采用如下技术方案:第一方面,本申请提供了一种单目深度估计模型生成方法,应用于训练设备,该方法包括:训练设备获取目标场景的多个视角的样本拍摄图像和每个样本拍摄图像的GT深度图;训练设备获取目标场景的几何约束;训练设备以样本拍摄图像作为训练数据,样本拍摄图像的GT深度图和样本拍摄图像的几何约束作为监督信息,迭代训练初始单目深度估计模型,得到目标单目深度估计模型。
[0006]基于上述实施例提供的技术方案,可以通过监督学习的方式,训练得到目标单目深度估计模型。该目标单目深度估计模型所采用的监督信息除了常用的GT深度图以外,还用了几何约束,由于该几何约束是可以反映出目标场景中所有物体之间的几何约束,而目标场景的图像无论是什么视角拍摄的,其中物体之间的几何约束必然是相同的。所以,以该几何约束作为监督信息,可以使得最终训练得到的单目深度估计模型在对时间和/或视角不同的目标场景的拍摄图像进行深度估计时,估计结果差异很小。也就是说,本申请实施例提供的技术方案,可以提高了单目深度估计模型的估计精度和时序一致性。
[0007]在第一方面的一种可能的实现方式中,在几何约束为法向量图的情况下,训练设
备获取目标场景的几何约束,包括:训练设备利用目标神经辐射场NeRF模型获取样本拍摄图像的法向量图;目标NeRF模型具备利用任意视角对应的位姿信息确定目标场景在任意视角下的拍摄图像的能力。
[0008]基于上述方案,训练设备便可以利用目标NeRF模型得到样本拍摄图像的准确的法向量图,并使用该法向量图作为单目深度估计模型训练时使用的监督信息。由于该法向量图是可以反映出目标场景中所有物体之间的几何约束,而目标场景的图像无论是什么视角拍摄的,其中物体之间的几何约束必然是相同的。所以,以该法向量图作为监督信息,可以使得最终训练得到的单目深度估计模型在对时间和/或视角不同的目标场景的拍摄图像进行深度估计时,估计结果差异很小。
[0009]在第一方面的一种可能的实现方式中,在训练设备利用目标NeRF模型获取样本拍摄图像的法向量图之前,该方法还包括:训练设备获取每个样本拍摄图像的位姿信息和像素值;训练设备以样本拍摄图像的位姿信息作为训练数据,样本拍摄图像的像素值作为监督信息,迭代训练初始NeRF模型,得到目标NeRF模型。
[0010]基于上述技术方案,可以通过监督学习的方式,训练得到目标NeRF模型。该目标NeRF模型则具备利用位姿信息得到在以该位姿信息对目标场景拍摄的拍摄图像的能力。为后续单目深度估计模型中的监督信息的来源提供了数据支持。
[0011]在第一方面的一种可能的实现方式中,训练设备以样本拍摄图像的位姿信息作为训练数据,样本拍摄图像的像素值作为监督信息,迭代训练初始NeRF模型,得到目标NeRF模型之前,方法还包括:训练设备基于样本拍摄图像的真实GT深度图,确定目标采样策略;训练设备以样本拍摄图像的位姿信息作为训练数据,样本拍摄图像的像素值作为监督信息,迭代训练初始NeRF模型,得到目标NeRF模型,包括:训练设备以样本拍摄图像的位姿信息作为训练数据,样本拍摄图像的像素值作为监督信息,目标采样策略作为初始NeRF模型进行体素采样的采样策略,迭代训练初始NeRF模型,得到目标NeRF模型。
[0012]基于上述技术方案,可以在以监督学习的方式,训练NeRF模型的基础上,使用的样本拍摄图像GT深度图得出目标采样策略,并以该目标采样策略指导NeRF模型的体素采样过程。因为样本拍摄图像的GT深度能够准确反映出样本拍摄图像中各个物体所处的位置,所以该目标采样策略可以指导NeRF模型体素采样时采样点的选择更合适,提高了采样效率。进一步的,由于NeRF模型体素采样时采样点的选择更合适也使得NeRF模型基于体素采样结果(采样点的颜色值和体素密度)得到的像素的像素值更准确,提高了最终训练得到的目标NeRF模型的效果。更进一步的,也为后续单目深度估计模型中的监督信息的来源提供了更有利的数据支持。
[0013]在第一方面的一种可能的实现方式中,在几何约束为法向量图的情况下,训练设备以样本拍摄图像作为训练数据,样本拍摄图像的GT深度图和样本拍摄图像的几何约束作为监督信息,迭代训练初始单目深度估计模型,得到目标单目深度估计模型,包括:训练设备初始化初始单目深度估计模型;训练设备将样本拍摄图像输入初始单目深度估计模型,得到预测深度图和预测法向量图;训练设备基于预测深度图、预测法向量图、样本拍摄图像的GT深度图和样本拍摄图像的法向量图,确定总损失值;训练设备根据总损失值迭代更新初始单目深度估计模型,以得到目标单目深度估计模型。
[0014]基于上述技术方案,可以利用基于深度的监督信息和基于法向量的监督信息,对
单目深度估计模型进行训练的监督,使得最终得到的目标单目深度估计模型在对时间和/或视角不同的目标场景的拍摄图像进行深度估计时,估计结果差异很小。
[0015]在第一方面的一种可能的实现方式中,训练设备基于预测深度图、预测法向量图、样本拍摄图像的GT深度图和样本拍摄图像的法向量图,确定总损失值,包括:训练设备根据预测深度图和样本拍摄图像的GT深度图,确定深度损失值;训练设备根据预测法向量图和样本拍摄图像的法向量图,确定法向量损失值;训练设备基于深度损失值和法向量损失值,计算总损失值。
[0016]基于上述技术方案,可以利用深度损失值和法向量损失值确定得到单目深度估计模型所需的总损失值,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种单目深度估计模型生成方法,其特征在于,应用于训练设备,该方法包括:所述训练设备获取目标场景的多个视角的样本拍摄图像和每个样本拍摄图像的真实GT深度图;所述训练设备获取所述目标场景的几何约束;所述训练设备以所述样本拍摄图像作为训练数据,所述样本拍摄图像的GT深度图和所述样本拍摄图像的几何约束作为监督信息,迭代训练初始单目深度估计模型,得到目标单目深度估计模型。2.根据权利要求1所述的方法,其特征在于,在所述几何约束为法向量图的情况下,所述训练设备获取所述目标场景的几何约束,包括:所述训练设备利用目标NeRF模型获取样本拍摄图像的法向量图;所述目标NeRF模型具备利用任意视角对应的位姿信息确定目标场景在所述任意视角下的拍摄图像的能力。3.根据权利要求2所述的方法,其特征在于,在所述训练设备利用目标NeRF模型获取样本拍摄图像的法向量图之前,所述方法还包括:所述训练设备获取每个所述样本拍摄图像的位姿信息和像素值;所述训练设备以所述样本拍摄图像的位姿信息作为训练数据,所述样本拍摄图像的像素值作为监督信息,迭代训练初始NeRF模型,得到目标NeRF模型。4.根据权利要求3所述的方法,其特征在于,所述训练设备以所述样本拍摄图像的位姿信息作为训练数据,所述样本拍摄图像的像素值作为监督信息,迭代训练初始NeRF模型,得到目标NeRF模型之前,所述方法还包括:所述训练设备基于所述样本拍摄图像的真实GT深度图,确定目标采样策略;所述训练设备以所述样本拍摄图像的位姿信息作为训练数据,所述样本拍摄图像的像素值作为监督信息,迭代训练初始NeRF模型,得到目标NeRF模型,包括:所述训练设备以所述样本拍摄图像的位姿信息作为训练数据,所述样本拍摄图像的像素值作为监督信息,所述目标采样策略作为所述初始NeRF模型进行体素采样的采样策略,迭代训练所述初始NeRF模型,得到所述目标NeRF模型。5.根据权利要求1

4任一项所述方法,其特征在于,在所述几何约束为法向量图的情况下,所述训练设备以所述样本拍摄图像作为训练数据,所述样本拍摄图像的GT深度图和所述样本拍摄图像的几何约束作为监督信息,迭代训练初始单目深度估计模型,得到目标单目深度估计模型,包括:所述训练设备初始化所述初始单目深度估计模型;所述训练设备将所述样本拍摄图像输入所述初始单目深度估计模型,得到预测深度图和预测法向量图;所述训练设备基于所述预...

【专利技术属性】
技术研发人员:张雨帆
申请(专利权)人:荣耀终端有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1