图像处理方法、设备、系统及计算机可读存储介质技术方案

技术编号:37101123 阅读:30 留言:0更新日期:2023-04-01 05:01
本申请公开了一种图像处理方法、设备、系统及计算机可读存储介质,属于图像技术领域。所述方法包括:获取视频帧序列中的第一视频帧作为目标图像;将目标图像或目标图像的图像特征发送给服务器;接收服务器发送的目标图像对应的稀疏深度图和位姿信息;根据目标图像、目标图像对应的稀疏深度图和位姿信息、视频帧序列中位于目标图像之前的第二视频帧、以及第二视频帧对应的稀疏深度图和位姿信息,确定目标图像对应的稠密深度图。如此,终端可以在服务器的辅助下快速获得目标图像对应的稠密深度图,而无需使用深度相机或双目相机获得稠密深度图,从而降低了硬件要求,且减少了终端的运算量,提高了稠密深度图的确定效率,适用性较高。高。高。

【技术实现步骤摘要】
图像处理方法、设备、系统及计算机可读存储介质


[0001]本申请涉及图像
,特别涉及一种图像处理方法、设备、系统及计算机可读存储介质。

技术介绍

[0002]深度图像是物体的三维表示形式,能够直接反映景物可见表面的几何形状。根据具有的深度信息的稀疏程度区分,深度图像包括稀疏深度图和稠密深度图。在应用时通常使用的是稠密深度图。
[0003]在一种情况下,可以通过具有高分辨率等优良指标的深度相机获得稠密深度图,即通过该深度相机对待拍摄的目标进行拍摄,从而得到具有高分辨率的稠密深度图。或者,通过双目相机获得稠密深度图,即通过双目相机对待拍摄的目标进行拍摄,然后对双目相机的视差进行深度估计,得到稠密深度图。
[0004]然而,由于深度相机或双目相机的成本、分辨率与功耗等指标通常无法同时满足商业需求,导致通过该深度相机或双目相机获得稠密深度图的适用性较差。所以如何获得稠密深度图成为研究的热点。

技术实现思路

[0005]本申请提供了一种图像处理方法、设备、系统及计算机可读存储介质,可以解决相关技术中通过深度相机或双目相机获得稠密深度图的适用性较差的问题。所述技术方案如下:
[0006]第一方面,提供了一种图像处理方法,该方法应用于终端中,该方法包括:
[0007]获取待估计的目标图像,将目标图像或目标图像的图像特征发送给服务器,目标图像为视频帧序列中的第一视频帧,视频帧序列是移动拍摄的RGB相机采集的。然后,接收服务器发送的目标图像对应的稀疏深度图和位姿信息,根据目标图像、目标图像对应的稀疏深度图和位姿信息、视频帧序列中位于目标图像之前的第二视频帧、以及第二视频帧对应的稀疏深度图和位姿信息,确定目标图像对应的稠密深度图。
[0008]其中,目标图像可以为视频帧序列中的任一视频帧,比如为视频帧序列中的任一关键帧。
[0009]作为一个示例,终端集成有RGB相机,终端可以通过RGB相机对目标环境进行移动拍摄,将移动拍摄得到的视频帧序列中的第一视频帧作为目标图像。
[0010]比如,终端可以在接收到视频录制指令后,通过RGB相机对目标环境进行录制得到视频帧序列。该视频录制指令可以由用户触发,用户可以通过指定操作触发。示例性地,指定操作可以包括但不限于点击操作、滑动操作、语言操作或手势操作等。
[0011]作为一个示例,终端在获取目标图像之后,可以直接将目标图像发送给服务器。
[0012]作为另一个示例,终端在获取目标图像之后,也可以先提取目标图像的特征点,得到目标图像的图像特征,目标图像的图像特征为目标图像的特征点集合。然后将目标图像
的目标特征发送给服务器。
[0013]其中,目标图像的图像特征包括目标图像中的特征点集合,通常包括目标图像的稀疏的特征点。特征点一般为目标图像中具有关键特征的特征点。
[0014]在一个实施例中,可以将目标图像、目标图像对应的稀疏深度图和位姿信息、第二视频帧、以及第二视频帧对应的稀疏深度图和位姿信息输入至目标模型中进行处理,输出目标图像对应的稠密深度图。
[0015]其中,目标模块可以预选训练得到。目标模型用于根据任一视频帧、该任一视频帧对应的稀疏深度图和位姿信息、位于该任一视频帧之前的其他视频帧、其他视频帧对应的稀疏深度图和位姿信息,确定该任一视频帧对应的稠密深度图。
[0016]在一个实施例中,可以获取样本数据集,根据样本数据集对待训练的网络模型进行训练,以得到目标模型。其中,样本数据集包括多组样本数据,多组样本数据中的每组样本数据包括视频帧样本序列、视频帧样本序列中的各个视频帧样本对应的稀疏深度图和位姿信息、以及各个视频帧样本对应的真实稠密深度图。
[0017]其中,各个视频帧样本对应的稀疏深度图和位姿信息可以按照上述目标图像对应的稀疏深度图和位姿信息的获取方式获取得到,当然也可以采用其他方式获取得到,本申请实施例对此不做限定。
[0018]作为一个示例,各个视频帧样本可以是视频帧样本序列中的关键帧样本。
[0019]作为一个示例,各个视频帧样本对应的真实稠密深度图可以通过具有优良指标的深度相机采集得到,也即该深度相机可以获取稠密的深度信息,譬如该深度相机可以采用VGA深度相机。
[0020]作为一个示例,终端存储有预先训练好的目标模型。终端在接收到服务器发送的目标图像对应的稀疏深度图和位姿信息之后,可以调用目标模型,然后将目标图像、目标图像对应的稀疏深度图和位姿信息、第二视频帧、以及第二视频帧对应的稀疏深度图和位姿信息输入至目标模型中进行处理。之后,目标图像即可输出目标图像对应的稠密深度图。
[0021]通过目标模型来确定目标图像的稠密深度图,可以进一步提高稠密深度图的确定效率。
[0022]在一种可能的实现方式中,可以构建端到端的网络模型作为待训练的网络模型,以及构建损失函数,损失函数用于描述真实值与估计值不一样的程度,本实施例中的真实值是真实稠密深度图,估计值是通过该网络模型估计的稠密深度图。在训练过程中,可以根据损失函数和样本数据集,对网络模型的模型参数进行更新。当训练满足结束条件时,将模型参数更新后的网络模型作为训练好的目标模型。
[0023]作为一个示例,可以根据真实值与估计值之间的几何误差、视频帧样本的相似性误差、以及深度图像光滑度,构建损失函数。其中,视频帧样本的相似性误差用于描述位姿信息的反投影误差。深度图像光滑度可以理解为是一个约束条件,能够使得最终得到的稠密深度图是平滑的,各个像素点之间不存在跳变的情况。
[0024]作为另一个示例,目标模型也可以存储在云端,这种情况下,终端可以将目标图像、目标图像对应的稀疏深度图和位姿信息、第二视频帧、以及第二视频帧对应的稀疏深度图和位姿信息输入至目标模型上传至云端,并指示云端根据上传的数据确定稠密深度图。之后,云端将确定的稠密深度图发送给终端。如此,可以进一步地减少终端的运算量。
[0025]在一个实施例中,第二视频帧的数量为多个,终端可以根据根据目标图像、目标图像对应的稀疏深度图和位姿信息、多个第二视频帧中的各个第二视频帧、以及各个第二视频帧对应的稀疏深度图和位姿信息,确定目标图像对应的稠密深度图。
[0026]其中,各个第二视频帧对应的稀疏深度图和位姿信息均可以按照目标图像对应的稀疏深度图和位姿信息的获取方式获取得到。
[0027]作为一个示例,终端可以将目标图像、目标图像对应的稀疏深度图和位姿信息、多个第二视频帧中的各个第二视频帧、以及各个第二视频帧对应的稀疏深度图和位姿信息均输入至目标模型中进行处理,以通过目标模型确定目标图像对应的稠密深度图。
[0028]也即,在第二视频帧的数量为多个的情况下,终端仍可以通过目标模型确定目标图像对应的稠密深度图。
[0029]在一个实施例中,在将目标图像或目标图像的图像特征发送给服务器之前,终端可以先获取环境数据,将环境数据发送给服务器。其中,环境数据用于确定目标环境中不同视角的RGB图像。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像处理方法,其特征在于,应用于终端中,所述方法包括:获取待估计的目标图像,所述目标图像为视频帧序列中的第一视频帧,所述视频帧序列是移动拍摄的RGB相机采集的;将所述目标图像或所述目标图像的图像特征发送给服务器;接收所述服务器发送的所述目标图像对应的稀疏深度图和位姿信息;根据所述目标图像、所述目标图像对应的稀疏深度图和位姿信息、所述视频帧序列中位于所述目标图像之前的第二视频帧、以及所述第二视频帧对应的稀疏深度图和位姿信息,确定所述目标图像对应的稠密深度图。2.根据权利要求1所述的方法,其特征在于,所述根据所述目标图像、所述目标图像对应的稀疏深度图和位姿信息、所述视频帧序列中位于所述目标图像之前的第二视频帧、以及所述第二视频帧对应的稀疏深度图和位姿信息,确定所述目标图像对应的稠密深度图,包括:将所述目标图像、所述目标图像对应的稀疏深度图和位姿信息、所述第二视频帧、以及所述第二视频帧对应的稀疏深度图和位姿信息输入至目标模型中进行处理,输出所述目标图像对应的稠密深度图;其中,所述目标模型用于根据任一视频帧、所述任一视频帧对应的稀疏深度图和位姿信息、位于所述任一视频帧之前的其他视频帧、所述其他视频帧对应的稀疏深度图和位姿信息,确定所述任一视频帧对应的稠密深度图。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:获取样本数据集,所述样本数据集包括多组样本数据,所述多组样本数据中的每组样本数据包括视频帧样本序列、所述视频帧样本序列中的各个视频帧样本对应的稀疏深度图和位姿信息、以及所述各个视频帧样本对应的真实稠密深度图;根据所述样本数据集对待训练的网络模型进行训练,以得到所述目标模型。4.根据权利要求1

3任一所述的方法,其特征在于,所述第二视频帧的数量为多个,所述根据所述目标图像、所述目标图像对应的稀疏深度图和位姿信息、所述视频帧序列中位于所述目标图像之前的第二视频帧、以及所述第二视频帧对应的稀疏深度图和位姿信息,确定所述目标图像对应的稠密深度图,包括:根据所述目标图像、所述目标图像对应的稀疏深度图和位姿信息、多个第二视频帧中的各个第二视频帧、以及所述各个第二视频帧对应的稀疏深度图和位姿信息,确定所述目标图像对应的稠密深度图。5.根据权利要求1

4任一所述的方法,其特征在于,所述将所述目标图像或所述目标图像的图像特征发送给服务器之前,还包括:获取环境数据,所述环境数据用于确定目标环境中不同视角的RGB图像;将所述环境数据发送给所述服务器。6.根据权利要求5所述的方法,其特征在于,所述环境数据包括所述视频帧序列、所述目标环境的全景图、以及所述目标环境的激光扫描信息中的一种或多种。7.一种图像处理系统,其特征在于,应用于服务器中,所述系统包括终端和服务器;所述终端,用于获取待估计的目标图像,所述目标图像为视频帧序列中的第一视频帧,所述视频帧序列是移动拍摄的RGB相机采集的;所述终端,还用于将所述目标图像或所述目标图像的图像特征发送给服务器;
所述服务器,用于接收终端发送的目标图像或目标图像的图像特征;所述服务器,还用于根据所述目标图像的图像特征,从已存储的第一视觉地图中获取多个候选图像,所述第一视觉地图包括多个RGB图像以及每个RGB图像对应的稠密深度图和位姿信息,所述多个候选图像是指对应图像特征与所述目标图像的图像特征的差异小于差异阈值的RGB图像;所述服务器,还用于根据所述目标图像的图像特征,以及所述多个候选图像对应的稠密深度图和位姿信息,确定所述目标图像对应的稀疏深度图和位姿信息;所述服务器,还用于将所述目标图像对应的稀疏深度图和位姿信息发送给所述终端;所述终端,还用于接收所述服务器发送的所述目标图像对应的稀疏深度图和位姿信息;所述终端,还用于根据所述目标图像、所述目标图像对应的稀疏深度图和位姿信息、所述视频帧序列中位于所述目标图像之前的第二视频帧、以及所述第二视频帧对应的稀疏深度图和位姿信息,确定所述目标图像对应的稠密深度图。8.根据权利要求7所述的系统,其特征在于,所述服务器还用于:对于所述多个候选图像中的第一候选图像,从所述第一候选图像对应的稠密深度图中确定所述第一候选图像的目标图像特征对应的深度信息,所述第一候选图像的目标图像特征是指所述第一候选图像的图像特征中与所述目标图像的部分图像特征相互匹配的部分图像特征,所述第一候选图像为所述多个候选图像中的任一个;根据所述目标图像的图像特征,对所述多个候选图像中每个候选图像的目标图像特征对应的深度信息进行组合,得到所述目标图像的图像特征对应的深度信息;根据所述目标图像的图像特征对应的深度信息,确定所述目标图像对应的稀疏深度图。9...

【专利技术属性】
技术研发人员:陈兵
申请(专利权)人:荣耀终端有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1