当前位置: 首页 > 专利查询>三峡大学专利>正文

一种基于深度学习的多视图自然场景重建方法技术

技术编号:33123243 阅读:14 留言:0更新日期:2022-04-17 00:29
一种基于深度学习的多视图自然场景重建方法,包括以下步骤:根据相机在不同角度拍摄的场景图片序列,首先对所有场景图像进行预处理,计算每幅图像的相机参数;根据提出的基于光度一致性度量图像相似度方法和视图选择算法,将其分为参考图像与源图像并在视图间进行支持域特征匹配。在卷积网络提取特征时根据匹配视图结果,构建图像特征金字塔;将所有原始图像以及参数文件经过改进的多视图立体重建神经网络,得到参考图像深度图,并在此深度图的基础之上融合成三维点云;运用表面重建算法生成场景网格模型,完成三维场景的重建工作。提高了基于图像的三维场景重建效率,实现特征图像块在跨视图中映射,使得提取的特征更加完善。善。善。

【技术实现步骤摘要】
一种基于深度学习的多视图自然场景重建方法


[0001]本专利技术涉及实景建模
,具体涉及一种基于深度学习的多视图自然场景重建方法。

技术介绍

[0002]近年来,自然图像三维场景重建技术受到越来越多的重视,相关研究人员对计算机视觉领域中的三维场景重建产生了浓厚的兴趣。同时随着全球民用无人机产业如火如荼的发展,面向工业方面的无人机踏勘,环境资源部门、水利部门、规划部门设计机构等利用无人机能快速完成踏勘任务,降低劳动强度,提高勘测效率。通过无人机踏勘获取的图像数据信息进行三维重建,就能让踏勘获取到更多的细节信息,同时对地形、地势、山川、河流的走势和树木的分布情况会有更清晰的了解和认识。在日常生活中,三维重建技术逐渐应用于各大行业,比如:医学三维重建,从二维平面图片向立体三维成像发展,医务工作者能更好的研究人体相关生理、病理信息,将提取到的这些信息转换为相应的治疗方案,在确定治疗方式上起到毋庸置疑的重要性,从而提高了治愈的可能性,对人类的健康发挥了举足轻重的作用。在关于城市建模中,通过三维重建技术,对未来城市形态进行预演,并且能够根据实际规划成果进行修改,从而使得城市规划方案更加具有科学性。
[0003]基于图像的立体化三维重建,能够帮助人类提取更多视觉之外的广义信息。比如恢复残缺的重要古文物原貌,帮助考古学者探索更深层次的人类文明。而又随着人工智能、机器学习等科研技术的飞速发展和广泛应用,虚拟现实技术(VirtualReality)、增强现实技术(Augmented Reality)、自动驾驶技术等新型科学技术产业在日常生活中随处可见。随着智能工厂、智慧城市的不断涌现,人工智能逐渐成为目前推动国内科学技术发展的中坚力量。将机器学习技术应用到计算机视觉领域中的三维场景重建之上,将简化三维场景重建的步骤、提高重建的效率、精度和完整度。

技术实现思路

[0004]本专利技术所要解决的技术问题是提供一种基于深度学习的多视图自然场景重建方法,将跨视图的图像块特征映射融合到改进的神经网络中,最后输出参考图像的深度图,在估算深度时,还进行了视图选择的步骤,进一步提高了深度图的精确度和重建三维场景的细节信息。
[0005]为解决上述技术问题,本专利技术所采用的技术方案是:
[0006]一种基于深度学习的多视图自然场景重建方法,方法包括:
[0007]Step1、根据相机在不同角度拍摄的场景图片序列,对所有场景图像进行预处理,计算每幅图像的相机参数;
[0008]Step2、根据光度一致性度量图像相似度方法和视图选择算法,将图像序列分为参考图像与源图像并在视图间进行支持域特征匹配;
[0009]Step3、利用卷积网络提取视图特征,并根据匹配视图结果,构建图像特征金字塔;
[0010]Step4、将所有原始图像以及参数文件代入多视图立体重建神经网络IMVSNet,即Improved

Multi

View Stereo Net,得到参考图像深度图,并在此深度图的基础之上融合成三维点云;
[0011]Step5、运用表面重建算法生成场景网格模型,完成三维场景的重建工作。
[0012]上述的Step2中,图像相似度方法选择的支持域大小为15
×
15,选择场景图像中完整的标准设定颜色的建筑作为参考区域,例如通过场景图像中完整的红色建筑作为参考区域计算支持域的像素对在相邻图像中的相似性,以此判断两幅图像的相似程度,并通过能量公式区分当前视图与参考视图的相似性。
[0013]上述的能量公式为:
[0014][0015]其中表示图像梯度,该图像梯度是相对于图像像素x
i
相适应颜色计算出的导数。对于投影P
j
的导数,该导数是将梯度转换为正确的坐标系。
[0016]上述的Step2中,视图选择算法方法为:
[0017]定义:P、图像视图中的像素点,初始采样8个像素点,分别为最靠近中心点4个像素与最远四个像素;N、图像视图的数量;M、图像块映射代价;t、迭代次数;T、图像块映射边界值;
[0018]输入:随机选择的8个像素点;
[0019]算法:1)计算初始点与N

1个视图的映射代价M
ij
,记做代价矩阵M;
[0020]2)表示图像块映射迭代的边界值τ1;
[0021]3)代价矩阵每一列映射代价值m
ij
最多只能有两个大于τ;
[0022]4)设置匹配置信度C(M
ij
);
[0023]5)为选定视图设置选择权重w;
[0024]约束:光度一致性;
[0025]输出:最适合的若干映射实体图;
[0026]结合光度一致性约束和图像块与视图间匹配代价在视图中寻找匹配度最高的若干视图;并且选择大小为15
×
15的支持域,选择重建的自然场景是DTU数据集上的49张建筑物图片,定位匹配场景中的设定颜色建筑作为特征块在图像中进行映射匹配。
[0027]上述的Step3中,神经网络特征提取匹配从N张输入图像中提取深度特征F进行密集匹配,特征提取采用八个二维的CNN神经网络卷积层,在第三层和第六层的步长设置为2,将特征塔划分为3个不同的尺度,在每个相同的尺度内,再应用两个卷积层以提取更高级别的图像表示,第1个至第7个卷积层后面都紧接着一个归一化层和修正线性单元,第8个卷积层后面无其他结构,参数在所有的特征塔之间共享,供神经网络进行学习,通过不同步长的卷积层之后,输出为N张32通道的特征图,与原始输入图像相比,每个维度空间的尺寸都缩小4倍。
[0028]上述的Step4中,立体化重建中使用在参考相机视锥上构建代价体将I1作为参考图像,{I
i
}
Ni=2
表示源图像,{K
i
,R
i
,T
i
}
Ni=1
表示与特征图相对应的相机内部参数矩阵、旋转矩阵、平移矩阵;
[0029]提取的特征图都需要糅合到参考相机的不同前端平行面中,因此会形成N个特征
体深度d处从变形特征FV
i
(d)到F
i
的坐标映射由平面变换f

~H
i
(d)
·
f,其中~表示在深度d出第i
th
个特征图和参考特征图之间的投影相等性和Hi(d)的单一映射性。假设n1为参考相机的主轴,单一性映射由3
×
3的矩阵表示为:
[0030][0031]其中,H
i
(d)是从第i个特征图变换到参考图像在深度为d时的单应性变换矩阵,{K
i
,R
i
,T
i
}
Ni=1
表示与特征图相对应的相机内部参数矩阵、旋转矩阵、平移矩阵分别为对应特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的多视图自然场景重建方法,其特征在于,方法包括:Step1、根据相机在不同角度拍摄的场景图片序列,对所有场景图像进行预处理,计算每幅图像的相机参数;Step2、根据光度一致性度量图像相似度方法和视图选择算法,将图像序列分为参考图像与源图像并在视图间进行支持域特征匹配;Step3、利用卷积网络提取视图特征,并根据匹配视图结果,构建图像特征金字塔;Step4、将所有原始图像以及参数文件代入多视图立体重建神经网络IMVSNet,得到参考图像深度图,并在此深度图的基础之上融合成三维点云;Step5、运用表面重建算法生成场景网格模型,完成三维场景的重建工作。2.根据权利要求1所述的一种基于深度学习的多视图自然场景重建方法,其特征在于,所述的Step2中,图像相似度方法选择的支持域大小为15
×
15,选择场景图像中完整的标准设定颜色的建筑作为参考区域,计算支持域的像素对在相邻图像中的相似性,以此判断两幅图像的相似程度,并通过能量公式区分当前视图与参考视图的相似性。3.根据权利要求2所述的一种基于深度学习的多视图自然场景重建方法,其特征在于,所述的能量公式为:其中表示图像梯度,该图像梯度是相对于图像像素x
i
相适应颜色计算出的导数。对于投影P
j
的导数,该导数是将梯度转换为正确的坐标系。4.根据权利要求2所述的一种基于深度学习的多视图自然场景重建方法,其特征在于,所述的Step2中,视图选择算法方法为:定义:P、图像视图中的像素点,初始采样8个像素点,分别为最靠近中心点4个像素与最远四个像素;N、图像视图的数量;M、图像块映射代价;t、迭代次数;T、图像块映射边界值;输入:随机选择的8个像素点;算法:1)计算初始点与N

1个视图的映射代价M
ij
,记做代价矩阵M;2)表示图像块映射迭代的边界值τ1;3)代价矩阵每一列映射代价值m
ij
最多只能有两个大于τ;4)设置匹配置信度C(M
ij
);5)为选定视图设置选择权重w;约束:光度一致性;输出:最适合的若干映射实体图;结合光度一致性约束和图像块与视图间匹配代价在视图中寻找匹配度最高的若干视图;并且选择大小为15
×
15的支持域,定位匹配场景中的设定颜色建筑作为特征块在多张图像中进行映射匹配。5.根据权利要求4所述的一种基于深度学习的多视图自然场景重建方法,其特征在于,所述的Step3中,神经网络特征提取匹配从N张输入图像中提取深度特征F进行密集匹配,特征提取采用八个二维的CNN神经网络卷积层,在第三层和第六层的步长设置为2,将特征塔划分为3个不同的尺度,在每个相同的尺度内,再应用两个卷积层以提取更高级别的图像表
示,第1个至第7个卷积层后面都紧接着一个归一化层和修正线性单元,第8个卷积层后面无其他结构,参数在所有的特征塔之间共享,供神经网络进行学习,通过不同步长的卷积层之后,输出为N张32通道的特征图,与原始输...

【专利技术属性】
技术研发人员:任东杨义乾任顺
申请(专利权)人:三峡大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1