基于神经网络的光场三维成像方法和系统技术方案

技术编号：41131349 阅读：15 留言：0更新日期：2024-04-30 18:01

本发明专利技术提供了基于神经网络的光场三维成像方法和系统。该方法包括：用微透镜阵列光场相机采集多视角光场图像，形成多视角数据集；构建卷积神经网络模型，用于输入光场图像并输出二维深度图，依次包括卷积层、残差模块、SPP模块和注意力机制模块，用于对光场图像的全部信息进行特征提取并对关键信息进行特征保留；用数据集对神经网络模型进行训练和测试；将目标场景的光场图像输入神经网络模型，获得目标场景的二维深度图；对二维深度图的图像坐标进行转化，获得三维重建图像。本发明专利技术采取多视角信息融合，通过神经网络实现端到端学习，对图像直接生成深度图，能可靠还原各种场景三维结构，产生精确的三维重建结果；简化网络计算量，增强算法鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于光场三维成像，具体涉及一种基于神经网络的光场三维成像方法和一种光场三维成像系统。

技术介绍

1、三维成像技术作为当前感知真实世界的重要手段，在获取信息方面表现出色，近年来在自动驾驶、虚拟现实、人脸识别、医疗健康等领域中都得到了广泛应用。

2、光场相机是近年来备受关注的一种获取三维信息的先进技术，通过在其图像传感器上安装微透镜阵列，能够同时捕捉不同方向上的光线。这些微透镜允许入射光线在图像平面上形成微小的子图像，每个子图像都包含物体场景上的点的信息，包括其位置、方向和强度，通过将所有子图像合并即可形成一幅多维光场图像。通过对多维图像的解析，能够还原三维场景的深度、形状和位置信息。

3、目前研究的光场三维深度信息恢复方法主要包括以下几类：

4、一、基于单视图的三维成像方法。该方法通过搜索图像中具有区分度的特征点如角点、边缘等来实现物体三维重建，但由于二维图像在三维空间具有不确定性，故难以从单幅图像恢复精确的几何结构，重建效果差。

5、二、基于多视图几何的三维成像方法。这种方法结合了光场相机和多视图几何原理，可以方便地利用周围信息，重建精度由特征提取决定，现有的图像局部特征算法只能提取简单纹理特征，无法获取目标整体信息，制约重建精度。

6、三、基于结构光法的单目三维成像方法。通过投射特殊编码的光纹或光条到被拍摄物体上，根据观察光纹的形变或变化来计算物体的深度信息。对于高亮度或反射性物体，结构光法易受到干扰，对于长距离的深度测量存在精度降低的问题，导致深度测量不准

7、四、聚焦堆栈算法。该算法利用图像序列中的不同焦点图像，通过计算图像的清晰度评估值来确定场景中各点的深度位置，对于透明、反射和弱纹理场景的适应性较差，容易受到噪声干扰，且对于运动物体的处理相对有限，导致在复杂场景下的应用具有局限性。

8、五、基于深度学习的光场三维深度恢复算法。这种算法建立已知的真实深度标签数据集并训练学习光场图像与对应深度图之间的映射关系。但其使用的是光场对极平面图像中水平垂直和对角线四个方向上的特征信息，并没有利用子孔径图像的全部信息，而且需要处理不同视角的冗余信息，这需要更多的计算开销，加大了计算量。

9、综上所述，目前存在的几类光场三维成像方法存在重建效果差、重建精度低、重建速度受限、复杂场景下的应用有局限性、以及没有利用子孔径图像的全部信息且计算量大的问题。

技术实现思路

1、本专利技术的目的在于解决现有光场三维成像方法存在的重建效果差、重建精度低、重建速度受限、复杂场景下的应用有局限性、以及没有利用子孔径图像的全部信息且计算量大的不足之处，而提供了一种基于神经网络的光场三维成像方法和一种光场三维成像系统，其借助高效的特征融合方法和空间注意力，对光场图像生成高完整度的深度图，再进行三维可视化过程。

2、为实现上述目的，本专利技术所提供的技术解决方案是：

3、一种基于神经网络的光场三维成像方法，其特殊之处在于，包括以下步骤：

4、步骤1，用微透镜阵列光场相机采集多视角光场图像，形成多视角数据集；

5、步骤2，构建卷积神经网络模型，神经网络模型用于输入光场图像并输出其二维深度图，并且依次包括卷积层、残差模块、spp模块和注意力机制模块，用于对输入的光场图像的全部信息进行特征提取并对光场图像中的关键信息进行特征保留；

6、步骤3，用所形成的多视角数据集对所构建的神经网络模型进行训练和测试；

7、步骤4，将目标场景的光场图像输入经训练的神经网络模型，获得目标场景的二维深度图；

8、步骤5，对目标场景的二维深度图的图像坐标进行转化，获得目标场景的三维重建图像。

9、进一步地，步骤3包括以下步骤：根据图像深度估计值y与图像深度实际值y*之差确定损失函数：

10、l(y*，y)＝λl1+l2

11、式中，深度信息的损失值l1为：

12、

13、结构相似度损失函数l2为：

14、

15、式中，λ为深度信息的损失值权重，n为图像像素数和，ssim为结构相似度函数。

16、进一步地，步骤3包括以下子步骤：

17、步骤3.1，将所形成的多视角数据集划分为训练集和测试集；

18、步骤3.2，用划分的训练集对所构建的神经网络模型进行训练；

19、步骤3.3，用划分的测试集对经训练的神经网络模型进行验证。

20、进一步地，步骤5包括以下子步骤：利用目标场景的二维深度图推断出图像中各像素点对应的三维空间坐标，将二维深度图的图像坐标转化为各像素点对应的三维点云坐标，实现目标场景的三维重建图像：

21、xw＝z·(u-u0)dx/f

22、yw＝z·(v-v0)dy/f

23、zw＝z

24、式中，(xw,yw,zw)为世界坐标，(u0,v0)为图像中心像素点坐标，(u,v)为图像像素点坐标，z为求取的图像深度值，f为相机焦距，dx和dy为相机参数。

25、一种光场三维成像系统，其特殊之处在于，包括：

26、微透镜阵列光场相机，用于采集目标场景的光场图像；

27、数据处理模块，用于将所采集的光场图像输入上述卷积神经网络模型中并输出目标场景的二维深度图；

28、三维重建模块，用于对目标场景的二维深度图的图像坐标进行转化，获得目标场景的三维重建图像。

29、本专利技术的优点是：

30、1、本专利技术利用微透镜阵列光场相机采集多视角光场图像，并构建包括卷积层、残差模块、spp模块和注意力机制模块的卷积神经网络模型，其对光场图像的全部信息进行特征提取并对关键信息进行特征保留，再算出深度值输出二维深度图，之后进行坐标转化而获得三维重建图像。因此，本专利技术采取多视角信息融合，提高信息获取，还通过网络实现端到端的学习，实现对采集图像直接生成深度图，避免了需对不同类型的场景设计复杂的特征提取和匹配算法，在复杂场景下具有强鲁棒性，能可靠地还原各种场景真实的三维结构，产生精确的三维重建结果；

31、2、本专利技术的神经网络结构包括卷积层、残差模块、spp模块和注意力机制模块注意力机制，网络能够利用光场图像的全部信息并动态地选择和聚焦于输入数据中的关键信息，从而有效简化网络的计算量，提升神经网络性能，保留具有较高信息量的子孔径光场图像进行深度估计，增强了整体算法的鲁棒性。

本文档来自技高网...

【技术保护点】

1.一种基于神经网络的光场三维成像方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于神经网络的光场三维成像方法，其特征在于，所述步骤3包括以下步骤：根据图像深度估计值y与图像深度实际值y*之差确定损失函数：

3.根据权利要求1或2所述的基于神经网络的光场三维成像方法，其特征在于，所述步骤3包括以下子步骤：

4.根据权利要求1或2所述的基于神经网络的光场三维成像方法，其特征在于，所述步骤5包括以下子步骤：利用目标场景的二维深度图推断出图像中各像素点对应的三维空间坐标，将二维深度图的图像坐标转化为各像素点对应的三维点云坐标，实现目标场景的三维重建图像：

5.一种光场三维成像系统，其特征在于，包括：

【技术特征摘要】

1.一种基于神经网络的光场三维成像方法，其特征在于，包括以下步骤：

3.根据权利要求1或2所述的基于神经网络的光场三维成像方法，其特征在于，所述步骤3包括...

【专利技术属性】
技术研发人员：汪诚，巨海娟，邵晓鹏，席特立，孔亚康，吴静，李香蓉，安志斌，
申请(专利权)人：中国人民解放军空军工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人