基于多尺度残差网络的几何重建视频增强方法和产品技术

技术编号：42976712 阅读：26 留言：0更新日期：2024-10-15 13:14

总体而言，本申请涉及点云处理。更具体地，本申请涉及一种用于对点云视频进行译码的方法，包括：获得重建的几何帧样本；将所述重建的几何帧样本输入至多尺度残差卷积神经网络中，以获得环路滤波样本作为所述多尺度残差卷积神经网络的输出，在所述多尺度残差卷积神经网络中：利用第一卷积层提取样本特征；将所述样本特征经过一数量个递归残差组(RRG)进行处理；以及将所述数量个RRG的最终处理结果输入第二卷积层，以获得所述多尺度残差卷积神经网络的所述输出，其中，每个RRG包括一数量个多尺度残差单元(MRB)的级联，并且其中，每个所述MRB将输入的特征图进行不同的下采样，然后将经过不同下采样后的特征图送入不同分辨率的分支进行处理，所述不同分辨率的分支中的每个分支具有第一注意力双通道模块(DAU)，所述第一注意力双通道模块在空间维度和通道维度上分别捕获特征之间的依赖关系并进行融合。

全部详细技术资料下载

【技术实现步骤摘要】

以下内容总体上涉及对点云进行译码，该译码包括对点云进行编码和解码，并且更具体而言，涉及对经重构的几何样本进行环路滤波的方法，更具体地，涉及基于多尺度残差卷积神经网络对点云的经重构的几何帧进行环路滤波方法和产品的方法、计算设备和计算机程序产品。

技术介绍

1、随着时代的演变和技术的迅速进步，虚拟现实(virtual reality，vr)、增强现实(augmented reality，ar)和混合现实(mix reality，mr)等技术在世界范围内引起了广泛的关注。由于这些技术能够为用户提供逼真和身临其境的3d视觉体验，它们在许多领域中得到了广泛的应用，如3d电影、遗产保护、导航、自动驾驶、智能城市、沉浸式远程呈现和远程手术等。

2、动态点云表示具有大量非结构化高维点的三维场景，是3d数据的主要表示方式之一，其中每个点都包括用于定位3d空间位置的几何分量和用于描述物理特征和外观属性(如rgb颜色、反射率和透明度等)的属性分量(例如颜色、材料特性、纹理信息、强度属性、反射率属性、运动相关属性、模态属性以及其它各种属性)，并且是一系列时间上连续的点云，反映了运动和时间上的变化。点云作为3d空间中点的集合，可以用于重建一个对象或场景。这些点可以在各种设置中使用多个相机和深度传感器来捕获，并且可以由数千到数十亿个点组成，以便真实地表示重建的场景。

3、然而，这些大量的高维点导致了巨大的数据量，这需要庞大的存储空间和高传输带宽来处理。为了解决这一问题，迫切需要开发有效的点云压缩技术，以便将其用于实时通信和六自由度(

4、图1是根据实施例的通信系统的简化框图的示意图。通信系统包括多个终端装置，所述终端装置可以通过例如网络(150)彼此通信。例如，通信系统包括通过网络(150)互连的第一终端装置(110)和第二终端装置(120)。在图1的示例中，第一终端装置(110)和第二终端装置(120)执行点云数据的单向传输。例如，第一终端装置(110)可以压缩由与第一终端装置(110)连接的传感器105捕获的点云(例如，表示结构的点)。压缩的点云可以例如以比特流的形式通过网络(150)传输到第二终端装置(120)。第二终端装置(120)可以从网络(150)接收压缩的点云，解压缩该比特流以重建点云，并根据重建的点云适当地显示。单向数据传输在媒体服务等应用中可能很常见。在图1的示例中，第一终端装置(110)和第二终端装置(120)可以为服务器和个人计算机，但是本申请的原理可以不限于此。本申请的实施例适用于膝上型计算机、平板电脑、智能电话、游戏终端、媒体播放器和/或专用三维(3d)设备。网络(150)表示在第一终端装置(110)和第二终端装置(120)之间传输压缩的点云的任何数目的网络。网络(150)可以包括例如有线(连线的)和/或无线通信网络。网络(150)可以在电路交换和/或分组交换信道中交换数据。该网络可包括电信网络、局域网、广域网和/或互联网。出于本申请的目的，除非在下文中有所解释，否则网络(150)的架构和拓扑对于本申请公开的操作来说可能是无关紧要的。

5、图2是根据实施例的流式传输系统的简化框图的示意图，其是针对点云的应用的示例。当然，本公开内容可以等同地应用于其他支持点云的应用，包括3d远程呈现应用、虚拟现实应用。流式传输系统200可以包括捕获子系统(213)。捕获子系统(213)可以包括点云源(201)，例如光检测和测距(lidar)系统、3d相机、3d扫描仪、在软件中生成未压缩的点云的图形生成组件、以及生成例如未压缩的点云(202)的类似组件。在一个示例中，点云(202)包括由3d相机捕获的点。与压缩的点云(204)(压缩的点云的比特流)相比，点云(202)被描绘为粗线以强调高数据量。压缩的点云(204)可以由电子设备(220)生成，所述电子设备(220)包括耦合到点云源(201)的编码器(203)。编码器(203)可以包括硬件、软件或硬件和软件的组合，以使能或实现如下文更详细地描述的所公开主题的各个方面。与点云(202)的流相比，压缩的点云(204)(或压缩的点云(204)的比特流)被描绘为细线以强调较低的数据量，其可以存储在流式传输服务器(205)上以供将来使用。一个或多个流式传输客户端子系统，例如图2中的客户端子系统(206)和(208)，能够访问流式传输服务器(205)以检索压缩的点云(204)的副本(207)和(209)。客户端子系统(206)可以包括例如在电子设备(230)中的解码器(210)。解码器(210)对压缩的点云的输入副本(207)进行解码，并创建可以在呈现设备(212)上呈现的重建的点云(211)的输出流。在一些流式传输系统中，可以根据某些标准对压缩的点云(204)、(207)和(209)(例如，压缩的点云的比特流)进行压缩。在一些示例中，视频译码标准被用于点云的压缩。这些标准的示例包括高效视频译码(hevc)、通用视频译码(vvc)等。应注意，电子装置(220)和电子装置(230)可包括其它组件(未示出)。举例来说，电子装置(220)可包括解码器(未示出)，且电子装置(230)还可包括编码器(未示出)。

6、为了有效地压缩动态点云，运动图像专家组(motion picture experts group，mpeg)发布了两个点云压缩编码标准，即基于几何的点云压缩(geometry-based pointcloud compression，g-pcc)和基于视频的点云压缩(video-based point cloudcompression，v-pcc)。研究表明g-pcc对复杂度较低的稀疏和噪声点云有效，而v-pcc对密集点云的压缩效果更好。v-pcc利用了2d视频压缩技术，采用一种贴片投影方法将点云数据从3d转换为2d，然后由2d视频译码器(如h.265/hevc和h.266/vvc等视频编解码器)对其进行编码。每个点云由指示像素是否属于点云的占用图、存储投影深度信息的几何图像以及存储颜色等信息的属性图像来表示。这三个映射被编码为三个比特流，通过网络传输将点云传达给远程接收器或用户。v-pcc继承了2d视频译码技术，极大地缩短了开发周期，成为了点云压缩方案的优胜者。v-pcc和g-pcc标准可以在www.iso.org网站上获得，其标准编号分别为：iso/iec 23090-5和iso/iec 23090-9。

7、在v-pcc中，提出了一种贴片(patch，一些文献中称为“贴片”)投影方法来将动态点云转换为2d视频。具体地，根据法线相似性将输入的动态点云分解为多个贴片。因此，广义而言，“贴片”是表示以下各信息的集合：点云的3d包围框以及相关联的几何和属性描述，以及根据2d投影来重建3d点和相应的属性所需的图集(atlas)。这些贴片被打包到2d图像中，分别生成几何视频和属性视频。由于这些贴片可能具有不规则的形状，因此生成占用图以指示2d图像中的像素是否属于贴片。然后使本文档来自技高网...

【技术保护点】

1.一种用于对点云视频进行译码的方法，包括：

2.根据权利要求1所述的方法，其中，每个所述MRB使用在所述不同分辨率的分支上的第一选择性核特征融合单元(SKFF)将来自在所述不同分辨率的分支上的各个第一DAU的相应输出进行融合。

3.根据权利要求2所述的方法，其中，每个所述MRB将在所述不同分辨率的分支上的第一SKFF的输出耦合到在所述不同分辨率的分支上的相应第二DAU，并使用第二SKFF将在所述不同分辨率的分支上的相应第二DAU的相应输出的上采样版本进行融合。

4.根据权利要求1所述的方法，其中，每个RRG的输入端和输出端具有卷积层，并且每个MRB的输入端和输出端具有卷积层。

5.根据权利要求1所述的方法，其中，每个DAU的输入端具有残差单元并且输出端具有卷积层，并且每个DAU的残差单元的输出被划分为空间维度和通道维度两个分支，并且在每个分支上具有耦合到所述残差单元的输出的卷积层。

6.根据权利要求1所述的方法，其中，使用k折交叉验证来对所述多尺度残差卷积神经网络进行训练。

7.根据权利要求1所述的方法，其

8.根据权利要求1所述的方法，其中，对点云视频进行译码是对点云视频进行编码，其中，所述方法还包括：

9.一种计算设备，其包括：

10.一种计算机程序产品，包括用于执行根据权利要求1-8中任一项所述的方法的代码。

...

【技术特征摘要】

1.一种用于对点云视频进行译码的方法，包括：

2.根据权利要求1所述的方法，其中，每个所述mrb使用在所述不同分辨率的分支上的第一选择性核特征融合单元(skff)将来自在所述不同分辨率的分支上的各个第一dau的相应输出进行融合。

3.根据权利要求2所述的方法，其中，每个所述mrb将在所述不同分辨率的分支上的第一skff的输出耦合到在所述不同分辨率的分支上的相应第二dau，并使用第二skff将在所述不同分辨率的分支上的相应第二dau的相应输出的上采样版本进行融合。

4.根据权利要求1所述的方法，其中，每个rrg的输入端和输出端具有卷积层，并且每个mrb的输入端和输出端具有卷积层。

5.根据权利要求1所...

【专利技术属性】
技术研发人员：刘志，路洪运，王伟宾，张萌萌，
申请(专利权)人：北方工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人