一种基于单视角RGBD融合网络的手物交互重建方法技术

技术编号：41443283 阅读：23 留言：0更新日期：2024-05-28 20:35

本发明专利技术涉及一种基于单视角RGBD融合网络的手物交互重建方法，步骤包括：将手物交互的对齐RGBD图像的深度图转化为点云，并应用特征编码器从中提取RGB特征和点特征；融合所提取的RGB特征和点特征，生成密集RGBD特征；采用SDF特征编码器将密集RGBD特征生成手物形状编码，通过手物几何特征估计模块预测手物的姿态参数和物体位置；通过几何傅里叶特征编码模块处理基于每个三维查询点相对于手腕的旋转和平移以及物体的平移，获得手物几何编码；采用手和物体SDF解码器利用手物形状编码和手物几何编码估计每个三维查询点的SDF重建手和物体形状。与现有技术相比，本发明专利技术更充分融合了RGB和深度信息，实现了几何精细的手物交互重建。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像信息处理，尤其是涉及一种基于单视角rgbd融合网络的手物交互重建方法。

技术介绍

1、手物交互对于理解人类行为至关重要，因为它主要涉及用手操纵物理环境。这种交互促进了各种交互式应用，如机器人学习、虚拟现实和增强现实。最近，手物联合重建由于能够提供详细的接触信息而受到越来越多的关注。然而，由于一些手物交互场景固有的复杂性，如相互遮挡以及交互过程中物体形状和姿态的变化，从单个图像重建手与物体的交互仍然是一个挑战。

2、基于学习的范式能够通过从单视图图像直接重建手和物体的姿势和形状来提取详细的交互信息，而不需要物体类别的先验知识。当前的方法通常可分为两类：利用参数网格模型的方法和基于隐式表示的方法。考虑到问题的不适定性，由相互遮挡和变化的物体形状引起，基于参数网格模型的方法对手的先验知识进行编码，以减少手物重建中的模糊性。这种方法通常包括通过估计手部姿势并利用参数手部网格模型mano来恢复3d手部模型。然而，这种方法只能以有限的精度重建简单的3d物体，可能无法准确捕捉手与物体交互的细节。神经隐式表示最近在联合手物重建领域取得了进展，因为它们能够在各种形状分辨率和拓扑结构之间泛化。用于手-物体交互重建的神经隐式表示的一种常用方法是符号距离场(sdf)。该方法包括学习隐式形状代码，然后将其与查询点一起输入sdf解码器，通常是多层感知器(mlp)，以生成sdf。然而，这种方法没有将关于手和物体姿势的知识纳入到sdf中，导致了不真实的手物网格。同时，由于透视投影导致的几何信息丢失，基于rgb的方法在具有挑战性的场

技术实现思路

1、本专利技术的目的是克服上述现有技术存在的无法准确捕捉手与物体交互细节的缺陷而提供一种基于单视角rgbd融合网络的手物交互重建方法，特别是复杂的物体形状，实现手物的详细重建。

2、本专利技术的目的可以通过以下技术方案来实现：

3、一种基于单视角rgbd融合网络的手物交互重建方法，所述方法步骤包括：

4、获取手物交互的对齐rgbd图像，将深度图转化为点云，并应用双流rgb-点云特征编码器从rgb图像和点云数据中提取rgb特征和点特征；

5、通过自适应双向融合模块利用外观和几何信息的互补性以及不同特征层对手物重建任务的敏感度融合所述的rgb特征和点特征，生成密集rgbd特征；

6、采用sdf特征编码器将密集rgbd特征生成手物形状编码，通过手物几何特征估计模块预测手物的姿态参数和物体位置；

7、通过几何傅里叶特征编码模块将每个三维查询点相对于手腕的旋转和平移以及物体的平移进行归一化后转换为标准的规范化坐标系，并获得手物几何编码；

8、采用手和物体sdf解码器从手物形状编码和手物几何编码中估计每个三维查询点的sdf重建手和物体形状。

9、与现有技术相比，本专利技术具有以下有益效果：

10、本专利技术利用自适应双向rgbd特征融合(abf)和几何傅立叶特征编码(gffe)来细化rgbd特征。采用自适应双向融合模块融合rgb图像和点云数据两种模态信息，并利用外观和几何信息的互补性以及不同特征层对手物重建任务的敏感度，生成密集rgbd特征，进而利用所生成的密集rgbd特征生成手物形状编码；同时，采用手物几何特征估计模块预测手物的姿态参数，并利用几何傅里叶特征编码模块对每个三维查询点相对于手腕的旋转和平移以及物体的平移进行转换得到手物几何编码。通过上述方案可以融合rgb和深度信息，实现几何精细的手物交互重建。并且，本专利技术在特征提取和编码阶段都增强了手-物体交互的神经隐式表示，使sdf解码器能够专注于物体的几何细节，提高手物重建的精确性。本专利技术得到的手物重建结果在手物形状误差等指标上均高于现有技术。

本文档来自技高网...

【技术保护点】

1.一种基于单视角RGBD融合网络的手物交互重建方法，其特征在于，所述方法步骤包括：

2.根据权利要求1所述的一种基于单视角RGBD融合网络的手物交互重建方法，其特征在于，所述的双流RGB-点云特征编码器fTSRPE由卷积神经网络和Transformer组成，分别从图像和点云中提取RGB特征和点特征。

3.根据权利要求1所述的一种基于单视角RGBD融合网络的手物交互重建方法，其特征在于，所述的自适应双向融合模块fABF利用外观和几何信息的互补性，过程如下：

4.根据权利要求3所述的一种基于单视角RGBD融合网络的手物交互重建方法，其特征在于，所述的自适应双向融合模块fABF利用不同特征层对手物重建任务的敏感度，生成密集RGBD特征Frgbd，过程如下：

5.根据权利要求1所述的一种基于单视角RGBD融合网络的手物交互重建方法，其特征在于，所述的SDF特征编码器由1×1卷积和全连接层组成。

6.根据权利要求1所述的一种基于单视角RGBD融合网络的手物交互重建方法，其特征在于，所述的手物几何特征估计模块预测手物的姿态参数Thr和物体位置to，过程如下：

7.根据权利要求6所述的一种基于单视角RGBD融合网络的手物交互重建方法，其特征在于，所述手物几何特征估计模块的损失函数定义如下：

8.根据权利要求1所述的一种基于单视角RGBD融合网络的手物交互重建方法，其特征在于，所述的几何傅里叶特征编码模块fGFFE将每个三维查询点相对于手腕的旋转和平移以及物体的平移进行归一化后转换为标准的规范化坐标系和并获得手物几何编码gh和go；

9.根据权利要求8所述的一种基于单视角RGBD融合网络的手物交互重建方法，其特征在于，所述的手和物体SDF解码器fHODecoder包括手的SDF解码器和物体的SDF解码器，所述手的SDF解码器和物体的SDF解码器皆由全连接层构建；

10.根据权利要求9所述的一种基于单视角RGBD融合网络的手物交互重建方法，其特征在于，所述的手和物体SDF解码器fHODecoder的损失函数定义如下：

...

【技术特征摘要】

1.一种基于单视角rgbd融合网络的手物交互重建方法，其特征在于，所述方法步骤包括：

2.根据权利要求1所述的一种基于单视角rgbd融合网络的手物交互重建方法，其特征在于，所述的双流rgb-点云特征编码器ftsrpe由卷积神经网络和transformer组成，分别从图像和点云中提取rgb特征和点特征。

3.根据权利要求1所述的一种基于单视角rgbd融合网络的手物交互重建方法，其特征在于，所述的自适应双向融合模块fabf利用外观和几何信息的互补性，过程如下：

4.根据权利要求3所述的一种基于单视角rgbd融合网络的手物交互重建方法，其特征在于，所述的自适应双向融合模块fabf利用不同特征层对手物重建任务的敏感度，生成密集rgbd特征frgbd，过程如下：

5.根据权利要求1所述的一种基于单视角rgbd融合网络的手物交互重建方法，其特征在于，所述的sdf特征编码器由1×1卷积和全连接层组成。

6.根据权利要求1所述的一种基于单视角rgbd融合网络的手物...

【专利技术属性】
技术研发人员：王志鹏，马家骏，何斌，周艳敏，蒋烁，
申请(专利权)人：同济大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人