当前位置: 首页 > 专利查询>清华大学专利>正文

一种基于手持设备的单目RGB相机的人体重建方法及装置制造方法及图纸

技术编号:37329921 阅读:22 留言:0更新日期:2023-04-21 23:07
本发明专利技术公开了一种基于手持设备的单目RGB相机的人体重建方法及装置,该方法包括:获取包含人体信息的原始视频数据;将原始视频数据输入至预训练的神经网络模型中进行参数预测,以预测得到第一人体形状参数和姿态参数;将第一人体形状参数和姿态参数输入至SMPL模型中,驱动人体角色在预设的场景中进行运动以得到人体姿态运动结果和场景渲染结果;基于人体姿态运动结果和场景渲染结果进行人体重建。本发明专利技术利用手持移动设备的单目RGB相机实现人体的三维重建,并且支持编辑驱动的角色和场景,能够驱动选定角色在选定场景上模拟人的运动姿态。态。态。

【技术实现步骤摘要】
一种基于手持设备的单目RGB相机的人体重建方法及装置


[0001]本专利技术涉及人体重建
,特别是涉及一种基于手持设备的单目RGB相机的人体重建方法及装置。

技术介绍

[0002]当前深度学习技术不断发展,基于三维人体重建的技术越来越准确。但是这些三维重建技术大部分都需要很长的推理时间或者较高的硬件要求,不能够在移动设备(手机、平板电脑)上进行实时人体全身重建,不支持编辑角色和场景等多样化的应用场景。
[0003]现有基于单目RGB相机实现人体重建的技术主要分为两种:基于视频序列进行人体重建。此类方法需要输入完整视频或者根据若干帧数据预测人体的姿态。主流的实现方案是通过卷积神经网络(ResNet或HRNet)提取图像特征,利用循环神经网络建模时序信息,最后用多层感知机回归人体的姿态。基于每帧视频的图片进行人体重建。目前此类方法相比基于视频序列的方法,速度更快。主流的实现方案是通过卷积神经网络(ResNet或HRNet)提取图像特征,然后直接用多层感知机回归人体的姿态。目前上述方案均在视频上或图片预测,或者用配置高性能显卡的主机利用摄像头实现实时的人体重建。当前还有一些其他技术利用头戴式设备或者穿着惯性传感器进行人体姿态重建,主要利用传感器的测量值作为循环神经网络或多层感知机的输入,回归预测人的姿态。
[0004]现有实现人体重建的技术主要分为以下几种:基于视频序列进行人体重建。此类方法需要输入完整视频或者根据若干帧数据预测人体的姿态。从图像中利用常用卷积神经网络(ResNet或HRNet)提取图像特征就需要很强性能的显卡,还需要建模时序信息和回归人体姿态,很难部署在手持设备上。基于每帧视频的图片进行人体重建。目前此类方法相比基于视频序列的方法,速度更快。从图像中利用常用卷积神经网络(ResNet或HRNet)提取图像特征同样需要很强性能的显卡,虽然比基于视频序列的方法更快速一些,但仍然很难部署在手持设备上。当前还有一些其他技术利用头戴式设备或者穿着惯性传感器进行人体姿态重建,此类方法可以根据输入一次回归预测得到结果,但是部分手机的惯性传感器不开放对外接口,而且手持手机晃动结果不准确且易用性很差。以上方法目前都没有支持在手持设备上重建全身人体的姿态。

技术实现思路

[0005]本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。
[0006]为此,本专利技术提出一种基于手持设备的单目RGB相机的人体重建方法,利用手持移动设备(手机、平板电脑)的单目RGB相机实现人体的三维重建,并且支持编辑驱动的角色和场景,能够驱动选定角色在选定场景上模拟人的运动姿态。
[0007]本专利技术的另一个目的在于提出一种基于手持设备的单目RGB相机的人体重建装置。
[0008]为达上述目的,本专利技术一方面提出一种基于手持设备的单目RGB相机的人体重建
方法,包括:
[0009]获取包含人体信息的原始视频数据;
[0010]将所述原始视频数据输入至预训练的神经网络模型中进行参数预测,以预测得到第一人体形状参数和姿态参数;
[0011]将所述第一人体形状参数和姿态参数输入至SMPL模型中,驱动人体角色在预设的场景中进行运动以得到人体姿态运动结果和场景渲染结果;
[0012]基于所述人体姿态运动结果和场景渲染结果进行人体重建。
[0013]另外,根据本专利技术上述实施例的基于手持设备的单目RGB相机的人体重建方法还可以具有以下附加的技术特征:
[0014]进一步地,在本专利技术的一个实施例中,在所述获取包含人体信息的原始视频数据之后,所述方法,还包括:
[0015]采集样本视频数据;
[0016]从所述样本视频数据中截取多张样本图片;
[0017]将所述多张样本图片输入目标检测模型进行检测以获得人体包围盒数据,并基于裁剪的所述人体包围盒数据得到的包围盒图片构建训练数据集;
[0018]将所述训练数据集输入至构建好的神经网络进行模型训练,以得到训练好的神经网络模型。
[0019]进一步地,在本专利技术的一个实施例中,所述训练数据集的训练标签包括:第一人体关节2d坐标位置、第一人体关节3d坐标位置、第二人体形状参数和姿态参数。
[0020]进一步地,在本专利技术的一个实施例中,所述将所述训练数据集输入至构建好的神经网络进行模型训练,包括:
[0021]对所述包围盒图片进行旋转、随机裁剪和水平翻转操作得到增强数据集,将所述增强数据集输入至MobileNetV3神经网络进行特征提取以输出图像特征;
[0022]通过将所述图像特征输入至多层感知机得到的输出结果输入至SMPL模型以通过损失计算输出得到第三人体形状参数和姿态参数;其中,所述输出结果,包括SMPL模型输入的所述第二人体形状参数和姿态参数和预测的包围盒图片中的人体在输入的整张图片中的位置和缩放信息;
[0023]基于正向动力学将所述第三人体形状参数和姿态参数转换为第二人体关节3d坐标位置,并根据所述预测的包围盒图片中的人体在输入的整张图片中的位置和缩放信息以及所述第二人体关节3d坐标位置构造相机内参。
[0024]进一步地,在本专利技术的一个实施例中,所述方法,还包括:
[0025]利用所述训练数据集中的第一人体关节3d坐标位置对所述第二人体关节3d坐标位置进行训练监督得到第一监督信号;
[0026]利用所述训练数据集中的第一人体关节2d坐标位置对所述相机内参进行训练监督得到第二监督信号;
[0027]基于所述第一监督信号和所述第二监督信号进行模型训练以得到训练好的神经网络模型。
[0028]为达上述目的,本专利技术另一方面提出一种基于手持设备的单目RGB相机的人体重建装置,包括:
[0029]数据获取模块,用于获取包含人体信息的原始视频数据;
[0030]参数预测模块,用于将所述原始视频数据输入至预训练的神经网络模型中进行参数预测,以预测得到第一人体形状参数和姿态参数;
[0031]数据驱动模块,用于将所述第一人体形状参数和姿态参数输入至SMPL模型中,驱动人体角色在预设的场景中进行运动以得到人体姿态运动结果和场景渲染结果;
[0032]人体重建模块,用于基于所述人体姿态运动结果和场景渲染结果进行人体重建。
[0033]本专利技术实施例的基于手持设备的单目RGB相机的人体重建方法和装置,可以利用手持设备实现实时利用手持设备实现实时人体重建,为虚拟现实的实现带来了更多的可能。
[0034]本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。
附图说明
[0035]本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
[0036]图1是根据本专利技术实施例的基于手持设备的单目RGB相机的人体重建方法的流程图;
[0037]图2是根据本专利技术实施例的神经网络结构示意图;
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于手持设备的单目RGB相机的人体重建方法,其特征在于,包括以下步骤:获取包含人体信息的原始视频数据;将所述原始视频数据输入至预训练的神经网络模型中进行参数预测,以预测得到第一人体形状参数和姿态参数;将所述第一人体形状参数和姿态参数输入至SMPL模型中,驱动人体角色在预设的场景中进行运动以得到人体姿态运动结果和场景渲染结果;基于所述人体姿态运动结果和场景渲染结果进行人体重建。2.根据权利要求1所述的方法,其特征在于,在所述获取包含人体信息的原始视频数据之后,所述方法,还包括:采集样本视频数据;从所述样本视频数据中截取多张样本图片;将所述多张样本图片输入目标检测模型进行检测以获得人体包围盒数据,并基于裁剪的所述人体包围盒数据得到的包围盒图片构建训练数据集;将所述训练数据集输入至构建好的神经网络进行模型训练,以得到训练好的神经网络模型。3.根据权利要求2所述的方法,其特征在于,所述训练数据集的训练标签包括:第一人体关节2d坐标位置、第一人体关节3d坐标位置、第二人体形状参数和姿态参数。4.根据权利要求3所述的方法,其特征在于,所述将所述训练数据集输入至构建好的神经网络进行模型训练,包括:对所述包围盒图片进行旋转、随机裁剪和水平翻转操作得到增强数据集,将所述增强数据集输入至MobileNetV3神经网络进行特征提取以输出图像特征;通过将所述图像特征输入至多层感知机得到的输出结果输入至SMPL模型以通过损失计算输出得到第三人体形状参数和姿态参数;其中,所述输出结果,包括SMPL模型输入的所述第二人体形状参数和姿态参数和预测的包围盒图片中的人体在输入的整张图片中的位置和缩放信息;基于正向动力学将所述第三人体形状参数和姿态参数转换为第二人体关节3d坐标位置,并根据所述预测的包围盒图片中的人体在输入的整张图片中的位置和缩放信息以及所述第二人体关节3d坐标位置构造相机内参。5.根据权利要求4所述的方法,其特征在于,所述方法,还包括:利用所述训练数据集中的第一人体关节3d坐标位置对所述第二人体关节3d坐标位置进行训练监督得到第一监督信号;利用所述训练数据集中的第一人体关节2d坐标位置对所述相机内参进行训练监督得到第二监督信号;基于所述第一监督信号和所述第二监督信号进行模型训练以得到训练好的神经网络模型。6.一种基于手持设备的单目R...

【专利技术属性】
技术研发人员:徐枫潘少华
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1