基于单目相机的3D姿态估计方法、电子设备及存储介质技术

技术编号：44424135 阅读：8 留言：0更新日期：2025-02-28 18:38

基于单目相机的3D姿态估计方法、电子设备及存储介质，首先构建由真实数据和合成数据组成的数据集，然后对数据集通过YoloPose检测2D骨骼关键点位置，再利用GHUM拟合得到估计的3D数据，得到3D姿态估计的三维姿态数据集，在YoloPose中加入3D维度改进得到3D姿态估计模型，由三维数据集训练3D姿态估计模型，用于对单目相机所得二维图像的3D姿态估计。本发明专利技术成本低廉，易于部署，不依赖于额外的传感器或设备，能够在多种光照和复杂环境下稳定工作，由一个深度学习模型即可实现检测及姿态估计。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于机器视觉姿态估计，为一种基于单目相机的3d姿态估计方法、电子设备及存储介质。

技术介绍

1、现有的3d姿态估计方法主要分为两大流派。一方面，一些方法依赖于多目相机系统或深度传感器，以直接获取目标的深度信息。这些方法虽然在准确性上具有优势，但设备成本较高，且在实际应用中可能受限于设备条件，例如某些深度传感器对光照敏感，可能在强光或者暗光环境下性能下降。另一方面，一些研究者提出了基于two-stage模型的创新方法，这些方法首先进行2d姿态估计，然后在此基础上进一步预测3d姿态，从而在不牺牲太多准确性的前提下，降低对硬件的依赖。如《hourglass tokenizer for efficienttransformer-based 3d human pose estimation》(wenhao li,mengyuan liu,hong liu,pichao wang,jialun cai,nicu se be，arxiv:2311.12028[cs.cv])，简称hot。然而，这些方法算法成本较高，模型推理时间成本大，实时性比较弱。

2、单目相机由于成本低廉和便携性高，被广泛应用于各种场景，但单目相机缺乏直接获取深度信息的能力，导致基于单目相机的3d姿态估计(3d pose estimation)的准确性都因此受限。

技术实现思路

1、本专利技术要解决的技术问题是：现有3d姿态估计方法的常用方法，一种依赖多目相机或深度传感器，硬件成本高，另一种两阶段估计方法

2、本专利技术的技术方案为：基于单目相机的3d姿态估计方法，包括以下步骤：

3、步骤1：构建数据集，数据集中包括真实世界采集的二维数据和由合成数据生成技术合成的前景与背景构成的合成二维数据；

4、步骤2：对步骤1的数据集，通过yolopose检测2d骨骼关键点位置，再利用ghum拟合得到估计的3d数据，对3d数据进一步优化，将z轴的原点设置在两个髋关节中间，靠近摄像头为正，远离摄像头为负，对各个关节在深度上的前后顺序进行排序，得到3d姿态，由数据集对应得到3d姿态构建为三维姿态数据集；

5、步骤3：构建3d姿态估计模型，以yolopose模型为基础，增加相对深度信息z，z定义为各个关键点距离两髋中心点的距离，关键点表示为(x,y,z,visible)，将姿态预测输出的维度由51变成68，由三维姿态数据集进行训练，损失函数中增加对深度信息的mse损失，得到3d姿态估计模型；

6、步骤4：使用训练得到的3d姿态估计模型对单目相机得到的2d图像进行3d姿态估计。

7、进一步的，步骤1中，真实世界采集的二维数据包括公开数据集的数据和自定义采集的指定场景数据。

8、进一步的，步骤1中，合成数据生成技术包括目标检测模型、sam模型、stablediffusion-inpainting模型、rmbg-1.4模型、用于获得前景描述的视觉语言多模态模型以及用于扩充和润色描述的大语言模型，

9、合成前景的生成为：利用目标检测模型检测目标，目标包括人或物体，结合检测得到的检测框利用sam模型将目标分割出来，得到蒙版mask，利用视觉语言多模态模型描述检测到的前景，由大语言模型对前景的描述进行扩充和润色，结合mask以及描述，利用stablediffusion-inpainting模型生成有新前景的图片；

10、合成背景的生成为：利用rmbg-1.4模型扣除背景得到mask，利用视觉语言多模态模型描述背景信息，由大语言模型对背景的描述进行扩充和润色，结合mask以及描述，利用stable diffusion-inpainting模型生成有新背景的图片。

11、本专利技术还提供一种电子设备，所述电子设备中包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行，实现上述基于单目相机的3d姿态估计方法中训练好的3d姿态估计模型，对输入的二维图像，输出3d姿态估计结果。

12、本专利技术还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序被执行时实现上述的基于单目相机的3d姿态估计方法中训练好的3d姿态估计模型。

13、本专利技术提出一种基于单目相机的3d姿态估计方法，通过合成技术构建丰富的二维数据集，由二维数据集重构估计得到三维姿态数据集，来训练改进的3d姿态估计模型。本专利技术提出对二维图像以各个关节点距离两髋中心点的距离作为深度信息，以此构建训练集，在此基础上训练得到的3d姿态估计模型能够直接对单目相机的2d图像提取深度信息实现3d姿态推理，无需额外的深度传感器，也无需由2d姿态到3d姿态的两阶段估计。

14、相比现有技术，本专利技术具有以下有益效果：

15、1)本专利技术能直接适用于单目相机，成本低廉，易于部署。

16、2)本专利技术不依赖于额外的传感器或设备，可直接对单目相机采集的2d图像实现3d姿态估计。

17、3)本专利技术设计的混合了真实世界图像和合成技术图像的数据集，丰富了样本前景背景样本，使得训练的3d姿态估计模型能够在多种光照和复杂环境下稳定工作。

18、4)本专利技术通过训练得到的3d姿态估计模型，由一个深度学习模型即可实现对2d图像的3d检测及姿态估计，无需两阶段估计，推理速度快，满足实时性的需求。

本文档来自技高网...

【技术保护点】

1.基于单目相机的3D姿态估计方法，其特征是包括以下步骤：

2.根据权利要求1所述的基于单目相机的3D姿态估计方法，其特征是构建二维数据集时，数据集中包括真实世界采集的二维图像，和由合成数据生成技术合成的前景与背景构成的合成二维图像。

3.根据权利要求2所述的基于单目相机的3D姿态估计方法，其特征是真实世界采集的二维图像包括公开数据集的图像和自定义采集的指定场景图像。

4.根据权利要求2所述的基于单目相机的3D姿态估计方法，其特征是合成数据生成技术包括目标检测模型、SAM模型、stablediffusion-inpainting模型、RMBG-1.4模型、用于获得前景描述的视觉语言多模态模型以及用于扩充和润色描述的大语言模型，

5.根据权利要求4所述的基于单目相机的3D姿态估计方法，其特征是所述目标检测模型包括GroundingDino模型、Yolo模型和SSD模型。

6.根据权利要求4所述的基于单目相机的3D姿态估计方法，其特征是所述用于获得前景描述的视觉语言多模态模型包括MiniCPM-V，BLIP和BLIP2。p>

7.根据权利要求4所述的基于单目相机的3D姿态估计方法，其特征是所述用于扩充和润色描述的大语言模型包括Llama-3模型和GPT模型。

8.根据权利要求4所述的基于单目相机的3D姿态估计方法，其特征是stablediffusion-inpainting模型采用stablediffusion xl 1.0版本。

9.根据权利要求1所述的基于单目相机的3D姿态估计方法，其特征是对GHUM模型拟合估计的3D数据进行筛选，将z轴的原点设置在两个髋关节关键点中间，以靠近摄像方向为正，远离摄像方向为负，对二维图像各个关键点在深度上的前后顺序进行排序，根据所述排序筛选GHUM模型拟合估计的3D数据，组成三维数据集。

10.根据权利要求1所述的基于单目相机的3D姿态估计方法，其特征是3D姿态估计模型的损失函数中包括关键点相似性损失函数和对深度信息的MSE损失。

11.一种电子设备，其特征是所述电子设备中包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行，实现权利要求1-10任一项所述基于单目相机的3D姿态估计方法中训练好的3D姿态估计模型，对输入的二维图像，输出3D姿态估计结果。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序被执行时实现如权利要求1-10任一项所述的基于单目相机的3D姿态估计方法中训练好的3D姿态估计模型。

...

【技术特征摘要】

1.基于单目相机的3d姿态估计方法，其特征是包括以下步骤：

2.根据权利要求1所述的基于单目相机的3d姿态估计方法，其特征是构建二维数据集时，数据集中包括真实世界采集的二维图像，和由合成数据生成技术合成的前景与背景构成的合成二维图像。

3.根据权利要求2所述的基于单目相机的3d姿态估计方法，其特征是真实世界采集的二维图像包括公开数据集的图像和自定义采集的指定场景图像。

4.根据权利要求2所述的基于单目相机的3d姿态估计方法，其特征是合成数据生成技术包括目标检测模型、sam模型、stablediffusion-inpainting模型、rmbg-1.4模型、用于获得前景描述的视觉语言多模态模型以及用于扩充和润色描述的大语言模型，

5.根据权利要求4所述的基于单目相机的3d姿态估计方法，其特征是所述目标检测模型包括groundingdino模型、yolo模型和ssd模型。

6.根据权利要求4所述的基于单目相机的3d姿态估计方法，其特征是所述用于获得前景描述的视觉语言多模态模型包括minicpm-v，blip和blip2。

7.根据权利要求4所述的基于单目相机的3d姿态估计方法，其特征是所述用于扩充和润色描述的大语言模型包括llama-3模型和gpt模型。

8.根据权利要求4所述...

【专利技术属性】
技术研发人员：孙羽勃，张海涛，李子健，
申请(专利权)人：埃斯顿南京医疗科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人