System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于扩散模型的物体三维结构生成方法及系统技术方案_技高网
当前位置: 首页 > 专利查询>长安大学专利>正文

一种基于扩散模型的物体三维结构生成方法及系统技术方案

技术编号:40603252 阅读:65 留言:0更新日期:2024-03-12 22:08
本发明专利技术公开了一种基于扩散模型的物体三维结构生成方法及系统,通过获取待生成三维结构场景的三通道图像中离散深度值处的特征;基于卷积神经网络获取图像中每个像素点的深度分布,根据相机坐标系和世界坐标系之间的转换关系将所得特征投影至三维空间,得到融合特征后的三维体素栅格;将随机生成高斯噪声和获取的三维体素栅格输入至预训练扩散模型进行预测,对获取的预测值进行T次降噪即可获得待生成三维场景的三维结构信息;本发明专利技术将观测的二维图像信息投影至规则的三维体素栅格,基于场景局部观测图像进行三维重建,可有效减少对多视图获取的依赖,过程清晰可靠、可解释性强、可迁移性强,具有训练高效、收敛速度快的优点。

【技术实现步骤摘要】

本专利技术涉及物体三维结构生成,具体涉及一种基于扩散模型的物体三维结构生成方法及系统


技术介绍

1、三维信息生成指基于有限的可观测数据,通过补充缺失的内容,生成语义上合理的完整三维结构的技术。在实际应用中,往往难以获取物体完整的结构信息,如何基于有限的局部观测数据推测其完整的三维结构,同时保证三维结构的整体真实性是众多实际应用的基础内容,如自动驾驶汽车仿真场景构建、vr等。

2、当前已有的生成方法主要包括:①基于规则的方法,利用场景的先验知识和规则进行推理,实现三维信息生成;②基于局部特征的方法,利用局部特征,如颜色、纹理、形状等,从相邻的区域中提取类似的特征;③基于全局特征的方法,利用整个场景的全局特征,如场景的几何形状、光照、阴影等,实现三维信息生成。但这些方法都存在一些不足,如方法①依赖于先验知识和规则,只能处理简单的几何形状和表面纹理,对于复杂场景往往无法提供高质量的三维生成结果。方法②中的局部特征受限于数据质量、特征提取算法和匹配算法等因素,难以处理复杂物体和场景。方法③需要对整个物体或场景进行分析和建模,需要大量的计算资源和时间成本,同时全局特征往往受到遮挡、光照变化等因素影响,同时难以处理物体的局部细节。另外,在已知物体局部信息条件下其完整三维结构往往具有多模态的特点,即存在多种可能的三维结构。如何推理语义上可信度高、整体结构合理的三维结构是三维信息生成的一大难题,对多项具体应用至关重要。


技术实现思路

1、本专利技术的目的在于提供一种基于扩散模型的物体三维结构生成方法及系统,以克服现有技术在三维信息生成过程中精度低的问题;本专利技术能够生成多种可能的三维结构,同时使整体三维结构在语义上真实可靠,符合实际场景特征。

2、一种基于扩散模型的物体三维结构生成方法,包括以下步骤:

3、s1,获取待生成三维结构场景的三通道图像,利用卷积神经网络从三通道图像中获取离散深度值处的特征;

4、s2,基于卷积神经网络获取三通道图像中每个像素点(i,j)的深度分布pdep(i,j)=[p1,p2,…,pn],其中n表示离散的深度值数;

5、s3,利用相机内参矩阵m、相机位姿θ、外参矩阵n和深度值d,构建相机坐标系oc和世界坐标系ow之间的转换关系,根据相机坐标系和世界坐标系之间的转换关系将s1中所得特征投影至三维空间,得到融合特征后的三维体素栅格;

6、s4,将随机生成高斯噪声和s3获取的三维体素栅格输入至预训练扩散模型对进行预测,然后对获取的预测值进行t次降噪即可获得待生成三维结构场景的三维结构信息。

7、优选的,所述预训练扩散模型通过以下方法训练得到:

8、s11,获取已知三维结构物体的图像信息;

9、s12,以已知三维结构物体的图像信息作为输入,基于卷积神经网络提取已知三维结构物体的图像信息的一组离散深度值处的特征;

10、s13,基于卷积神经网络提取已知三维结构物体的图像信息中每个像素点(i,j)的深度分布pdep(i,j)=[p1,p2,…,pn],其中n表示离散的深度值数;

11、s14,利用相机内参矩阵m,相机位姿θ,外参矩阵n和深度值d构建相机坐标系oc和世界坐标系ow之间的转换关系,据相机坐标系和世界坐标系之间的转换关系将s12中所得特征投影至三维空间,得到融合特征后的三维体素栅格;

12、s15,以占用度栅格和tsdf体素表示已知三维结构物体的真实三维结构,根据扩散系数对已知三维结构物体的真实三维结构体素sg进行t步加噪处理,保存每次加噪后的体素sg,t,其中t表示第t步加噪;

13、s16,随机抽取t步加噪处理后的体素sg,t,将s14中所得三维体素栅格和加噪次数t输入到初始扩散模型中,得到初始扩散模型输出的预测值μθ(sg,t,t,c),其中,θ是扩散模型参数;根据初始扩散模型,选用梯度下降法来更新模型参数,对初始扩散模型进行循环优化训练,直至初始扩散模型收敛得到预训练扩散模型。

14、优选的,相机坐标系oc和世界坐标系ow之间的具体转换关系为:

15、通过下式将像素坐标(i,j)转换到相机坐标(xc,yc,zc)

16、

17、式中,fx,fy分别表示x轴和y轴方向上的焦距,cx,cy为主点坐标;

18、然后将相机坐标系下的坐标转换到世界坐标系:

19、

20、式中,(xw,yw,zw)为世界坐标系下的位置点,r为旋转矩阵,t为平移向量。

21、优选的,通过每个像素点在各个深度值处与空间三维栅格的对应关系,以该深度值处的概率值pk与该点处的特征f(i,j)相乘,作为相应三维栅格位置处的特征。

22、优选的,将随机生成高斯噪声和s3获取的三维体素栅格输入至预训练扩散模型对进行预测具体包括以下步骤:随机生成高斯噪声,此高斯噪声的输入维度应与待生成三维结构场景的维度相同,将随机生成高斯噪声和s3获取的三维体素栅格输入至预训练扩散模型进行预测得到预测值,随后执行t次降噪循环,每次降噪的步长为{t,t-1,...,2,1},在时间步t时刻预测的下一时刻t-1的输出为:

23、

24、式中,z为随机高斯噪声,

25、重复执行t次上述降噪操作,即可获得拥有补全三维信息的待生成三维结构场景的三维结构信息sg,0。

26、优选的,已知三维结构物体的图像信息采用开源数据集进行提取。

27、优选的,根据初始扩散模型,选用梯度下降法来更新模型参数,计算真实噪声μt和μθ(sg,t,t,c)之差,如下:

28、

29、对初始扩散模型进行循环优化训练,直至初始扩散模型收敛得到预训练扩散模型。

30、一种基于扩散模型的物体三维结构生成系统,包括参数获取模块,预处理模块,特征融合模块和生成模块;

31、参数获取模块,用于获取待生成三维结构场景的三通道图像,利用卷积神经网络从三通道图像中获取离散深度值处的特征;

32、预处理模块,用于基于卷积神经网络获取三通道图像中每个像素点(i,j)的深度分布pdep(i,j)=[p1,p2,…,pn],其中n表示离散的深度值数;

33、特征融合模块,利用相机内参矩阵m、相机位姿θ、外参矩阵n和深度值d,构建相机坐标系oc和世界坐标系ow之间的转换关系,根据相机坐标系和世界坐标系之间的转换关系将上述所得特征投影至三维空间,得到融合特征后的三维体素栅格;

34、生成模块,将随机生成高斯噪声和上述获取的三维体素栅格输入至预训练扩散模型对进行预测,然后对获取的预测值进行t次降噪即可获得待生成三维结构场景的三维结构信息。

35、优选的,所述预训练扩散模型通过以下方法训练得到:

36、s11,获取已知三维结构物体的图像信息;

37、s12,以已知三维结构物体的图像信息作本文档来自技高网...

【技术保护点】

1.一种基于扩散模型的物体三维结构生成方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于扩散模型的物体三维结构生成方法,其特征在于,所述预训练扩散模型通过以下方法训练得到:

3.根据权利要求2所述的一种基于扩散模型的物体三维结构生成方法,其特征在于,相机坐标系Oc和世界坐标系Ow之间的具体转换关系为:

4.根据权利要求3所述的一种基于扩散模型的物体三维结构生成方法,其特征在于,通过每个像素点在各个深度值处与空间三维栅格的对应关系,以该深度值处的概率值pk与该点处的特征f(i,j)相乘,作为相应三维栅格位置处的特征。

5.根据权利要求1所述的一种基于扩散模型的物体三维结构生成方法,其特征在于,将随机生成高斯噪声和S3获取的三维体素栅格输入至预训练扩散模型进行预测,具体包括以下步骤:随机生成高斯噪声,此高斯噪声的输入维度应与待生成三维结构场景的维度相同,将随机生成高斯噪声和S3获取的三维体素栅格输入至预训练扩散模型对进行预测得到预测值,随后执行T次降噪循环,每次降噪的步长为{T,T-1,...,2,1},在时间步t时刻预测的下一时刻t-1的输出为:

6.根据权利要求2所述的一种基于扩散模型的物体三维结构生成方法,其特征在于,已知三维结构物体的图像信息采用开源数据集进行提取。

7.根据权利要求2所述的一种基于扩散模型的物体三维结构生成方法,其特征在于,根据初始扩散模型,选用梯度下降法来更新模型参数,计算真实噪声μt和μθ(Sg,t,t,c)之差,如下:

8.一种基于扩散模型的物体三维结构生成系统,其特征在于,包括参数获取模块,预处理模块,特征融合模块和生成模块;

9.根据权利要求8所述的一种基于扩散模型的物体三维结构生成系统,其特征在于,所述预训练扩散模型通过以下方法训练得到:

10.根据权利要求9所述的一种基于扩散模型的物体三维结构生成系统,其特征在于,相机坐标系Oc和世界坐标系Ow之间的具体转换关系为:

...

【技术特征摘要】

1.一种基于扩散模型的物体三维结构生成方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于扩散模型的物体三维结构生成方法,其特征在于,所述预训练扩散模型通过以下方法训练得到:

3.根据权利要求2所述的一种基于扩散模型的物体三维结构生成方法,其特征在于,相机坐标系oc和世界坐标系ow之间的具体转换关系为:

4.根据权利要求3所述的一种基于扩散模型的物体三维结构生成方法,其特征在于,通过每个像素点在各个深度值处与空间三维栅格的对应关系,以该深度值处的概率值pk与该点处的特征f(i,j)相乘,作为相应三维栅格位置处的特征。

5.根据权利要求1所述的一种基于扩散模型的物体三维结构生成方法,其特征在于,将随机生成高斯噪声和s3获取的三维体素栅格输入至预训练扩散模型进行预测,具体包括以下步骤:随机生成高斯噪声,此高斯噪声的输入维度应与待生成三维结构场景的维度相同,将随机生成高斯噪声和s3获取的三维体素栅格输入至预训...

【专利技术属性】
技术研发人员:蒋渊德张曦文欧阳铭刘占文王润民
申请(专利权)人:长安大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1