System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于扩散模型的智能分选设备重建方法技术_技高网

一种基于扩散模型的智能分选设备重建方法技术

技术编号:41737988 阅读:6 留言:0更新日期:2024-06-19 12:56
本发明专利技术涉及一种基于扩散模型的智能分选设备重建方法,其技术特点是:将物体观察视角的参考图像、目标视角图像、视角差值和文本特征输入到潜在扩散模型;将多张目标视角图像添加噪声后进行变换得到联合特征;进行局部插值得到特定相机视角下不同层次的特征;通过mip‑attention模块融合到潜在扩散模型网络中,使用潜在扩散模型网络进行去噪,将通过神经隐式表面的方式进行重建;将法线函数添加到有符号距离函数中,通过增加高频信息对神经隐式表面进行优化。本发明专利技术通过对空间特征信息进行提取和构建,并对扩散过程进行指导,然后不断对表面进行优化,从而重建出更精细的表面,实现了高质量工业设备的三维重建功能,具有效率高、快捷方便等特点。

【技术实现步骤摘要】

本专利技术属于工业设备三维重建,尤其是一种基于扩散模型的智能分选设备重建方法


技术介绍

1、工业设备三维重建技术是计算机图形学和计算机视觉领域的重要研究方向,主要应用于从单张二维图像中恢复出工业设备的三维结构和形状。三维内容是计算机图形学和计算机视觉领域的重要课题。在过去的几十年里,手动创作在真实场景中占据主导地位,这需要繁琐的专业人员建模。现在创作者则依靠特殊的软件工具(例如blender、maya3d、3dsmax等)和耗时的手动调整来实现想象并将其转化为虚拟对象。近年来工业正在向智能化的方向不断发展,数字孪生技术作为实现智能制造的重要技术手段,三维重建具有了广泛前景和前应用。

2、三维重建技术主要分为三类:多视图重建、域内单视图重建、零样本单视图重建。多视图重建需要不同相机位置和姿势拍摄同一物体的多张图像,通过多视图之间的信息关联进行重建。域内单视图重建需要单张图像和物体几何形状的先验信息,推测物体的三维结构。零样本单视图重建需要单张图像和多模态网络进行融合、推理,从而实现零样本的三维重建目标。其中具代表性的是对比文本到图像的预训练模型(contrastive language-image pre-training,简称clip)的应用,采用clip指导进行三维生成和根据文本提示词进行操作。从单一视角图像重建三维物体需要强大的先验知识,以推断出不同相机位置和姿势下的信息,单一图像对推断物体不同方向的信息具有挑战性。通常采用神经渲染的方式来重建物体的隐式表示。一般的神经表面重建方法很难学习到工业设备的高频几何细节,因此重建的形状往往过于平滑,通常采用位置编码等方法从原始输入中学习高频信息,但此类方法又需要额外的三维监督,增加了数据成本,同时限制了泛化性能。


技术实现思路

1、本专利技术的目的在于克服现有技术的不足,提供一种基于扩散模型的智能分选设备重建方法,其利用深度学习的方法可以学习到特征并推理出二维数据中的信息,建立工业设备三维模型,以实现工业设备结构的三维重建功能,解决现有重建工业设备存在的先验信息不足和对重建表面细节不足的问题。

2、本专利技术解决现有的技术问题是采取以下技术方案实现的:

3、一种基于扩散模型的智能分选设备重建方法,包括以下步骤:

4、步骤1、将物体观察视角的参考图像、目标视角图像、视角差值和文本特征输入到潜在扩散模型;

5、步骤2、将步骤1输入的参考图像和目标视角图像进行结合,并使用一个混合调节机制,通过扩散模型的文本注意力层将观察视角和目标视角的差值与clip特征进行结合,并输入到潜在扩散模型网络中;

6、步骤3、将多张目标视角图像添加噪声后进行变换得到联合特征f;

7、步骤4、将一个三维卷积神经网络变换为空间特征f,对空间特征f进行局部插值得到特定相机视角下不同层次的特征;

8、步骤5、将步骤4得到的特征通过mip-attention模块融合到潜在扩散模型网络中,从而融合不同层次的特征,使用潜在扩散模型网络进行去噪,得到去除噪声之后的图像,最终扩散模型网络输出为去噪后的目标视角图像;

9、步骤6、将经过步骤1至步骤5所输出的不同视角图像集合通过神经隐式表面的方式进行重建,将有符号距离函数嵌入到体绘制的方程中,并对距离和透明度之间的关系进行建模;

10、步骤7、将法线函数添加到有符号距离函数中,通过增加高频信息对神经隐式表面进行优化。

11、进一步,所述步骤1的实现方法为:首先将物体观察视角的参考图像作为输入,其中,h指输入图像的高度,w指输入图像的宽度,输入图像的通道数为3;然后将目标视角图像添加噪声后输入,目标视角图像的大小与物体观察视角的参考图像相同,观察方向和目标方向的相机视角差值为d;所述文本特征是通过将物体观察视角的参考图像输入到clip预训练模型中提取得到的。

12、进一步,所述步骤2采用相机变换实现,该相机变换表示为:,其中和分别为视角关联相机旋转和平移,观察方向和目标方向的相机视角差值为d;在实现过程中,首先,将clip文本特征嵌入到拼接视角信息的输入图像当中,使用文本注意力对视角差值和输入图像文本特征进行编码;然后,将输入图像与正在去噪的图像进行通道连接,使模型保留正在合成对象的细节。

13、进一步,所述步骤3的实现方法为:对输入的噪声图像进行联合特征构建,输入的噪声图像包括b、n、4、h、w,其中,b指批次大小,n指图像数量,4指通道数,h指图像的高度,w指图像的宽度;提取二维图片特征,同时对时间特征t和视角特征v进行嵌入,得到联合特征,对联合特征进行卷积和上采样,对各个层级的特征图与上采样后的特征图相结合,得到联合特征f,该联合特征f的最终尺度包括b、c、v3,其中b指批次大小,c指通道数,v3指空间顶点。

14、进一步,所述步骤4的实现方法为:将步骤3得到的联合特征f,先后经过三维卷积层、归一化层、silu激活函数、三维转置卷积层得到不同宽度的特征,通过特征融合操作,得到深度和尺度均不同的空间特征f。

15、进一步,所述步骤5的实现方法为:mip-attention模块使用离散小波变换对特征进行分解,对提取出的高频分量h和低频分量l进行通道拼接,经过归一化层和relu激活函数得到融合不同层次的特征。

16、进一步,所述步骤5采用噪声预测器进行去噪,该噪声预测器表示为:,其中,指当前时间目标视角图像,d指观察方向和目标方向的相机视角差值,t指当前时间,指当前时间目标噪声图像。

17、进一步,所述步骤6的实现方法为:将一组目标物体图像作为输入,得到最终重建后的物体v,使用体渲染方法将沿着射线r上采样点的颜色c和体密度σ计算每个像素的最终颜色,将不透明度编码为有符号的距离场,使三维表面s为隐函数表示;所述体渲染方法采用如下公式:,其中,p指沿射线的采样点个数,t指不透明度,d指射线方向。

18、进一步,所述步骤7的实现方法为:通过将法线函数添加到有符号距离函数中来增加高频信息,所述有符号距离函数表示为:,其中,为法线函数,该法线函数表示将点p沿表面法线n映射到点p',p指表面上的点,n指在该点表面的法线;将两点的距离表示动态参数,该动态参数表示为:。

19、本专利技术的优点和积极效果是:

20、1、本专利技术通过对空间特征信息进行提取和构建,并对扩散过程进行指导,然后不断对表面进行优化,从而重建出更精细的表面,实现了高质量工业设备的三维重建功能,具有效率高、快捷方便等特点。

21、2、本专利技术利用工业设备的二维图像作为输入,无需其他传感器或设备,实现方法更加便捷,与传统的扫描物体的方法相比,本专利技术在获取二维图像数据和生成方式上更为高效。

22、3、本专利技术充分利用空间特征,通过单张图像信息便可重建出工业设备的三维模型,有效地克服了工业设备的重建过程中表面过于平滑和高频几何细节信息不足的问题。

23、4、本专利技术本文档来自技高网...

【技术保护点】

1.一种基于扩散模型的智能分选设备重建方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的一种基于扩散模型的智能分选设备重建方法,其特征在于:所述步骤1的实现方法为:首先将物体观察视角的参考图像作为输入,其中,H指输入图像的高度,W指输入图像的宽度,输入图像的通道数为3;然后将目标视角图像添加噪声后输入,目标视角图像的大小与物体观察视角的参考图像相同,观察方向和目标方向的相机视角差值为D;所述文本特征是通过将物体观察视角的参考图像输入到CLIP预训练模型中提取得到的。

3.根据权利要求1所述的一种基于扩散模型的智能分选设备重建方法,其特征在于:所述步骤2采用相机变换实现,该相机变换表示为:,其中和分别为视角关联相机旋转和平移,观察方向和目标方向的相机视角差值为D;在实现过程中,首先,将CLIP文本特征嵌入到拼接视角信息的输入图像当中,使用文本注意力对视角差值和输入图像文本特征进行编码;然后,将输入图像与正在去噪的图像进行通道连接,使模型保留正在合成对象的细节。

4.根据权利要求1所述的一种基于扩散模型的智能分选设备重建方法,其特征在于:所述步骤3的实现方法为:对输入的噪声图像进行联合特征构建,输入的噪声图像包括B、N、4、H、W,其中,B指批次大小,N指图像数量,4指通道数,H指图像的高度,W指图像的宽度;提取二维图片特征,同时对时间特征t和视角特征v进行嵌入,得到联合特征,对联合特征进行卷积和上采样,对各个层级的特征图与上采样后的特征图相结合,得到联合特征f,该联合特征f的最终尺度包括B、C、V3,其中B指批次大小,C指通道数,V3指空间顶点。

5.根据权利要求1所述的一种基于扩散模型的智能分选设备重建方法,其特征在于:所述步骤4的实现方法为:将步骤3得到的联合特征f,先后经过三维卷积层、归一化层、SiLU激活函数、三维转置卷积层得到不同宽度的特征,通过特征融合操作,得到深度和尺度均不同的空间特征F。

6.根据权利要求1所述的一种基于扩散模型的智能分选设备重建方法,其特征在于:所述步骤5的实现方法为:mip-attention模块使用离散小波变换对特征进行分解,对提取出的高频分量h和低频分量l进行通道拼接,经过归一化层和ReLu激活函数得到融合不同层次的特征。

7.根据权利要求1所述的一种基于扩散模型的智能分选设备重建方法,其特征在于:所述步骤5采用噪声预测器进行去噪,该噪声预测器表示为:,其中,指当前时间目标视角图像,D指观察方向和目标方向的相机视角差值,t指当前时间,指当前时间目标噪声图像。

8.根据权利要求1所述的一种基于扩散模型的智能分选设备重建方法,其特征在于:所述步骤6的实现方法为:将一组目标物体图像作为输入,得到最终重建后的物体V,使用体渲染方法将沿着射线r上采样点的颜色c和体密度σ计算每个像素的最终颜色,将不透明度编码为有符号的距离场,使三维表面S为隐函数表示;所述体渲染方法采用如下公式:,其中,P指沿射线的采样点个数,T指不透明度,d指射线方向。

9.根据权利要求8所述的一种基于扩散模型的智能分选设备重建方法,其特征在于:所述步骤7的实现方法为:通过将法线函数添加到有符号距离函数中来增加高频信息,所述有符号距离函数表示为:,其中,为法线函数,该法线函数表示将点p沿表面法线n映射到点p',p指表面上的点,n指在该点表面的法线;将两点的距离表示动态参数,该动态参数表示为:。

...

【技术特征摘要】

1.一种基于扩散模型的智能分选设备重建方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的一种基于扩散模型的智能分选设备重建方法,其特征在于:所述步骤1的实现方法为:首先将物体观察视角的参考图像作为输入,其中,h指输入图像的高度,w指输入图像的宽度,输入图像的通道数为3;然后将目标视角图像添加噪声后输入,目标视角图像的大小与物体观察视角的参考图像相同,观察方向和目标方向的相机视角差值为d;所述文本特征是通过将物体观察视角的参考图像输入到clip预训练模型中提取得到的。

3.根据权利要求1所述的一种基于扩散模型的智能分选设备重建方法,其特征在于:所述步骤2采用相机变换实现,该相机变换表示为:,其中和分别为视角关联相机旋转和平移,观察方向和目标方向的相机视角差值为d;在实现过程中,首先,将clip文本特征嵌入到拼接视角信息的输入图像当中,使用文本注意力对视角差值和输入图像文本特征进行编码;然后,将输入图像与正在去噪的图像进行通道连接,使模型保留正在合成对象的细节。

4.根据权利要求1所述的一种基于扩散模型的智能分选设备重建方法,其特征在于:所述步骤3的实现方法为:对输入的噪声图像进行联合特征构建,输入的噪声图像包括b、n、4、h、w,其中,b指批次大小,n指图像数量,4指通道数,h指图像的高度,w指图像的宽度;提取二维图片特征,同时对时间特征t和视角特征v进行嵌入,得到联合特征,对联合特征进行卷积和上采样,对各个层级的特征图与上采样后的特征图相结合,得到联合特征f,该联合特征f的最终尺度包括b、c、v3,其中b指批次大小,c指通道数,v3指空间顶点。

5.根据权利要求1所述的一种基于扩散模型的智能分...

【专利技术属性】
技术研发人员:郎利影侯奕煊戈文一李帅
申请(专利权)人:河北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1