一种文本到三维的生成方法及装置、设备制造方法及图纸

技术编号：44456977 阅读：9 留言：0更新日期：2025-02-28 19:03

本申请公开了一种文本到三维的生成方法及装置、设备，该方法包括：对文本描述进行语义分析，得到文本嵌入；将文本嵌入输入到扩散模型中，输出与文本描述匹配的第一图像；将第一图像中建模对象的形状信息和纹理信息，以及视角信息输入到部件感知神经辐射场模型中，输出各个视角对应的第二图像，部件感知神经辐射场模型支持根据编辑信息对建模对象的部件进行编辑操作。如此，扩散模型提供2D图像作为先验参考，指导部件感知神经辐射场模型生成3D对象任何视角的渲染图像，提高生成3D对象的逼真度。并且在不影响其他部件的情况下，这些3D对象支持部件级形状和视觉属性的编辑操作，从而优化文本到三维的生成结果。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，尤其涉及一种文本到三维的生成方法及装置、设备。

技术介绍

1、神经辐射场(neural radiance fields，nerf)，这是一种使用神经网络表示三维(3-dimensional，3d)场景的方法，其基本原理是结合计算机图形学和深度学习，从一组稀疏的二维图像中学习连续的三维场景表示，并在任意视角方向生成高质量的新视角图像。

2、生成逼真且可编辑的3d内容是计算机视觉和图形学领域一个长期存在的问题。目前，生成对抗网络(generative adversarial networks，gan)已成为合成逼真图像的强大工具，但不允许更改对象的特定部件。

技术实现思路

1、本申请实施例期望提供一种文本到三维的生成方法及装置、设备。

2、本申请的技术方案是这样实现的：

3、第一方面，提供了一种文本到三维的生成方法，包括：

4、对文本描述进行语义分析，得到文本嵌入；

5、将所述文本嵌入输入到扩散模型中，输出与所述文本描述匹配的第一图像；

6、提取所述第一图像中建模对象的形状信息和纹理信息；

7、将所述建模对象的纹理信息和形状信息，以及视角信息输入到部件感知神经辐射场模型中，输出所述视角信息对应的第二图像，所述部件感知神经辐射场模型支持根据编辑信息对所述建模对象的部件进行编辑操作。

8、第二方面，提供了一种文本到三维的生成装置，包括：

9、文本解析模型，配置对文

10、扩散模型，配置为根据所述文本嵌入，确定所述文本描述匹配的第一图像；提取所述第一图像中建模对象的形状信息和纹理信息；

11、部件感知神经辐射场模型，配置为根据所述建模对象的纹理信息和形状信息，以及视角信息，确定所述视角信息对应的第二图像，所述部件感知神经辐射场模型支持根据编辑信息对所述建模对象的部件进行编辑操作。

12、第三方面，提供了一种文本到三维的生成设备，包括：处理器和配置为存储能够在处理器上运行的计算机程序的存储器，

13、其中，所述处理器配置为运行所述计算机程序时，执行前述方法的步骤。

14、本申请提供了一种文本到三维的生成方法及装置、设备，该方法包括：对文本描述进行语义分析，得到文本嵌入；将所述文本嵌入输入到扩散模型中，输出与所述文本描述匹配的第一图像；提取所述第一图像中建模对象的形状信息和纹理信息；将所述建模对象的纹理信息和形状信息，以及视角信息输入到部件感知神经辐射场模型中，输出所述视角信息对应的第二图像，所述部件感知神经辐射场模型支持根据编辑信息对所述建模对象的部件进行编辑操作。如此，扩散模型提供2d图像作为先验参考，指导部件感知神经辐射场模型生成3d对象任何视角的渲染图像，提高生成3d对象的逼真度。并且在不影响其他部件的情况下，这些3d对象支持部件级形状和视觉属性的编辑操作，从而优化文本到三维的生成结果。

本文档来自技高网...

【技术保护点】

1.一种文本到三维的生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述部件感知神经辐射场模型配置为执行以下方法的步骤：

3.根据权利要求2所述的方法，其特征在于，所述部件感知神经辐射场模型包括分解网络和M个局部神经辐射场网络，所述局部神经辐射场网络用于重建对应部件，所述局部神经辐射场网络包括结构网络和神经渲染网络；

4.根据权利要求3所述的方法，其特征在于，

5.根据权利要求3所述的方法，其特征在于，所述部件感知神经辐射场模型还包括多分辨率哈希编码网络；

6.根据权利要求3所述的方法，其特征在于，所述编辑信息包括以下至少之一：第一形状编辑信息、第二形状编辑信息和纹理编辑信息，

7.根据权利要求1至6任一项所述的方法，其特征在于，所述方法还包括：

8.根据权利要求1至6任一项所述的方法，其特征在于，所述方法还包括：

9.一种文本到三维的生成装置，其特征在于，所述装置包括：

10.一种文本到三维的生成设备，其特征在于，包括：处理器和配置为存储能

...

【技术特征摘要】

1.一种文本到三维的生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述部件感知神经辐射场模型配置为执行以下方法的步骤：

3.根据权利要求2所述的方法，其特征在于，所述部件感知神经辐射场模型包括分解网络和m个局部神经辐射场网络，所述局部神经辐射场网络用于重建对应部件，所述局部神经辐射场网络包括结构网络和神经渲染网络；

4.根据权利要求3所述的方法，其特征在于，

5.根据权利要求3所述的方法，其特征在于，所述部件感知神经辐射场模型还包...

【专利技术属性】
技术研发人员：任志远，李众，陈章，徐毅，
申请(专利权)人：创峰科技，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人