三维图像编辑方法、系统、电子设备及存储介质技术方案

技术编号：40308596 阅读：6 留言：0更新日期：2024-02-07 20:52

本发明专利技术涉及三维建模技术领域，提供一种三维图像编辑方法、系统、电子设备及存储介质，其中方法包括：获取原始图像和文本指令；将原始图像和文本指令输入图像编辑模型，得到由图像编辑模型输出的编辑图像，编辑图像包括从不同角度展示述原始图像中的目标对象的多张，且每张编辑图像中的目标对象的形态均与文本指令的描述相匹配；其中，图像编辑模型用于将原始图像映射为隐向量，并在通过采用噪声预测器在文本指令的引导下，去除添加在隐向量上的噪声后，基于去除噪声得到的条件除噪隐向量，通过三维生成对抗网络渲染出编辑图像。本发明专利技术用以解决现有技术中目前应用的三维图像编辑方法，无法同时保证支持自然语言引导且文本引导精确的缺陷。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及三维建模，尤其涉及三维图像编辑方法、系统、电子设备及存储介质。

技术介绍

1、三维建模在现代数字社会中有广泛的应用，包括电影、虚拟现实(vr)和数字人的资产创建，特别地，三维人脸的生成和编辑是其中最受关注的任务。

2、现有的三维人脸编辑方法，例如：3d-gan-inv(generative adversarialnetwork，生成对抗网络)、preim3d(precise editing in inversion manifold with 3dconsistency，在反演流形中的精确的三维一致的编辑)、hfgi3d和e3dge(efficientgeometry-aware 3dgenerative adversarial networks，高效的三维生成对抗网络)等基于三维生成对抗网络反演技术的三维图像编辑方法，通过优化、编码器或者二者结合的方式对单张图像进行反演操作，将其映射到隐向量，三维生成网络利用该隐向量生成与输入图像一致的多视角图像，通过对该隐向量的编辑可以实现对输入图像三维一致的语义编辑。而rodin扩散模型等基于扩散模型的图像编辑方法，使用提示工程在clip(contrastivelanguage-image pre-training，对比性图像-语言预训练)的文本嵌入空间获取目标文本和中性文本之间的改变量，通过假设clip的图像和文本嵌入编码是共线的，直接将文本嵌入编码的改变量加到图像嵌入编码上，从而获得文本引导的三维图像编辑结果。

3、然而，目前这些基于三维生成对抗网

技术实现思路

1、本专利技术提供三维图像编辑方法、系统、电子设备及存储介质，用以解决现有技术中目前应用的三维图像编辑方法，无法同时保证支持自然语言引导且文本引导精确的缺陷。

2、本专利技术提供一种三维图像编辑方法，包括：

3、获取原始图像和文本指令；

4、将所述原始图像和所述文本指令输入图像编辑模型，得到由所述图像编辑模型输出的编辑图像，所述编辑图像包括从不同角度展示所述原始图像中的目标对象的多张，且每张所述编辑图像中的所述目标对象的形态均与所述文本指令的描述相匹配；

5、其中，所述图像编辑模型用于将所述原始图像映射为隐向量，并在通过噪声预测器在所述文本指令的引导下，去除添加在所述隐向量上的噪声后，基于去除噪声得到的条件除噪隐向量，通过三维生成对抗网络渲染出所述编辑图像，所述噪声预测器是基于原始图像样本、编辑图像样本和文本指令样本训练得到的；

6、其中，所述编辑图像样本为一张从相同角度展示所述原始图像样本中的目标对象样本，且所述目标对象样本的形态与所述文本指令样本的描述相匹配的图像；所述文本指令样本在语义上代表从所述原始图像样本到所述编辑图像样本的变化。

7、根据本专利技术所述的三维图像编辑方法，所述噪声预测器的训练过程，包括：将所述原始图像样本和所述编辑图像样本分别映射为原始图像样本隐向量和编辑图像样本隐向量；

8、将所述文本指令样本编码为文本样本向量；

9、基于所述原始图像样本隐向量、所述编辑图像样本隐向量和所述文本样本向量训练噪声预测器模型，直至所述噪声预测器模型的损失函数收敛；

10、将使所述损失函数收敛的所述噪声预测器模型，作为所述噪声预测器。

11、根据本专利技术所述的三维图像编辑方法，所述噪声预测器的训练过程，还包括：

12、由所述原始图像样本，提取所述目标对象样本的特征向量样本；

13、将所述特征向量样本用于所述噪声预测器模型的训练。

14、根据本专利技术所述的三维图像编辑方法，所述噪声预测器模型包括文本-图像双条件模型、图像单条件模型和无条件模型。

15、根据本专利技术所述的三维图像编辑方法，所述将所述原始图像和所述文本指令输入图像编辑模型，得到由所述图像编辑模型输出的编辑图像，包括：

16、基于输入的所述原始图像，进行图像映射处理，得到对应于所述原始图像的所述隐向量；

17、基于所述隐向量，进行噪声添加处理，得到对应于所述隐向量的加噪隐向量；

18、基于输入的所述文本指令，进行文本编码处理，得到对应于所述文本指令的文本向量；

19、基于输入的所述原始图像，进行所述目标对象的特征提取处理，得到对应于所述目标对象的特征向量；基于所述隐向量、所述文本向量和所述特征向量，通过所述噪声预测器对所述加噪隐向量进行除噪处理，得到对应于所述加噪隐向量的条件除噪隐向量；

20、基于所述条件除噪隐向量，通过所述三维生成对抗网络渲染出所述编辑图像。

21、根据本专利技术所述的三维图像编辑方法，所述将所述文本指令样本编码为文本样本向量，包括：

22、将所述文本指令样本转换为数字令牌；

23、按照预设令牌转换规则，对所述数字令牌进行转换，所述预设令牌转换规则为：在将所述文本指令样本转换为预设长度的所述数字令牌后，将对应于所述文本指令样本的令牌位置随机调整至所述数字令牌中的任意位置；

24、基于预训练的文本编码模型，对转换后的所述数字令牌进行编码，得到所述文本样本向量。

25、本专利技术还提供一种三维图像编辑系统，包括：

26、数据获取模块，用于获取原始图像和文本指令；

27、图像处理模块，用于将所述原始图像和所述文本指令输入图像编辑模型，得到由所述图像编辑模型输出的编辑图像，所述编辑图像包括从不同角度展示所述原始图像中的目标对象的多张，且每张所述编辑图像中的所述目标对象的形态均与所述文本指令的描述相匹配；

28、其中，所述图像编辑模型用于将所述原始图像映射为隐向量，通过噪声预测器在所述文本指令的引导下，去除添加在所述隐向量上的噪声后，基于去除噪声得到的条件除噪隐向量，通过三维生成对抗网络渲染出所述编辑图像，所述噪声预测器是基于原始图像样本、编辑图像样本和文本指令样本训练得到的；

29、其中，所述编辑图像样本为一张从相同角度展示所述原始图像样本中的目标对象样本，且所述目标对象样本的形态与所述文本指令样本的描述相匹配的图像；所述文本指令样本在语义上代表从所述原始图像样本到所述编辑图像样本的变化。

30、根据本专利技术所述的三维图像编辑系统，还包括：

31、模型训练模块，用于将所述原始图像样本和所述编辑图像样本分别映射为原始图像样本隐向量和编辑图像样本隐向量；将所述文本指令样本编码为文本样本向量；基于所述原始图像样本隐向量、所述编辑图像样本隐向量和所述文本样本向量训练噪声预测本文档来自技高网...

【技术保护点】

1.一种三维图像编辑方法，其特征在于，包括：

2.根据权利要求1所述的三维图像编辑方法，其特征在于，所述噪声预测器的训练过程，包括：

3.根据权利要求2所述的三维图像编辑方法，其特征在于，所述噪声预测器的训练过程，还包括：

4.根据权利要求3所述的三维图像编辑方法，其特征在于，所述噪声预测器模型包括文本-图像双条件模型、图像单条件模型和无条件模型。

5.根据权利要求4所述的三维图像编辑方法，其特征在于，所述将所述原始图像和所述文本指令输入图像编辑模型，得到由所述图像编辑模型输出的编辑图像，包括：

6.根据权利要求2所述的三维图像编辑方法，其特征在于，所述将所述文本指令样本编码为文本样本向量，包括：

7.一种三维图像编辑系统，其特征在于，包括：

8.根据权利要求7所述的三维图像编辑系统，其特征在于，还包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述的三维图像编辑方法。p>

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的三维图像编辑方法。

...

【技术特征摘要】

1.一种三维图像编辑方法，其特征在于，包括：

2.根据权利要求1所述的三维图像编辑方法，其特征在于，所述噪声预测器的训练过程，包括：

3.根据权利要求2所述的三维图像编辑方法，其特征在于，所述噪声预测器的训练过程，还包括：

4.根据权利要求3所述的三维图像编辑方法，其特征在于，所述噪声预测器模型包括文本-图像双条件模型、图像单条件模型和无条件模型。

6.根据权利要...

【专利技术属性】
技术研发人员：李建民，李建辉，朱军，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人