一种基于关系和风格感知的多模态场景生成方法技术

技术编号：40317961 阅读：16 留言：0更新日期：2024-02-07 21:00

本发明专利技术公开了一种基于关系和风格感知的多模态场景生成方法，应用于计算机视觉及3D多模态技术领域。使用多模态大模型‑CLIP增强场景图数据的上下文关系信息，同时采用基于图卷积神经网络的双流结构，分别预测场景布局和相应的3D形状。其中在形状支路中，选择隐式扩散模型作为生成模型，解码器解码出关系形状嵌入作为其隐式条件。用户可输入风格文本，例如：中国风，中世纪风，欧洲风格等，然后利用生成的形状先验与神经辐射场，以CLIP作为优化时的指导，最后得到细粒度的3D场景。本发明专利技术可以通过场景图及用户输入的风格文本，实现可控的场景生成及风格感知，解决了目前现有的场景生成方法的不足。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉及3d多模态，更具体的说是涉及一种基于关系和风格感知的多模态场景生成方法。

技术介绍

1、3d场景生成主要是指利用计算机技术以及相应的算法生成真实的3d场景，这项技术在电影、视频、游戏产业、增强和虚拟现实技术和机器人等领域有着巨大应用潜力。其中，可控制的场景合成是指以一种允许控制或操纵场景生成的过程，用户可以指定他们想要在生成的场景中出现的3d物体。现有的可控场景生成方法常用的控制机制主要有文本描述、语义映射和场景图。其中，场景图提供了一个强大的工具来抽象场景内容，包括场景上下文和对象关系，同时场景图可以为用户提供一个更适合的操作界面。

2、目前的场景图主要分为两种：第一种方法只学习生成场景布局，3d物体则是从给定的数据库中检索，例如graph-to-box；第二种方法同时学习生成场景布局和3d物体形状，例如：graph-to-3d。但是这两种方法都有明显的不足及缺陷：第一种基于检索的方法生成的物体形状受到检索的数据库的大小的限制；第二种方法，形状的生成依赖于预先训练好的形状编码，这些编码来自具有类别感知能力的自动解码器。这种半生成设计减少了生成输出的形状多样性，且生成的3d物体形状不具有细粒度的纹理特征。同时目前的各种方法对场景中所包含的对象之间的局部与全局上下文关系考虑甚少，这使得当前的3d场景生成方法的一致性效果较差。因此，如何提供一种基于关系和风格感知的多模态场景生成方法是本领域技术人员亟需解决的问题。

技术实现思路

1、有鉴于此，本专利

2、为了实现上述目的，本专利技术提供如下技术方案：

3、一种基于关系和风格感知的多模态场景生成方法，包括以下步骤：

4、s1、获取原始场景图，为原始场景图中每个节点和每条边初始化一个可学习的特征向量，使用clip的文本编码器将节点的语义标签和边的关系信息进行编码，同时将场景图中每个节点对应的位置3d框的参数特征化，得到特征增强后的场景图；

5、s2、将特征增强后的场景图分为两个部分，第一部分由可学习的特征向量和编码后的语义标签组成，第二部分由参数化后的每个物体对应的位置3d框参数组成，两部分场景图的边的特征都是编码后的关系信息，第一部分送入形状编码器，第二部分送入布局编码器；

6、s3、将形状编码器和布局编码器的输出送入一个基于图卷积神经网络的特征交互模块中，学习得到联合的布局-形状后验分布，最后采样得到特征向量zi，将特征向量zi更新为场景图每个节点的新信息；

7、s4、将更新后的场景图分别送入布局解码器和形状解码器中，其中布局解码器的输出为场景中对应的物体3d框及布局，形状解码器输出的为含有上下文关系信息的形状嵌入；

8、s5、将形状嵌入作为隐式扩散模型的条件输入，训练过程中使用vq-vae编码3d形状得到初始的形状特征，推理过程中随机的高斯噪声通过隐式扩散模型去噪，生成物体形状；

9、s6、用户首先输入风格提示文本，利用s5中生成的物体形状作为神经辐射场的初始化，然后使用clip指导对其进行优化，得到具有细粒度纹理及风格的物体的3d形状，最后将物体的3d形状和场景布局相融合，得到完整的场景。

10、可选的，s1中使用嵌入层初始化节点的边的特征，两个相邻的节点的特征分别记为oi和oj，连接它们的边的特征记为qi→j，编码后的语义标签为pi，编码后的关系信息文本为pi→j：

11、pi＝eclipt(label)

12、pi→j＝eclipt(relation)

13、3d框的参数通过3层的mlp进行特征化，得到的特征表示为bi，特征增强后的场景图，节点的特征为fni＝{oi，qi，bi}，边的特征为fei→j＝{qi→j，pi→j}。

14、可选的，s2中的形状编码器es和布局编码器el均由图卷积神经网络组成，形状编码器es输出每个节点的特征为fs，i，布局编码器el输出每个节点的特征为fl，i：

15、fs，i＝eshape(fni)，i∈{1，2...，n}

16、fl，i＝elayout(fni)，i∈{1，2…，n}

17、其中，n为节点的数量。

18、可选的，s3中的特征交互模块ec的输入为形状编码器es和布局编码器el输出的串联，主体结构为图神经卷积网络，输出为fc：

19、

20、特征交互模块ec后接一层mlp网络，计算联合的布局-形状分布z，z为高斯分布下的后验概率(μ，θ)，采样得到特征向量zi，保持场景图的边的特征不变，更新场景图相应节点的特征。

21、可选的，s4中形状解码器ds和布局解码器dl的输入均为更新后的场景图(zi，fs，i，fl，i)，布局解码器dl根据场景图及采样得到的特征向量zi，预测出物体相关的3d框，预测过程训练时的损失函数为：

22、

23、式中，为边界框的大小，为边界框的位置，为边界框的旋转角度，λ为旋转分类标签，利用局部到全局的语义线索更新每个节点的特征；形状解码器ds生成含有上下文信息的节点的形状嵌入r。

24、可选的，s5中使用体素化空间中截断sdf作为3d形状的表示，使用vq-vae模型作为3d形状的压缩器，将3d形状编码成一个潜在维度的特征x0，生成模型为隐式扩散模型，训练过程中，一个前向扩散过程将随机噪声添加到输入x0上，经过t步加噪过程得到xt，使用3d-unet网络εθ进行去噪还原出x0，3d-unet通过交叉注意将含有上下文信息的形状嵌入添加到3d-unet的中间特征层中；生成模型损失函数为：

25、

26、在推理过程中，给定隐式扩散模型一个随机的高斯噪声，形状嵌入r作为条件，即得到相应的3d形状。

27、可选的，s6中用户输入带有风格信息的文本提示y，利用多模态大模型clip的文本编码器et对y进行特征编码，利用s5中生成的物体形状初始化神经辐射场，将3d形状参数化为θ，同时从多个视点渲染图像，将多视点的图像送入clip的图像编码器中进行特征编码，通过最小化clip相似度损失，得到具有细粒度纹理及风格的物体形状：

28、

29、式中，为渲染过程，vi表示第i步优化步骤中的渲染视点，最后将渲染优化后的3d物体形状放入布局图中，得到生成后的场景。

30、经由上述的技术方案可知，与现有技术相比，本专利技术提供了一种基于关系和风格感知的多模态场景生成方法，具有以下有益效果：本专利技术利用多模态大模型-clip处理分析上下文信息的能力，增强了场景图中的各节点之前的关系信息；使用生成模型-隐式扩散模型及神经辐射场，同时引入多模态大模型—clip进行优化指导，从而实现了生成本文档来自技高网...

【技术保护点】

1.一种基于关系和风格感知的多模态场景生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于关系和风格感知的多模态场景生成方法，其特征在于，S1中使用嵌入层初始化节点的边的特征，两个相邻的节点的特征分别记为oi和oj，连接它们的边的特征记为qi→j，编码后的语义标签为pi，编码后的关系信息文本为pi→j：

3.根据权利要求2所述的一种基于关系和风格感知的多模态场景生成方法，其特征在于，S2中的形状编码器Es和布局编码器El均由图卷积神经网络组成，形状编码器Es输出每个节点的特征为fs，i，布局编码器El输出每个节点的特征为fl，i：

4.根据权利要求3所述的一种基于关系和风格感知的多模态场景生成方法，其特征在于，S3中的特征交互模块EC的输入为形状编码器Es和布局编码器El输出的串联，主体结构为图神经卷积网络，输出为fc：

5.根据权利要求4所述的一种基于关系和风格感知的多模态场景生成方法，其特征在于，S4中形状解码器Ds和布局解码器Dl的输入均为更新后的场景图(zi，fs，i，fl，i)，布局解码器Dl根据场景图及

6.根据权利要求5所述的一种基于关系和风格感知的多模态场景生成方法，其特征在于，S5中使用体素化空间中截断SDF作为3D形状的表示，使用VQ-VAE模型作为3D形状的压缩器，将3D形状编码成一个潜在维度的特征x0，生成模型为隐式扩散模型，训练过程中，一个前向扩散过程将随机噪声添加到输入x0上，经过T步加噪过程得到xt，使用3D-UNet网络εθ进行去噪还原出x0，3D-UNet通过交叉注意将含有上下文信息的形状嵌入添加到3D-UNet的中间特征层中；生成模型损失函数为：

7.根据权利要求6所述的一种基于关系和风格感知的多模态场景生成方法，其特征在于，S6中用户输入带有风格信息的文本提示y，利用多模态大模型CLIP的文本编码器ET对y进行特征编码，利用S5中生成的物体形状初始化神经辐射场，将3D形状参数化为θ，同时从多个视点渲染图像，将多视点的图像送入CLIP的图像编码器中进行特征编码，通过最小化CLIP相似度损失，得到具有细粒度纹理及风格的物体形状：

...

【技术特征摘要】

1.一种基于关系和风格感知的多模态场景生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于关系和风格感知的多模态场景生成方法，其特征在于，s1中使用嵌入层初始化节点的边的特征，两个相邻的节点的特征分别记为oi和oj，连接它们的边的特征记为qi→j，编码后的语义标签为pi，编码后的关系信息文本为pi→j：

3.根据权利要求2所述的一种基于关系和风格感知的多模态场景生成方法，其特征在于，s2中的形状编码器es和布局编码器el均由图卷积神经网络组成，形状编码器es输出每个节点的特征为fs，i，布局编码器el输出每个节点的特征为fl，i：

4.根据权利要求3所述的一种基于关系和风格感知的多模态场景生成方法，其特征在于，s3中的特征交互模块ec的输入为形状编码器es和布局编码器el输出的串联，主体结构为图神经卷积网络，输出为fc：

5.根据权利要求4所述的一种基于关系和风格感知的多模态场景生成方法，其特征在于，s4中形状解码器ds和布局解码器dl的输入均为更新后的场景图(zi，fs，i，fl，i)，布局解码器d...

【专利技术属性】
技术研发人员：雷印杰，冯俊球，李鹏，刘春黔，刘杰，林浩然，周礼亮，
申请(专利权)人：四川大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人