当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于因果图谱的场景图像生成方法技术

技术编号:32504200 阅读:24 留言:0更新日期:2022-03-02 10:13
本发明专利技术公开了一种基于因果图谱的场景图像生成方法,包括:获得风格一致的带有标框标注的真实场景图像数据集,基于标框标注构建因果子图,并基于因果子图的实体表示特征,通过线性变换和祖先采样得到具有因果关系的风格表示特征,基于原始全局掩码和通过实体、因果、像素询征与实体键征匹配得到放缩因子构建实体全局掩码,基于全局掩码和风格表示特征通过图像生成器得到生成场景图像,通过因果损失函数和合页损失函数训练因果子图和图像生成器得到最终全局因果子图和最终图像生成器,将绘制的标框标注布局依次输入最终全局因果子图和最终图像生成器得到具有因果关系的场景图像。利用该方法能够快速、高效地获得具有因果关系的复杂场景图像。关系的复杂场景图像。关系的复杂场景图像。

【技术实现步骤摘要】
一种基于因果图谱的场景图像生成方法


[0001]本专利技术属于图像处理领域,具体涉及一种基于因果图谱的场景图像生成方法。

技术介绍

[0002]生成式对抗网络(GAN, Generative Adversarial Networks )是一种深度学习模型,可用于拟合数据分布并产生任意数量的近似同分布新样本。所拟合的分布可以是无条件数据分布或条件数据分布,例如图像分布、图像翻译的条件分布或者基于标框布局的图像分布。近年来,生成对抗神经网络技术飞速发展,易于与其他可微分的模型结合扩展,形成了真实感图像生成、智能图像增强、跨媒体生成等多个基础性应用。
[0003]然而,现有图像生成模型依然难以生成复杂场景,模型忽略复杂场景的细节或生成细节真实感不足。现有方法通过输入高精度像素级语义分割标注,减轻了任务困难度,让部分智力活动由人类完成。而这也带来了生成效率低、适用面窄等问题。复杂场景难以生成的根本在于,现有模型中并未设计有效机制理解复杂场景中物体之间的关系,尤其是外观、形状、表现等的因果关系。
[0004]为了解决上述存在的问题,公开号为(CN112102156A)的中国专利公开了基于因果流模型的可控汽车图像合成方法,包括了可逆流模型和因果关系网络、监督模块等组成部分,其工作步骤为步骤为:(1)获取原始汽车图像数据;(2)建立可逆流模型;(3)建立可逆流模型的网络架构;(4)输出汽车图像;(5)建立因果关系网络;(6)根据因果关系网络设置监督条件,并建立可控因果编码器;(7)建立监督模块;(8)输出合成汽车图像。然而该专利仅针对汽车图像,并为扩展到复杂场景,并未直接从数据中发现因果关系,尚不能直接扩展到复杂场景的因果关系构建。
[0005]标框标注是计算机视觉的典型标注方式,用于标注场景图像中每个物体的类型、位置和大小。传统标框标注用于供模型学习物体检测,从而使AI模型学会辨别场景图像里物体的类别、位置和大小。而基于标框标注的场景生成则旨在基于抽象的场景结构,生成全新、合理、真实感的图像。相比像素级别的语义分割标注,标框标注的标注和使用成本更低,也更易于让模型学习物体之间的关系。目前国内外尚无针对复杂场景图像中的物体因果关系学习及生成的解决方案。因此,亟需设计一种基于因果图谱的场景图像生成模型,实现基于标框标注的全新图像生成,并支持物体因果关系学习。

技术实现思路

[0006]本专利技术公开了一种基于因果图谱的场景图像生成方法,利用该方法能够快速、高效的获得具有因果关系的复杂场景图像。
[0007]一种基于因果图谱的场景图像生成方法,包括:(1)获得带有标框标注的真实场景图像数据集,标框标注包括多个实体标框,每个实体标框包括标框的长和宽,标框在场景图像中的横、纵坐标,以及标框内实体类别;(2)构建初始全局因果图,其中,结点为实体类别,边为实体类别之间的因果关系,
基于标框标注从初始全局因果图中提取对应实体类别,如果对应实体类别的实体标框相重合则激活实体间因果关系,基于多个实体以及实体间因果关系构建第一因果子图,并基于实体间因果关系的强度设定第一邻接权重矩阵,其中,对每个结点对应的实体赋予实体表示特征;对实体表示特征进行第一可学习线性变换后,进行祖先采样得到风格表示特征;基于实体表示特征,采用残差卷积网络生成实体形状掩码,将实体形状掩码嵌入标框标注中形成原始全局掩码;对实体表示特征进行第二、三可学习线性变换分别得到实体询征和实体键征,实体询征与原始全局掩码进行外积运算得到像素询征,对像素询征的每个像素进行祖先采样,使得每个像素引入各个实体的因果关系,从而得到因果询征,将因果询征输入第一残差卷积网络以聚合每个像素的邻域实体信息得到局部询征,将局部询征和实体键征进行点积运算,使得局部询征的每个像素的每个实体信息与实体键征进行匹配,将匹配结果映射到实正数域,从而得到像素级别实体掩码的放缩因子,将放缩因子与原始全局掩码进行哈达玛积运算得到实体全局掩码,将实体全局掩码和风格表示特征输入第二残差卷积网络得到生成场景图像数据,第一、二残差卷积网络,以及第一、二、三可学习线性变换构成初始图像生成器;(3)首先基于实体特征通过最小化因果损失函数优化第一邻接权重矩阵得到第二邻接权重矩阵;基于残差网络构建图像判别器,基于真实场景图像数据集和生成场景图像数据通过合页损失函数优化图像判别器,将生成场景图像输入优化后图像判别器得到判别信息,通过最大化判别信息来分别优化初始图像生成器的参数得到最终图像生成器和优化第二邻接权重矩阵得到第二因果子图,将第二因果子图替换初始全局因果图中的第一因果子图得到最终全局因果图;(4)应用时,将绘制的标框标注布局数据输入至最终全局因果图得到第三因果子图,将第三因果子图输入至最终图像生成器得到具有因果关系的场景图像。
[0008]获得带有标框标注的真实场景图像数据集,包括:收集风格一致的真实场景图像数据集,并标注真实场景图像中各个实体的位置,即标框的横、纵坐标,和大小,即标框的长和宽,以及实体类别,得到标框标注的真实场景图像数据集,其中,风格一致为真实场景图像采集的设备和过程一致。
[0009]通过初始全局因果图表示实体类别之间的因果关系,其中,初始全局因果图包括结点、边和边的权重,结点为实体类别,且各个结点的实体类别不重合,边为实体类别之间的因果关系,边的权重为因果关系的强度。
[0010]基于多个实体以及实体间因果关系构建第一因果子图,包括:基于标框标注确定每个实体类别对应的实体个数,将每个实体作为第一因果子图的结点,并基于每个实体间激活的因果关系构建第一因果子图的边;第一因果子图边的权重与初始全局因果图的对应实体类别边的权重一致。
[0011]通过实体表示特征表示实体的类别和大小,实体大小用于确定实体在生成场景图像中为近景图像或远景图像,实体大小通过实体标框长和宽表示;实体表示特征包括实体标框长和宽、以及实体类别。
[0012]进行祖先采样得到风格表示特征,包括:
基于第一邻接权重矩阵,对第一可学习线性变换后的实体表示特征进行祖先采样得到具有初始因果子图因果关系的风格表示特征,风格表示特征包括每个实体的颜色、纹理和细节信息。
[0013]首先基于实体特征通过最小化因果损失函数优化第一邻接权重矩阵得到第二邻接权重矩阵,其中,因果损失函数L
causal
为:为:为:为:为:为:为:其中,β为第一邻接权重矩阵,X为通过VGG19网络从真实场景图像中抽取得到的实体特征,λ1和λ2为正数,表示损失函数权值,为L1范数,I为单位对角阵,tr[
·
]为矩阵的迹,为哈达玛积,m为实体数量,R为第一邻接权重矩阵对实体特征进行重构后与实体特征的线性重构误差,P(R)为线性重构误差服从的概率分布,D
ind

·
)为独立性判别器,用于判别为线性重构误差的概率,L
MI
为P(R)的全相关系数,用于度量重构误差的各维度相互独立程度,L
DAG
为因果子图无环程度的度量项本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于因果图谱的场景图像生成方法,其特征在于,包括:(1)获得带有标框标注的真实场景图像数据集,标框标注包括多个实体标框,每个实体标框包括标框的长和宽,标框在场景图像中的横、纵坐标,以及标框内实体类别;(2)构建初始全局因果图,其中,结点为实体类别,边为实体类别之间的因果关系,基于标框标注从初始全局因果图中提取对应实体类别,如果对应实体类别的实体标框相重合则激活实体间因果关系,基于多个实体以及实体间因果关系构建第一因果子图,并基于实体间因果关系的强度设定第一邻接权重矩阵,其中,对每个结点对应的实体赋予实体表示特征;对实体表示特征进行第一可学习线性变换后,进行祖先采样得到风格表示特征;基于实体表示特征,采用残差卷积网络生成实体形状掩码,将实体形状掩码嵌入标框标注中形成原始全局掩码;对实体表示特征分别进行第二可学习线性变换得到实体询征,进行第三可学习线性变换得到实体键征,实体询征与原始全局掩码进行外积运算得到像素询征,对像素询征的每个像素进行祖先采样,使得每个像素引入各个实体的因果关系,从而得到因果询征,将因果询征输入第一残差卷积网络以聚合每个像素的邻域实体信息得到局部询征,将局部询征和实体键征进行点积运算,使得局部询征的每个像素的每个实体信息与实体键征进行匹配,将匹配结果映射到实正数域,从而得到像素级别实体掩码的放缩因子,将放缩因子与原始全局掩码进行哈达玛积运算得到实体全局掩码,将实体全局掩码和风格表示特征输入第二残差卷积网络得到生成场景图像数据,第一、二残差卷积网络,以及第一、二、三可学习线性变换构成初始图像生成器;(3)首先基于实体特征通过最小化因果损失函数优化第一邻接权重矩阵得到第二邻接权重矩阵;基于残差网络构建图像判别器,基于真实场景图像数据集和生成场景图像数据通过合页损失函数优化图像判别器,将生成场景图像输入优化后图像判别器得到判别信息,通过最大化判别信息来分别优化初始图像生成器的参数得到最终图像生成器和优化第二邻接权重矩阵得到第二因果子图,将第二因果子图替换初始全局因果图中的第一因果子图得到最终全局因果图;(4)应用时,将绘制的标框标注布局数据输入至最终全局因果图得到第三因果子图,将第三因果子图输入至最终图像生成器得到具有因果关系的场景图像。2.根据权利要求1所述的基于因果图谱的场景图像生成方法,其特征在于,获得带有标框标注的真实场景图像数据集,包括:收集风格一致的真实场景图像数据集,并标注真实场景图像中各个实体的位置,即标框的横、纵坐标,和大小,即标框的长和宽,以及实体类别,得到标框标注的真实场景图像数据集,其中,风格一致为真实场景图像采集的设备和过程一致。3.根据权利要求1所述的基于因果图谱的场景图像生成方法,其特征在于,通过初始全局因果图表示实体类别之间的因果关系,其中,初始全局因果图包括结点、边和边的权重,结点为实体类别,且各个结点的实体类别不重合,边为实体类别之间的因果关系,边的权重为因果关系的强度。4.根据权利要求3所述的基于因果图谱的场景图像生成方法,其特征在于,基于多个实体以及实体间因果关系构建第一因果子图,包括:
基于标框标注确定每个实体类别对应的实体个数,将每个实体作为第一因果子图的结点,并基于每个实体间激活的因果关系构建第一因果子图的边;第一因果子图边的权重与初始全局因果图的对应实体类别边的权重一致。5.根据权利要求1所述的基于因果图谱的场景图像生成方法,...

【专利技术属性】
技术研发人员:杨昌源李泽健李如诗张晟源孙凌云
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1