当前位置: 首页 > 专利查询>罗伯特专利>正文

用于生成合成图像的级联聚类生成器网络制造技术

技术编号:32654180 阅读:10 留言:0更新日期:2022-03-17 11:01
用于生成合成图像的级联聚类生成器网络。用于训练聚类网络和生成器网络的组合的方法包括:

【技术实现步骤摘要】
用于生成合成图像的级联聚类生成器网络
[0001]本专利技术涉及用于产生合成图像的生成器网络的对抗性训练,该合成图像尤其可以用于训练图像分类器。

技术介绍

[0002]图像分类器需要用训练图像来训练,对于所述训练图像,分类器应当分配给相应图像的“真实”分类分数是已知的。获得具有足够可变性的大训练图像集合是耗时且昂贵的。例如,如果图像分类器要对用由车辆携带的一个或多个传感器捕获的交通情形进行分类,则需要长的试驾来获得足够量的训练图像。对于训练所需的“真实”分类分数经常需要通过手动注释训练图像来获得,这也是耗时且昂贵的。此外,一些交通情形(诸如暴风雪)在训练图像的捕获期间仅鲜少发生。
[0003]为了缓解训练图像的不足,生成性对抗性网络(GAN)可以被训练以生成看起来像真图像的合成图像,并且可以被用作用于图像分类器的训练图像。条件GAN(cGAN)可以用于生成合成图像,所述合成图像属于逼真图像分布的某种模式。例如,条件GAN可以生成属于分类的特定类的合成图像。
[0004]DE 10 2018 204 494 B3公开了一种用于生成合成雷达信号作为分类器的训练材料的方法。

技术实现思路

[0005]本专利技术使用聚类网络和生成器网络的组合来产生合成图像。生成器网络有点类似于先前cGAN中的生成器那样工作,因为它被配置为将噪声样本和一些附加信息映射到合成图像。但与在cGAN中不同的是,该附加信息不是根据人类提供的分类的某个类标签或分类分数。而是,附加信息是所寻找的合成图像应属于的目标聚类的指示。聚类进而由聚类网络确定。聚类网络被配置为将输入图像映射到潜在空间中的表示。该表示指示输入图像所属于的聚类。
[0006]潜在空间中的表示例如可以是输入图像到聚类的直接分配,诸如“该输入图像属于该聚类”。然而,潜在空间中的表示照此也可以只是某个潜在空间中的点,该潜在空间是多维的,但是具有比输入图像低得多的维数。潜在空间中的点然后可以在第二步骤中被划分成聚类。
[0007]在一方面的这些聚类与另一方面的类标签之间的主要差异在于,聚类是以无监督的方式从输入图像生成的。这意味着,即使预先预设某个输入图像集合将被划分成某个数量的聚类,也不提前已知这些聚类确切标示什么。例如,如果交通场景的输入图像集合被划分成10个聚类,则这些聚类可能表示图像中包含的不同对象,但也可能只表示拍摄图像的不同天气条件。相比之下,将类标签分配给输入图像是人类强加的条件。
[0008]本专利技术提供了一种用于训练聚类网络和生成器网络的所述组合的方法。在该方法的过程中,提供了训练输入图像集合。聚类网络将这些训练输入图像映射到指示训练输入图像所属于的聚类的表示。也就是说,最迟在所有训练输入图像已经被聚类网络处理之后,
聚类是已知的,并且已知哪个训练输入图像属于哪个聚类。
[0009]噪声样本是从随机分布中抽取的。此外,目标聚类的指示是从聚类网络标识的聚类集合中抽取的。生成器网络将目标聚类的指示和噪声样本的组合取作输入,并生成伪图像。该伪图像和用于产生它的目标聚类的指示的组合形成了伪对。因此,该伪对可以例如由生成的伪图像和目标聚类的编号或其他标识符构成。
[0010]真图像是从训练输入图像集合中抽取的。每个真图像与聚类网络分配给它的聚类的指示相组合,使得形成真对。因此,该真对可以由真图像和根据聚类网络它所属于的聚类的编号或其他标识符构成。
[0011]对于对抗性训练,真对和伪对的混合被馈送入鉴别器网络中,该鉴别器网络被配置为区分真对和伪对。特别地,该鉴别器可以利用两种信号来确定输入对是伪对,而不是真对:首先,如果图像本身似乎不逼真,则鉴别器可以确定它是伪图像,并且输入对因此是伪对。例如,如果生成器产生具有可见伪像的不完美图像而不是逼真图像,则这可能发生。第二,如果图像本身看起来逼真,但是其到特定聚类的分配似乎不逼真,则鉴别器可以确定输入对是伪对。例如,如果一对将完美生成的汽车渲染与基本上仅包含树的聚类相组合,而不是与基本上仅包含汽车的聚类相组合,则这可能发生。训练的目的是,对于由聚类网络标识的所有聚类,生成器能够生成逼真图像,所述逼真图像可以冒充属于相应聚类的真图像。
[0012]表征鉴别器网络行为的参数被优化,其目的是改进鉴别器网络在真对和伪对之间进行区分所具有的准确度。同时,表征聚类网络行为的参数和表征生成器网络行为的参数被优化,其目的是使提到的准确度退化。也就是说,聚类网络和生成器网络正在联合工作,并与鉴别器网络竞争。
[0013]与cGAN形成对照,聚类网络和生成器网络的组合不需要任何人类干预来将类标签分配给训练输入图像,使得稍后生成的图像可以以那些类标签为条件。而是,仅仅是简单的未标记的训练输入图像就足够了。这带来如下优点,用于手动标记的努力和费用不是必要的。但这不是仅有的优点。
[0014]而是,发现在许多情况下,通过聚类网络将具体的训练输入图像集合划分成聚类比将相同训练输入图像集合划分成人类强加的分类的类更适当。也就是说,聚类网络自动学习哪些区分特征存在于输入图像中,并且可以用于将输入图像划分成不同的聚类。
[0015]因此,它取决于划分成聚类适当的训练输入图像集合的组成。特别地,以有意义的方式将训练输入图像集合划分成关于某个属性的聚类需要每个属性的一些示例存在。
[0016]例如,如果几乎所有的训练输入图像仅在一个单个季节中拍摄,则将训练输入图像集合划分成表示四个季节的四个聚类是没有意义的。在另一个示例中,如果在整个训练图像集合中仅存在500个不同的对象,那么将训练输入图像集合划分成表示不同对象的1000个聚类是没有意义的。
[0017]因此,由聚类网络进行的聚类仅根据在该具体训练输入图像集合中实际存在且可辨别的特征来输出训练输入图像集合的划分。这意味着由生成器生成并以某个目标聚类为条件的图像与实际上从训练输入图像集合中可辨别的聚类相关。因此,给定全部在一个单个季节中拍摄的训练图像集合,将不存在与不同季节相关的聚类,并且生成器网络将不尝试“猜测”其从未见过任何训练输入图像的三个季节的图像。一般而言,生成器无法从训练集中不存在的分布模式生成任何数据。在目前自标记cGAN的情况下,该限制是自动强制的,
并且对于自标记cGAN确实产生的图像,在训练集中保证了足够的基础。
[0018]最终结果是,在如这里所描述那样已经训练了聚类网络和生成器网络的组合之后,可以预期生成器网络生成的图像比先前由cGAN生成的图像更逼真。此外,用于逼真图像生成的可用类是自动确定的。用户不必手动确定哪些类是从训练输入图像可辨别的。而是,用户直接接收这种反馈,“该训练数据集有利于在这些类之间进行区分”。
[0019]聚类网络对训练输入图像集合进行的划分可以用作如果期望另一划分要如何进一步扩充训练输入图像集合的反馈。例如,如果期望划分成四个聚类,但是聚类是根据除了拍摄图像的季节之外的某个其他属性形成的,则这意味着需要在不同季节中拍摄更多的训练输入图像以便得到沿着季节之间的线划分的聚类。增加聚类数量也本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于训练以下组合的方法(100)
·
聚类网络(C),其被配置为将输入图像(1)映射到潜在空间(Z)中的表示(2),其中该表示(2)指示输入图像(1)所属于的聚类(2a

2c);和
·
生成器网络(G),其被配置为将目标聚类(2a

2c)的指示和噪声样本(3)映射到属于目标聚类(2a

2c)的图像(4),所述方法(100)包括以下步骤:
·
提供(105)训练输入图像(1a)的集合;
·
由聚类网络(C)将训练输入图像(1a)映射(110)到指示训练输入图像(1a)所属于的聚类(2a

2c)的表示(2);
·
从随机分布中抽取(120)噪声样本(3)以及从由聚类网络(C)标识的聚类(2a

2c)的集合中抽取(120)目标聚类(2a

2c)的指示;
·
由生成器网络(G)将目标聚类(2a

2c)的指示和噪声样本(3)映射(130)到伪图像(4),并且将每个伪图像(4)与用于产生它的目标聚类(2a

2c)的指示组合(140),从而形成伪对(4 *);
·
从训练输入图像(1a)的集合中抽取(150)真图像(1);
·
将每个真图像(1)与聚类网络(C)分配给它的聚类(2a

2c)的指示组合(160),从而形成真对(1 *);
·
将真对(1*)和伪对(4*)的混合馈送(170)到鉴别器网络(D),所述鉴别器网络(D)被配置为区分真对(1*)和伪对(4 *);
·
优化(180)表征鉴别器网络(D)的行为的参数(5),其目的是改进鉴别器网络(D)在真对(1*)和伪对(4*)之间进行区分所具有的准确度;以及
·
优化(190)表征聚类网络(C)的行为的参数(6)和表征生成器网络(G)的行为的参数(7),其目的是使所述准确度退化。2.根据权利要求1所述的方法(100),其中生成器网络(G)被附加地训练(191),其目的是伪图像(4)被聚类网络(C)映射到目标聚类(2a

2c)的指示。3.根据权利要求1或2中任一项所述的方法(100),其中聚类网络(C)被附加地训练(192),其目的是聚类网络(C)将通过使输入图像(1)经受一个或多个预定干扰而已经获得的输入图像(1)的变换版本(1

)映射到指示输入图像(1)所属于的相同聚类(2a

2c)的表示(2)。4.根据权利要求3所述的方法(100),其中,所述预定干扰包括:裁剪、颜色抖动和翻转中的一个或多个。5.根据权利要求3至4中任一项所述的方法(100),其中,聚类网络(C)被附加地训练(192a),其目的是最大化在一方面聚类网络(C)将输入图像(1)映射到的表示(2)与另一方面聚类网络(C)将输入图像(1)的变换版本(1

)映射到的表示(2)之间的互信息。6.根据权利要求1至5中任一项所述的方法(100),其中选择鉴别器网络(D),其对于输入到鉴别器网络(D)的一对(1*,4*)分离地输出,
·
一方面,包括在所述对(1*,4*)中的图像(1,4)是真图像(1)还是伪图像(4),以及
·
另一方面,所述对(1*,4*)作为一...

【专利技术属性】
技术研发人员:M
申请(专利权)人:罗伯特
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1