当前位置: 首页 > 专利查询>罗伯特专利>正文

基于对数似然性的图像生成模型制造技术

技术编号:33120693 阅读:12 留言:0更新日期:2022-04-17 00:19
提供了基于对数似然性的图像生成模型。本发明专利技术涉及一种训练图像生成模型的计算机实现的方法(700)。图像生成模型包括argmax变换,其被配置为计算离散索引特征,该离散索引特征指示具有极值的连续特征向量的特征的索引。使用对数似然性优化来训练图像生成模型。这涉及获得训练图像的索引特征值,根据argmax变换的随机逆变换,给定索引特征值对连续特征向量的值进行采样,以及基于随机逆变换在给定索引特征值的情况下生成连续特征向量的值的概率,确定argmax变换对于对数似然性的似然性贡献。argmax变换对于对数似然性的似然性贡献。argmax变换对于对数似然性的似然性贡献。

【技术实现步骤摘要】
基于对数似然性的图像生成模型


[0001]本专利技术涉及一种训练图像生成模型的计算机实现的方法,以及对应的系统。本专利技术进一步涉及一种使用这样的经训练图像生成模型来生成图像和/或获得图像的一致性值的计算机实现的方法。本专利技术进一步涉及一种计算机可读介质。

技术介绍

[0002]对于许多现实世界的图像处理任务,机器学习是一种很有前途的技术。例如,为了基于(半)自主车辆在其中操作的环境的图像或视频数据来控制所述(半)自主车辆,可以使用图像分类模型(包括语义分割模型和对象检测模型)来分析图像或视频数据,其结果然后可以用于控制车辆(例如,在检测到危险交通情形的情况下执行制动)。通过基于训练数据自动学习如何最好地执行此类任务,而不是根据手动指定的算法执行任务,机器学习保持提供更好的准确性和对不同设置的适应性的允诺。基于机器学习的图像处理的其他应用领域包括制造(例如,以检测制造过程中的误差)和医学(例如,以标识身体部位或检测异常)。
[0003]实际上,在许多情况下,可用训练数据的量是对于基于机器学习的图像处理可以实现的准确性的限制因子。尤其是在自主驾驶中,但也在其他应用领域中,需要大量具有高度可变性的训练图像来取得足够准确的模型。这一点尤其正确,因为当使用机器学习模型的输出来做出影响现实世界的决策时,模型需要非常可靠和鲁棒。同时,收集现实世界的训练数据可能非常昂贵,或甚至是危险的,例如,当收集危险交通情形的数据时。
[0004]处置用于训练机器学习模型的训练数据缺乏的一种方式是要训练图像生成模型。给定训练数据集,这样的图像生成模型可以生成代表训练数据集的合成图像。然后,这些合成图像可以用于生成附加的训练数据,以训练机器学习模型。这样的图像生成模型的示例是变分自动编码器(VAE),如例如在D. Kingma和M. Welling的“Auto

Encoding Variational Bayes”(在https://arxiv.org/abs/1312.6114可获得并且通过引用并入本文)中公开的。在该模型中,通过选择假定根据先验分布而分布的潜在特征表示来生成图像;以及根据模型从潜在特征分布生成图像。通过适应潜在特征表示,可以操纵生成图像的特性。在对数似然性优化中训练该模型,其中根据图像生成模型生成训练图像的概率被最大化。

技术实现思路

[0005]本专利技术的目的之一是要提供一种具有改进的图像生成质量的图像生成模型,例如,其生成更能代表训练数据集的图像。另一个目的是要提供导致这样改进的图像生成模型的训练技术。本专利技术的具体目的是要训练一种图像生成模型,其中较少的噪声需要被添加到生成过程,同时仍然根据原始指定的并且图像生成模型针对其进行优化的模型分布来生成图像。
[0006]根据本专利技术的第一方面,提供了分别如权利要求1和13限定的用于训练图像生成模型的计算机实现的方法和对应系统。根据本专利技术的另一方面,提供了分别如权利要求8和
14限定的用于使用经训练图像生成模型的计算机实现的方法和对应的系统。根据本专利技术的方面,如权利要求15限定的,描述了一种计算机可读介质。
[0007]各种实施例涉及图像生成模型。图像生成模型可以被配置为通过对潜在特征表示应用相应的变换来从潜在特征表示生成图像。例如,变换可以包括一个或多个卷积变换和/或一个或多个归一化层,例如一个或多个上卷积变换、插值变换、批量归一化层等。用于从潜在特征表示生成图像的许多已知架构是已知的,并且可以被应用。
[0008]典型地,图像生成过程涉及使用连续的潜在特征向量。例如,潜在特征表示可以被建模为从连续概率分布、例如正态分布等中提取。因此,潜在特征表示可以是连续的特征向量。一个或多个变换也可以应用于该连续的潜在特征表示。一般地,具有连续变换是优选的,这是因为此类变换可以例如使用梯度下降或类似被高效地训练,并且避免对于离散数据已知的性能问题,例如,任意高似然性的出现。
[0009]然而,图像生成模型输出的图像数据通常是离散的。例如,图像可以包括一个或多个通道(经常是三个,例如,对于RGB图像)。图像的像素可以由相应通道的离散像素值来描述。例如,像素可以由相应通道的一个或多个相应8位值来描述。
[0010]因此,为了生成输出图像数据,在某一时刻,连续特征可以被变换成离散特征。可以通过对潜在特征表示应用一个或多个变换来获得连续特征。图像数据可以从离散特征导出。例如,图像的像素值可以等于离散特征,或者可以根据一个或多个固定的或可训练的变换从离散特征中得出。
[0011]因此,图像生成模型可以包括被配置为从连续特征向量确定离散特征的变换。有趣的是,为了执行该离散化,专利技术人设想使用argmax变换。argmax变换可以从连续特征向量计算离散索引特征,该离散索引特征指示具有极值的连续特征向量的特征的索引,例如连续特征向量的最大值或最小值的索引。argmax变换可以从相应的(通常不相交的)连续特征向量计算多个相应的离散索引特征。(贯穿本说明书,术语“argmax变换”被理解为包括计算最大值的变换和计算最小值的变换两者。后一种类型也可以更具体地称为“argmin变换”。)argmax变换是从连续变量获得类别变量的自然变换。这使得机器学习模型更容易学习如何最好地确定连续变量。连续特征向量的每个连续特征可以有效地指示输入与对应离散输出的对应关系。各种机器学习技术被良好装备以学习此类对应关系。同时,专利技术人认识到argmax变换也可以被有效地训练和用于计算一致性值,即,通过使用argmax变换的随机逆变换。因此,argmax变换可以是所谓的生成满射变换。给定索引特征,随机逆变换可以定义对应于索引特征的连续特征向量的概率分布。
[0012]有趣的是,逆变换通常由生成方向上不使用的可训练参数来参数化。例如,在生成方向上应用argmax变换可能根本不使用任何可训练的参数。即使此类参数在生成合成图像时可能不被使用,但它们仍然允许模型被更准确地训练,并且在使用生成模型来确定一致性时也被使用。
[0013]如本身已知的,可以使用对数似然性优化来训练图像生成模型。这可以涉及选择训练图像,并确定根据图像生成模型生成的训练图像的对数似然性。这通常是通过在逆方向(有时称为推断方向)上评估生成模型来完成的,例如,通过应用生成模型的相应变换的逆来完成。然后可以基于相应变换的似然性贡献来确定对数似然性。训练可以最大化所确定的关于模型参数的对数似然性。特别地,argmax变换的逆的参数因此可以被优化。
[0014]因此,在训练期间,可以通过将逆变换应用于索引特征值,从而对连续特征向量的值进行采样,来在逆方向上评估argmax变换。基于索引特征和连续特征向量的值,然后可以基于逆变换在给定索引特征值的情况下生成连续特征向量值的概率,来确定对数似然性的argmax变换的似然性贡献。
[0015]专利技术人认识到,在生成方向上使用argmax变换和在反向(推断)方向上使用随机逆是在连续和离散特征之间转化的特别好的方式。向离散化提供了高效可计算的随机逆。a本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种训练图像生成模型的计算机实现的方法(700),所述图像生成模型被配置为从潜在特征表示生成图像,所述方法包括:

访问(710)表示图像生成模型的参数的模型数据,以及表示多个训练图像的训练数据集的训练数据;

使用对数似然性优化来训练(730)图像生成模型,其中:

所述训练包括选择(732)训练图像,并确定(734)根据图像生成模型生成的训练图像的对数似然性,

图像生成模型包括被配置为从连续特征向量确定离散特征的变换,所述变换是被配置为计算离散索引特征的argmax变换,所述离散索引特征指示具有极值的连续特征向量的特征的索引,

确定对数似然性包括获得(736)训练图像的索引特征值,根据argmax变换的随机逆变换,给定索引特征值对连续特征向量的值进行采样(737),以及基于随机逆变换在给定索引特征值的情况下生成连续特征向量的值的概率来确定(738)argmax变换对于对数似然性的似然性贡献;

输出(740)经训练图像生成模型。2.根据权利要求1所述的方法(700),其中,随机逆变换由包括在图像生成模型的参数中的参数来参数化。3.根据权利要求2所述的方法(700),其中,给定索引特征值对连续特征向量的值进行采样包括对初始特征向量进行采样,并且基于索引特征值对初始特征向量应用单射变换以获得连续特征向量的值,所述单射变换被定义为使得索引特征指示具有极值的连续特征向量的特征的索引。4.根据权利要求3所述的方法(700),其中,应用单射变换包括将平滑阈值化函数应用于由索引特征指示的连续特征向量的特征,以使由索引特征指示的所述特征大于或小于连续特征向量的一个或多个值,和/或将平滑阈值化函数应用于连续特征向量的一个或多个其他值,以使所述一个或多个其他值小于或大于由索引特征指示的所述特征。5.根据权利要求2所述的方法(700),其中,给定索引特征值对连续特征向量的值进行采样包括:

根据Gumbel分布对由索引特征指示的连续特征向量的值进行采样;和

基于由索引特征指示的所述采样值,根据截断Gumbel分布,对未由索引特征指示的连续特征向量的值进行采样。6.根据任何前述权利要求所述的方法(700),其中索引特征对应于训练图像的特定像素。7.根据任何前述权利要求所述的方法(700),其中图像生成模型被配置为通过使用argmax变换计算多个相应的离散索引特征并组合所述多个离散索引特征来确定离散特征。8.一种使用经训练图像生成模型的计算机实现的方法(800),包括:

访问(810)表示图像生成模型的参数的模型数据,所述图像生成模型包括被配置为从连续特征向量确定离散特征的变换,所述变换是argmax变换,其被配置为计算指示具有极值的连续特征向量的特征的索引的离散索引特征,所述图像生成模型已经在训练数据集上被训练,argmax变换的逆由随机逆变换近似;

将图像生成模型应用(820)于潜在特征表示以获得生成的图像,和/或使用(830)图像生成模型来确定指示输入图像与训练数据集的一致性的一致性值,所述一致性值基于根据图像生成模型生成的输入图像的对...

【专利技术属性】
技术研发人员:E
申请(专利权)人:罗伯特
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1