当前位置: 首页 > 专利查询>辉达公司专利>正文

未标记数据的场景图生成制造技术

技术编号:34781498 阅读:16 留言:0更新日期:2022-09-03 19:38
提出了用于训练和使用用于转移学习的场景图生成器的方法。场景图生成技术可将域差距分解成各个类型的差异,例如可涉及外观、标记和预测差异。可以至少通过使用一个或更多个梯度反转层(GRL)使对应的潜在分布和输出分布对齐来减少这些差异。标记差异可使用从目标数据收集的自伪统计来解决。基于伪统计的自学习和对抗技术可用于管理这些差异,无需来自现实世界数据集的昂贵监督。界数据集的昂贵监督。界数据集的昂贵监督。

【技术实现步骤摘要】
【国外来华专利技术】未标记数据的场景图生成
[0001]相关申请的交叉引用
[0002]本PCT申请要求2020年5月27日提交的美国临时专利申请序列号63/030,734以及2021年4月9日提交的美国专利申请No.17/226,561的优先权,出于所有意图和目的两个专利申请全文合并在本申请中。

技术介绍

[0003]越来越多的应用和服务依赖于诸如对象识别和计算机视觉的技术。为了提供准确的结果,这些技术经常涉及场景图的生成和图像或视频内容中表示的对象的视觉关系的学习。传统的场景图生成技术依赖于昂贵的注释或标记的可用性。尝试生成没有此类注释的场景图(诸如通过使用未标记的真实数据)是一项艰巨的任务。生成合成数据是可行的替代方案并且已经作为用于扩展受监督学习的有希望的方向而出现,因为所生成的标记可以从数据合成过程中获得。然而,由于涉及性能滞后或域差距的问题,当对真实数据进行评估时,对于使用合成数据训练的网络或模型可靠地执行诸如场景图生成的复杂任务,仍然是具有挑战性的。
附图说明
[0004]将参考附图描述根据本公开的各种实施例,其中:
[0005]图1A和图1B示出了根据至少一个实施例的可以用于生成场景图的图像;
[0006]图2示出了根据至少一个实施例的场景图生成系统;
[0007]图3A和3B示出了根据至少一个实施例的图像和对应的场景图;
[0008]图4A和4B示出了根据至少一个实施例的图像和对应的场景图;
[0009]图5示出了根据至少一个实施例的用于训练场景图生成器的过程;
[0010]图6示出了根据至少一个实施例的用于生成场景图的系统的组件;
[0011]图7A示出了根据至少一个实施例的推理和/或训练逻辑;
[0012]图7B示出了根据至少一个实施例的推理和/或训练逻辑;
[0013]图8示出了根据至少一个实施例的示例数据中心系统;
[0014]图9示出了根据至少一个实施例的计算机系统;
[0015]图10示出了根据至少一个实施例的计算机系统;
[0016]图11示出了根据一个或更多个实施例的图形处理器的至少部分;
[0017]图12示出了根据一个或更多个实施例的图形处理器的至少部分;
[0018]图13是根据至少一个实施例的高级计算管线的示例数据流图;
[0019]图14是根据至少一个实施例的用于在高级计算管线中训练、适应、实例化和部署机器学习模型的示例系统的系统图;以及
[0020]图15A和图15B示出了根据至少一个实施例的用于训练机器学习模型的过程的数据流图,以及利用预训练的注释模型来增强注释工具的客户端

服务器架构的示例图示。
具体实施方式
[0021]根据各个实施例的方法可以提供场景图或其他此类数据表示的生成和使用。具体地,各实施例涉及用于转移学习的场景图生成。因为常规场景图训练方法利用成本高或难以获得的标记数据,所以利用能够以很少或没有额外成本提供标记的合成数据可能是有利的。不幸的是,至少部分地由于域差距,使用合成数据训练的模型在运行对真实数据的推理时通常不能表现良好。为了克服此差距问题,可利用场景生成技术,其将域差距分解成个别类型的差异,例如可能涉及外观、标记及预测差异。这可包括通过使用梯度反转层使相应的潜在和输出分布对齐来使外观和预测差异最小化。标记差异可使用自学习的原理来解决,但使用从目标数据收集的伪统计数据并利用合成数据生成器来产生准确的标记。基于伪统计的自学习和对抗技术被用来管理这些差异,无需来自现实

世界数据集的昂贵的监督。
[0022]当训练模型或网络来生成场景图时,可能期望能够生成可对应于不同域的输入的场景图。在此上下文中,除其他此类选项之外,域可以指不同的设置、类别、样式或空间。例如,第一组图像可包括在第一位置(诸如美国的大都市区域)拍摄的图像。如图1A的示例图像100中所示,这些图像可包括特定应用感兴趣的特定类型的对象,如可包括车辆102和行人104的表示,以及可存在于此类位置中的其他此类对象类型。这些图像还可包括其他类型的对象的表示,以及可包括建筑物、道路标志、广告牌等。对于标记的数据,此图像还可包括或具有相关联的一组边界框,其说明此图像的对应于这些感兴趣对象类型的各个实例的大体位置或区。这些边界框或其他此类位置标识符可用于帮助训练模型或网络来识别类似图像中的这些类型的对象。然后,当对象被在该一般域中或在美国的大都市区域中代表的建筑物和其他类型的对象包围时,网络可以学习以高准确度区分这些对象。
[0023]然而,有可能的是可能希望使用这样的经训练的模型来对来自不同域的数据执行类似的分类或推理。这可以包括例如对应于欧洲高山区的域,其可以包括诸如图1B中示出的图像150的图像。如图所示,这些图像可包括非常不同类型的背景和其他对象,如可涉及山、农场动物、山间小屋、以及可具有与来自第一域的图像中存在的外观非常不同的外观的其他对象。虽然在来自第二域的这些图像中可能存在类似的感兴趣对象,但是模型或网络在识别这些对象和将它们与周围图像区域区分时可能不那么准确,因为模型未使用具有这些表示的图像来训练。为了提高此类网络(例如场景图生成网络)的准确性,可能需要使用来自第一域的数据而且还使用来自第二域的数据来训练该网络。然而,在该示例中,来自第二域的数据未被标记。如所提及的,遍历和手动注释这些图像可能是昂贵且耗时的,特别是对于准确地训练模型可能需要的大量图像。
[0024]在一些实例中,可以生成包括感兴趣类型的对象的表示的合成图像。由于例如可以使用场景图来生成合成图像,因此这些合成图像可以包括对于在这些合成图像中包括的对象的类型而言已知的标记。还可以合成针对诸如欧洲高山区的特定域的图像。不幸的是,这仍然导致不同的域,因为将有第一域(在此是合成域)中的图像以及第二域(在此是“真实”图像域)中的图像。由此,即使在目标域的经标记的合成图像上训练模型,性能仍可能不够准确以用于针对该目标域捕获或以其他方式获得的真实图像。如所提及的,这大部分是由于域之间的域差距,其可以包括内容和外观差距部分两者。外观差距可表示真实图像与合成图像或来自不同域的图像之间的视觉外观的差异。内容差距可表示图像中的对象的放置、数目、选择和类型以及其他此类选项的差异。在至少一些实施例中,可以通过使场景进
行照片逼真(诸如通过使用一个或更多个图像转换、使用特征对齐或基于域随机化学习鲁棒表示)来解决外观差距。也可以使用方法来解决图像分类的内容差距。
[0025]因此,根据各个实施例的方法可以提供用于训练场景图生成模型、网络或解决这种域差距的其他此类方法的可扩展方法。这些方法可以进一步利用标记的合成数据和未标记的真实数据两者。根据各个实施例的方法可提供减少可能出现在域之间(诸如合成数据与真实数据之间)的外观和内容的差距的可处理方式。此类方法还可提供神经网络的学习以生成用于未标记真实图像的场景图。这可包括使用用于学习的合成数据来在真实图像或来自不同域的图像上生成场本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算机实现的方法,包括:将第一组标记的合成数据的一个或更多个特征和第二组未标记的真实数据的一个或更多个特征编码到潜在空间;提供所述潜在空间作为输入以训练场景图预测网络;对齐所述潜在空间中的一个或更多个特征和所述场景预测网络的输出空间中的一个或更多个特征;将所述合成数据的一个或更多个标记与所述真实数据对齐;以及使用一个或更多个对齐的标记训练场景图生成模型。2.根据权利要求1所述的计算机实现的方法,还包括:使用以下项中的至少一者对齐所述潜在空间中的所述一个或更多个特征与所述输出空间中的所述一个或更多个特征:一个或更多个梯度反转层(GRL)或域鉴别器。3.根据权利要求2所述的计算机实现的方法,其中对齐所述一个或更多个特征减少了以下各项中的至少一项上的一个或更多个差异:所述组标记的合成数据与未标记的真实数据之间的外观或内容。4.根据权利要求1所述的计算机实现的方法,还包括:使用基于伪统计的自学习来将所述一个或更多个标记对齐。5.根据权利要求1所述的计算机实现的方法,还包括:接收图像;以及使用经训练的场景图预测网络来生成所述图像的场景图。6.根据权利要求1所述的计算机实现的方法,其中所述训练包括应用网络融合标准。7.根据权利要求1所述的计算机实现的方法,还包括:使用经训练的场景图预测网络来生成场景图;以及从所生成的场景图生成合成图像。8.根据权利要求1所述的计算机实现的方法,其中使用一个或更多个卷积神经网络(CNN)将所述一个或更多个特征编码至所述潜在空间,所述潜在空间包括所述第一组标记的合成数据和所述第二组未标记的真实数据两者的一个或更多个特征。9.根据权利要求1所述的计算机实现的方法,其中对齐所述一个或更多个特征减小了所述合成数据与所述真实数据之间的外观差距,并且其中对齐所述一个或更多个标记减小了所述合成数据与所述真实数据之间的内容差距。10.一种系统,包括:至少一个处理器;以及存储器,其包括指令,在由所述至少一个处理器执行所述指令时,使所述系统:将第一组标记的合成数据和第二组未标记的真实数据的一个或更多个特征编码到潜在空间;提供所述潜在空间作为输入以训练场景图预测网络;对齐所述潜在空间中的一个或更多个特征和所述场景预测网络的输出空间的一个或更多个特征;在所述合成数据与所述真实数据之间对齐一个或更多个标记;以及使用一个或更多个对齐的标记来训练场景图生成模型。
11.根据权利要求10所述的系统,其中所述指令在被执行时,进一步使所述系统:使...

【专利技术属性】
技术研发人员:A
申请(专利权)人:辉达公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1