学习解离化表示是机器学习在众多应用中的重要主题。解离化潜在变量表示可解译的语义信息,并反映数据中变化的分离因子。尽管生成模型可以学习潜在表示并生成数据样本,但是现有模型可能会忽略潜在表示之间的结构信息。在本公开中描述的是使用可分解的变分自动编码器从数据中学习解离化潜在结构表示的实施例,所述可分解的变分自动编码器同时学习分量表示并对分量关系进行编码。公开了潜在表示的新颖结构先验的实施例,以捕获不同数据分量之间的交互。实施例应用于不同数据分量之间的数据分割和潜在关系发现。在几个数据集上的实验证明了本模型实施例的实用性。明了本模型实施例的实用性。明了本模型实施例的实用性。
【技术实现步骤摘要】
学习潜在结构关系的方法、系统和计算机可读介质
[0001]本公开总体上涉及可以提供改进的计算机性能、特征和用途的用于计算机学习的系统和方法。更具体地,本公开涉及用于改进计算机性能、特征以及用途的学习潜在结构关系中的系统和方法。
技术介绍
[0002]深度神经网络在许多领域都取得了巨大的成功,诸如计算机视觉、自然语言处理、推荐系统等。解离化表示(Disentangled representation)学习旨在学习发现和解离数据中潜在解释因子的分解表示(factorized representation),解离化表示是机器学习和人工智能中基本但具有挑战性的问题。可解译的解离化表示已证明了它们在无监督学习和半监督学习中的作用。
[0003]从具有多个物体的图像中提取表示的主要挑战在于无监督设置和复杂交互模式。大多数现有方法可能不会应用于此问题,因为将数据分割和表示学习集成在一起具有挑战性。此外,对于潜在表示,学习真实世界中的复杂实体交互需要强大而灵活的先验,潜在表示可以自适应地编码复杂结构关系。
[0004]因此,需要学习潜在结构关系用于改进计算机性能、特征和用途的系统和方法。
技术实现思路
[0005]本专利技术的第一方面提供了一种用于学习潜在结构关系的方法。所述方法包括接收包括一个或多个分量的输入;使用注意网络,生成对应于一个或多个分量中的每个的掩膜,掩膜指示输入的元素的至少子集属于一个或多个分量中的每个的概率;使用编码器,将输入和每个掩膜编码为潜在变量,潜在变量包括对应分量的全局潜在变量和局部潜在变量;使用包括一个或多个流函数的基于流的模型,将一个或多个全局潜在变量变换为一个或多个变换后全局潜在变量,每个流函数对一个或多个全局潜在变量中的一个进行向前变换以得到对应变换后全局潜在变量;基于一个或多个变换后全局潜在变量,生成聚合后全局潜在变量;使用基于流的模型,将聚合后全局潜在变量变换为对应于一个或多个分量的一个或多个重构后全局潜在变量;使用解码器,通过使用对应于一个或多个分量中的每个的一个重构后全局潜在变量和一个局部潜在变量,生成一个或多个分量中的每个的一对重构后掩膜和重构后分量;以及使用对应于一个或多个分量的重构后分量和重构后掩膜,用于推理过程中的一个或多个数据处理应用,或者用于构造训练过程中进行训练的一个或多个损耗。
[0006]本专利技术的第二方面提供了一种用于学习潜在结构关系的系统。系统包括一个或多个处理器和非暂时性计算机可读介质。非暂时性计算机可读介质包括一个或多个指令集合。当由一个或多个处理器中的至少一个执行时,指令使得至少一个处理器执行根据第一方面所述的方法。
[0007]本专利技术的第三方面提供了一种非暂时性计算机可读介质,包括一个或多个指令序
列。指令序列在由至少一个处理器执行时使得至少一个处理器执行根据第一方面所述的方法。
[0008]本专利技术的第四方面提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据第一方面所述的方法。
[0009]本专利技术提供的学习潜在结构关系的方法考虑了多个物体或样本部分之间的相互作用,在场景分割和物体表示学习中已经得到了显着的改进。
附图说明
[0010]将参考本公开的实施例,其示例可以在附图中示出。这些图仅是说明性的,而不是限制性的。尽管通常在这些实施例的上下文中描述本公开,但是应当理解,其并不旨在将本公开的范围限制为这些特定实施例。图中的项目可能未按比例绘制。
[0011]图1描绘了根据本公开的实施例的用于编码和解码的聚合先验模型。
[0012]图2描绘了根据本公开的实施例的用于潜在变量的分层结构。
[0013]图3描绘了根据本公开的实施例的生成分层模型的框架。
[0014]图4描绘了根据本公开的实施例的用于对所有分量进行编码和解码的过程。
[0015]图5描绘了根据本公开的实施例的用于全局潜在变量编码和解码的过程。
[0016]图6描绘了根据本公开的实施例的因果关系检测的过程。
[0017]图7描绘了根据本公开的实施例的用于多物体网络(MONet)和生成的分层模型的原始图像、重构的图像和掩膜图像。
[0018]图8描绘了根据本公开的实施例的针对2个物体和3个物体的数据集的不同方法的历时的解离化分数。
[0019]图9描绘了根据本公开的实施例的在评估数据集上的不同时期的不同方法的分割分数。
[0020]图10描绘了根据本公开的实施例的在多米诺骨牌图像上的迭代上的ARI分数。
[0021]图11描绘了根据本公开的实施例的在迭代中损耗的不同项的值。
[0022]图12描绘了根据本公开的实施例的计算设备/信息处理系统的简化框图。
具体实施方式
[0023]在下面的描述中,出于解释的目的,阐述了具体细节以便提供对本公开的理解。然而,对于本领域的技术人员将显而易见的是,可以在没有这些细节的情况下实践本公开。此外,本领域的技术人员将认识到,下面描述的本公开的实施例可以以多种方式来实现,诸如有形计算机可读介质上的过程、装置、系统、设备或方法。
[0024]图中示出的组件或模块是本公开的示例性实施例的说明,并且意在避免模糊本公开。还应该理解的是,在整个讨论中,组件可以被描述为单独的功能单元,其可以包括子单元,但是本领域技术人员将认识到,各种组件或其一部分可以被划分为单独的组件或可以集成在一起,包括例如在单个系统或组件中。应当注意,本文讨论的功能或操作可以被实现为组件。组件可以以软件、硬件或其组合来实现。
[0025]此外,图内的组件或系统之间的连接不旨在限于直接连接。而是,中间组件可以修改、重新格式化或以其他方式更改这些组件之间的数据。同样,可以使用更多或更少的连
接。还应注意,术语“耦接”、“连接”、“通信耦接”、“接口连接”、“界面连接”或其任何派生应理解为包括直接连接、通过一个或多个中间设备的间接连接,以及无线连接。还应注意,任何通信,诸如信号、响应、答复、确认、消息、查询等,可以包括一个或多个信息交换。
[0026]说明书中对“一个或多个实施例”,“优选实施例”,“一个实施例”,“多个实施例”等的引用意味着结合实施例描述的具体特征、结构、特性或功能包括在本公开的至少一个实施例中,并且可以在一个以上的实施例中。同样,上述短语在说明书中各个地方的出现不一定全部指代同一实施例或多个实施例。
[0027]在说明书中的各个地方使用某些术语是为了说明,而不应解释为限制性的。服务、功能或资源不限于单个服务、功能或资源;这些术语的使用可能是指相关服务、功能或资源的分组,它们可以是分布式的或聚合的。术语“包含”和“包括”应被理解为开放术语,并且以下的任何列表都是示例,并不意味着限于所列出的项目。“层”可以包括一个或多个操作。词语“最优的”,“优化”等是指结果或过程的改进,不需要特定的结果或过程已达到“最优”状态或峰值状态。存储器、数据库、信息库、数据存储、表格、硬件、高速缓存等本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种用于学习潜在结构关系的方法,包括:接收包括一个或多个分量的输入;使用注意网络,生成对应于一个或多个分量中的每个的掩膜,掩膜指示输入的元素的至少子集属于一个或多个分量中的每个的概率;使用编码器,将输入和每个掩膜编码为潜在变量,潜在变量包括对应分量的全局潜在变量和局部潜在变量;使用包括一个或多个流函数的基于流的模型,将一个或多个全局潜在变量变换为一个或多个变换后全局潜在变量,每个流函数对一个或多个全局潜在变量中的一个进行向前变换以得到对应变换后全局潜在变量;基于一个或多个变换后全局潜在变量,生成聚合后全局潜在变量;使用基于流的模型,将聚合后全局潜在变量变换为对应于一个或多个分量的一个或多个重构后全局潜在变量;使用解码器,通过使用对应于一个或多个分量中的每个的一个重构后全局潜在变量和一个局部潜在变量,生成一个或多个分量中的每个的一对重构后掩膜和重构后分量;以及使用对应于一个或多个分量的重构后分量和重构后掩膜,用于推理过程中的一个或多个数据处理应用,或者用于构造训练过程中进行训练的一个或多个损耗。2.如权利要求1所述的方法,其中,输入是图像或数据样本,图像中一个或多个分量中的每个表示图像中的物体以及输入的元素表示图像中的像素,数据样本中一个或多个分量的每个表示数据样本中的一部分以及输入的元素表示数据样本中的数据点。3.根据权利要求1所述的方法,其中,聚合后全局潜在变量是对应于一个或多个分量的一个或多个变换后全局潜在变量的平均值。4.根据权利要求1所述的方法,其中,一个或多个流函数是可逆函数。5.如权利要求4所述的方法,其中,每个重构后全局潜在变量是通过使用对应流函数的逆函数对聚合后全局潜在变量进行向后变换而得到的。6.如权利要求5所述的方法,其中,通过最大化基于流的模...
【专利技术属性】
技术研发人员:任绍刚,费洪亮,李定成,李平,
申请(专利权)人:百度美国有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。