当前位置: 首页 > 专利查询>清华大学专利>正文

面向小样本学习的变分自编码器网络模型和装置制造方法及图纸

技术编号:22502525 阅读:19 留言:0更新日期:2019-11-09 02:42
本发明专利技术提出一种面向小样本学习的变分自编码器网络模型和装置,包括:获取样本的高层表征,根据高层表征通过第一神经网络采样得到隐表示,并通过第二个神经网络复原,以重构高层表征;根据分布参数生成每个类别分布;以及通过定义损失函数为重构误差、分类误差和隐表示分布与先验分布误差之和,以优化整个网络参数及每个类别分布的参数,生成变分自编码器网络模型。本发明专利技术通过面向小样本学习的变分自编码器网络模型,使得学习出来的高层表征有一个分布族能够精确的描述,而且高层表征的分布与其度量函数可以完全匹配,从而提升了小样本分类的准确率。

Network model and device of variational self encoder for small sample learning

The invention proposes a variational self encoder network model and device for small sample learning, which includes: obtaining high-level representation of samples, obtaining implicit representation through first neural network sampling according to high-level representation, and recovering through second neural network to reconstruct high-level representation; generating each category distribution according to distribution parameters; and defining loss function as reconstruction error The sum of the classification error and the implicit distribution and the prior distribution error is used to optimize the parameters of the whole network and each category distribution, and generate the network model of variational self encoder. Through the variation self encoder network model for small sample learning, the learned high-level representation has a distribution family that can accurately describe, and the distribution of high-level representation and its measurement function can completely match, thus improving the accuracy of small sample classification.

【技术实现步骤摘要】
面向小样本学习的变分自编码器网络模型和装置
本专利技术涉及小样本机器学习
,尤其涉及一种面向小样本学习的变分自编码器网络模型和装置。
技术介绍
目前,小样本机器学习解决的是在训练样本数有限的情况下,如何能够训练出更加稳定,效果更好的分类器。一般来讲,在小样本深度学习中,是有一组样本充足的基类来学习“元知识”(MetaKnowledge),然后将之泛化到小样本新类中。现有技术中,以度量学习(MetricLearning)结合深度网络端到端训练的方法取得了良好的效果。但是,深度学习一般学习出的样本高层特征没有一个分布族能够精确的描述,而且其中存在的一大不足之处是其度量函数与样本高层特征的分布并不是完全匹配的,因此造成了一定程度的精度损失。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的第一个目的在于提出一种面向小样本学习的变分自编码器网络模型,通过面向小样本学习的变分自编码器网络模型,使得学习出来的高层表征有一个分布族能够精确的描述,而且高层表征的分布与其度量函数可以完全匹配,从而提升了小样本分类的准确率。本专利技术的第二个目的在于提出一种面向小样本学习的变分自编码器网络模型的装置。为达上述目的,本专利技术第一方面实施例提出了一种面向小样本学习的变分自编码器网络模型,包括:获取样本的高层表征,根据所述高层表征通过第一神经网络采样得到隐表示,并通过第二个神经网络复原,以重构所述高层表征;根据分布参数生成每个类别分布;以及通过定义损失函数为重构误差、分类误差和隐表示分布与先验分布误差之和,以优化整个网络参数及所述每个类别分布的参数,生成变分自编码器网络模型。本专利技术实施例的面向小样本学习的变分自编码器网络模型,可以通过重构高层特征,根据分布参数生成易于分类的类别分布,然后通过损失函数进行优化整个网络参数及每个类别分布的参数,从而使得学习出来的高层表征有一个分布族能够精确的描述,而且高层表征的分布与其度量函数可以完全匹配,提升了小样本分类的准确率。其中,在本专利技术的一个实施例中,所述获取样本的高层表征,包括:通过预设深度网络结构学习得到所述样本的高层表征。进一步地,在本专利技术的一个实施例中,所述根据分布参数生成每个类别分布,包括:学习分布参数,使得不同类别样本的隐表示的间隔满足预设条件。进一步地,在本专利技术的一个实施例中,所述生成变分自编码器网络模型,包括:通过预设数量的样本描述每个新类分布的参数,以对每个测试样本提取对应的隐表示进行极大似然分类。为达上述目的,本专利技术第二方面实施例提出了一种面向小样本学习的变分自编码器网络模型的装置,包括:重构模块,用于获取样本的高层表征,根据所述高层表征通过第一神经网络采样得到隐表示,并通过第二个神经网络复原,以重构所述高层表征;分类模块,用于根据分布参数生成每个类别分布;优化模块,用于通过定义损失函数为重构误差、分类误差和隐表示分布与先验分布误差之和,以优化整个网络参数及所述每个类别分布的参数,生成变分自编码器网络模型。本专利技术实施例的面向小样本学习的变分自编码器网络模型的装置,可以通过重构高层特征,根据分布参数生成易于分类的类别分布,然后通过损失函数进行优化整个网络参数及每个类别分布的参数,从而使得学习出来的高层表征有一个分布族能够精确的描述,而且高层表征的分布与其度量函数可以完全匹配,提升了小样本分类的准确率。其中,在本专利技术的一个实施例中,所述重构模块进一步用于通过预设深度网络结构学习得到所述样本的高层表征。进一步地,在本专利技术的一个实施例中,所述分类模块进一步用于学习分布参数,使得不同类别样本的隐表示的间隔满足预设条件。进一步地,在本专利技术的一个实施例中,所述优化模块进一步用于通过预设数量的样本描述每个新类分布的参数,以对每个测试样本提取对应的隐表示进行极大似然分类。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为本专利技术实施例所提供的一种面向小样本学习的变分自编码器网络模型的流程图;图2为本专利技术实施例所提供的一种判别变分自编码器的生成式概率图模型的示意图;图3为本专利技术实施例所提供的一种判别变分自编码器的网络结构的示意图;图4为本专利技术实施例提供的一种面向小样本学习的变分自编码器网络模型的装置结构示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。下面参考附图描述本专利技术实施例的面向小样本学习的变分自编码器网络模型和装置,首先将参照附图描述根据本专利技术实施例提出的面向小样本学习的变分自编码器网络模型。图1为本专利技术实施例所提供的一种面向小样本学习的变分自编码器网络模型的流程图。如图1所示,本专利技术实施例的面向小样本学习的变分自编码器网络模型包括以下步骤:步骤101,获取样本的高层表征,根据高层表征通过第一神经网络采样得到隐表示,并通过第二个神经网络复原,以重构高层表征。在本专利技术的一个实施例中,获取样本的高层表征,包括:通过预设深度网络结构学习得到样本的高层表征。具体的,在小样本图像分类中可以通过残差卷积神经网络(ResNet)进行图像高层表征的提取,之后第一神经网络可以采用一个两层的神经元数目逐渐减小的全连接网络学习隐表示,第二神经网络可以采用一个两层的神经元数目逐渐增加的全连接网络复原高层表征。如图2、图3所示,作为本专利技术实施例一种可能实现的方式,高层表征(x)通过一个神经网络采样出一个隐表示(z),然后再通过另一个神经网络复原,学习网络参数时要既保证每类的隐表示服从预先设定好的先验分布,又保证重构误差尽可能小。步骤102,根据分布参数生成每个类别分布。在本专利技术的一个实施例中,根据分布参数生成每个类别分布,包括:学习分布参数,使得不同类别样本的隐表示的间隔满足预设条件。如图2、图3所示,具体的,每个类别(y)分布可以用对应的分布参数来表示,要学习分布参数使得不同类别样本的隐表示要尽可能间隔较大,易于分类。例如,可以用一个各维独立的同方差的正态分布或冯塞米松分布作为每个类别隐表示的先验分布,保证了深度网络更强的泛化能力。步骤103,通过定义损失函数为重构误差、分类误差和隐表示分布与先验分布误差之和,以优化整个网络参数及每个类别分布的参数,生成变分自编码器网络模型。在本专利技术的一个实施例中,重构误差为上述复原的高层表征与原始高层表征的欧式距离,分类误差为每个样本在分类任务中负的似然值,隐表示分布与先验分布误差可以用它们之间的Kullback-Leibler散度值来描述。通过加权的方式构造好损失函数之后可以用随机梯度下降的方法来优化整个网络参数与类别分布参数。需要说明的是,生成变分自编码器网络模型,包括:通过预设数量的样本描述每个新类分布的参数,以对每个测试样本提取对应的隐表示进行极大似然分类,也就是新类别可以通过使用少量样本对每个新类分布的参数进行估计来描述,之后对于每个测试样本仅需要提取出其隐表示进行极大似然本文档来自技高网...

【技术保护点】
1.一种面向小样本学习的变分自编码器网络模型,其特征在于,包括以下步骤:获取样本的高层表征,根据所述高层表征通过第一神经网络采样得到隐表示,并通过第二个神经网络复原,以重构所述高层表征;根据分布参数生成每个类别分布;以及通过定义损失函数为重构误差、分类误差和隐表示分布与先验分布误差之和,以优化整个网络参数及所述每个类别分布的参数,生成变分自编码器网络模型。

【技术特征摘要】
1.一种面向小样本学习的变分自编码器网络模型,其特征在于,包括以下步骤:获取样本的高层表征,根据所述高层表征通过第一神经网络采样得到隐表示,并通过第二个神经网络复原,以重构所述高层表征;根据分布参数生成每个类别分布;以及通过定义损失函数为重构误差、分类误差和隐表示分布与先验分布误差之和,以优化整个网络参数及所述每个类别分布的参数,生成变分自编码器网络模型。2.根据权利要求1所述的模型,其特征在于,所述获取样本的高层表征,包括:通过预设深度网络结构学习得到所述样本的高层表征。3.根据权利要求1所述的模型,其特征在于,所述根据分布参数生成每个类别分布,包括:学习分布参数,使得不同类别样本的隐表示的间隔满足预设条件。4.根据权利要求1所述的模型,其特征在于,所述生成变分自编码器网络模型,包括:通过预设数量的样本描述每个新类分布的参数,以对每个测试样本提取对应的隐表示进行极大似然分类。5...

【专利技术属性】
技术研发人员:崔鹏周琳钧杨士强
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1