一种基于多模态字典学习的零样本分类方法,包括:建立多模态字典学习模型;利用多模态字典学习模型学习字典矩阵D和兼容矩阵V;利用学习到的字典矩阵D和兼容矩阵V实现零样本分类。本发明专利技术的一种基于多模态字典学习的零样本分类方法,利用训练样本学习一个类别共享的字典矩阵将样本嵌入到一个由字典原子张成的隐空间中,并利用样本在隐空间中嵌入向量,样本对应的类别语义向量以及类别之间的对应关系学习一种联合嵌入模型。
【技术实现步骤摘要】
本专利技术涉及一种面向计算机视觉领域的零样本分类技术。特别是涉及一种将字典学习用于零样本分类的基于多模态字典学习的零样本分类方法。
技术介绍
与传统的机器学习方法不同,人类具有推断未知类别的能力,如:从未见过“斑马”的人能根据“斑马”的描述信息“斑马是与马相似,身上有黑边相间条纹的动物”对斑马进行识别。受人类推断能力的启发,零样本分类的目标能够对训练阶段未出现过的类别进行分类和预测。因此解决零样本分类的关键问题有两点:一是寻找一种有效的类别描述信息对未见过的类别进行表征;二是挖掘视觉特征和类别描述信息之间的匹配关系。针对问题一:研究者们提出了不同的类别描述信息对类别进行表征,如属性特征,类别文本描述特征等。针对问题二:因为样本的视觉特征和类别的语义特征分布在不同模态空间中,因此零样本分类可以看作是多模态学习的一种具体应用,基于多模态学习的零样本分类的基本框架为:在训练阶段,利用训练样本学习视觉特征和类别语义特征之间的映射关系,将样本从视觉空间转移到类别语义空间或者将不同模态空间中的特征转移到一个公共空间中。在测试阶段利用学习到的映射关系将样本嵌入到类别语义空间或者是公共空间中,根据样本对应的嵌入向量和类别对应的嵌入语义向量之间的关系,利用最近邻分类器进行分类。传统的零样本分类的性能很大程度上依赖类别语义信息的表征能力,而类别语义信息的获取过程与视觉样本的训练过程是独立的,因此获取的类别语义信息并不能保证充分地表征类别的语义。以斑马的语义表征“斑马是与马相似,身上有黑边相间条纹的动物”为例,类别的语义信息只是提供了基本的类别信息,并不能提供充分地判别信息;另一方面,类别语义信息是概括的类别表征,因此并不能充分地表征类内样本之间的变化,以“狮子”和“尾巴”为例,“尾巴”是标注“狮子”的属性之一,而“狮子”的训练样本中有的样本有“尾巴”,但有的“样本”没有尾巴,因此如何判定类别语义特征和样本之间的关系也是零样本分类需要解决的问题之一。
技术实现思路
本专利技术所要解决的技术问题是,提供一种能够实现不同模态的特征到类别空间之间转移的一种基于多模态字典学习的零样本分类方法。本专利技术所采用的技术方案是:一种基于多模态字典学习的零样本分类方法,包括如下步骤:1)建立多模态字典学习模型:其中,表示来自M个类别的m个样本,D为字典矩阵,CS表示训练样本XS在隐空间中的表征,V为兼容矩阵,表示M个类别的类别语义矩阵,α,β表示权重系数,||·||F表示Frobenius范数;2)利用多模态字典学习模型学习字典矩阵D和兼容矩阵V;3)利用学习到的字典矩阵D和兼容矩阵V实现零样本分类。步骤2)所述的学习包括:(1)首先固定字典矩阵D和兼容矩阵V,并对训练样本XS在隐空间中的表征CS进行优化,优化问题变为公式:所述公式是一个最小二乘优化问题,因此得到CS的显示表达式:(2)固定训练样本XS在隐空间中的表征CS,并对字典矩阵D及兼容矩阵V进行更新,通过对字典矩阵D及兼容矩阵V分别进行优化得到更新:得到兼容矩阵V的显示表达式:其中γ=β/α,I表示单位矩阵,对字典矩阵D的优化引入变量R得到优化目标函数:对字典矩阵D的优化目标函数通过交替方向乘子法进行优化;(3)重复第(1)步~第(2)步直到收敛为止。第(3)所述的收敛条件为:两次相邻迭代的变化之差小于设定的阈值。步骤3)所述的零样本分类是采用如下公式进行:其中,xt为测试样本,是所有的测试类别的类别语义特征。本专利技术的一种基于多模态字典学习的零样本分类方法,利用训练样本学习一个类别共享的字典矩阵将样本嵌入到一个由字典原子张成的隐空间中,并利用样本在隐空间中嵌入向量,样本对应的类别语义向量以及类别之间的对应关系学习一种联合嵌入模型。其优势主要体现在:(1)新颖性:提出了一种新的字典学习的框架用于解决零样本分类问题。通过训练样本学习一个字典矩阵将样本嵌入到由字典原子张成的子空间中,并学习一个联合嵌入模型实现了不同模态特征到类别之间的转移。(2)多模态性。本专利技术提出的字典学习框架能将视觉模态的特征和类别语义模态的特征嵌入到一个更具有表征能力的隐空间中,并学习一个联合嵌入框架将样本在隐空间中的嵌入特征和类别在隐空间中的嵌入特征与类别标签结合起来,实现了不同模态特征到类别的转移。(3)有效性:与传统的字典学习方法不同,本专利技术所提的算法不需要传统字典学习模型中的稀疏约束,将稀疏约束转换为一种线性描述,显著提高了训练效率,但同时能够保持利用字典学习得到的嵌入特征的表征能力。(4)实用性:简单高效,是一种有效地多模态学习方法,可以应用在多模态检索,数据挖掘,零样本分类等相关领域。附图说明图1是基于多模态字典学习的零样本分类方法的流程图;图2是多模态字典学习的算法。具体实施方式下面结合实施例和附图对本专利技术的一种基于多模态字典学习的零样本分类方法做出详细说明。本专利技术的一种基于多模态字典学习的零样本分类方法,是针对零样本分类中利用类别语义特征表达能力差的问题提出的一种将字典学习用于零样本分类的基本框架,其主要思想是利用训练样本学习一个共享字典矩阵将样本从视觉空间映射到由字典原子张成的隐式空间中,每一个字典原子表示一种隐式的属性特征,样本的在隐空间中的嵌入特征对类内样本的变化更具有鲁邦性。并且利用训练样本在隐空间中的表征,样本对应的类别语义特征以及类别标签之间的对应关系学习一个联合嵌入框架将视觉模态和类别语义模态的信息转移到类别空间中。如图1所示,本专利技术的一种基于多模态字典学习的零样本分类方法,包括如下步骤:1)建立多模态字典学习模型:其中,表示来自M个类别的m个样本,D为字典矩阵,CS表示训练样本XS在隐空间中的表征,V为兼容矩阵,表示M个类别的类别语义矩阵,α,β表示权重系数,||·||F表示Frobenius范数;2)利用多模态字典学习模型学习字典矩阵D和兼容矩阵V;利用学习到的字典矩阵D可以将样本嵌入到一个由字典原子张成的隐空间中,同时学习到兼容矩阵V可以将CS和AS联合嵌入到YS空间中。需要指出的是,公式(1)中对字典矩阵D和兼容矩阵V及训练样本XS在隐空间中的表征CS的优化问题是非凸的,但对单个参数的优化是凸优化问题,因此本专利技术提出了一种解决此问题的迭代优化方法。所述的学习如图2所示,包括:(1)首先固定字典矩阵D和兼容矩阵V,并对训练样本XS在隐空间中的表征CS进行优化,优化问题变为公式:所述公式是一个最小二乘优化问题,因此得到CS的显示表达式:(2)固定训练样本XS在隐空间中的表征CS,并对字典矩阵D及兼容矩阵V进行更新,因为D和V是相互独立的,因此,通过对字典矩阵D及兼容矩阵V分别进行优化得到更新:得到兼容矩阵V的显示表达式:其中γ=β/α,I表示单位矩阵,对字典矩阵D的优化引入变量R得到优化目标函数:对字典矩阵D的优化目标函数通过交替方向乘子法(ADMM)进行优化;(3)重复第(1)步~第(2)步直到收敛为止。所述的收敛条件为:两次相邻迭代的变化之差小于设定的阈值,如0.01。3)利用学习到的字典矩阵D和兼容矩阵V实现零样本分类,在测试阶段,利用学习到的兼容矩阵可以将类别语义特征嵌入到隐空间中,给定测试样本,利用学习到的字典矩阵将样本嵌入到隐空间中,根据样本在隐空间中的特征表征与本文档来自技高网...
【技术保护点】
一种基于多模态字典学习的零样本分类方法,其特征在于,包括如下步骤:1)建立多模态字典学习模型:{D*,CS*,V*}=argminD,CS,V||XS-DCS||F2+α||CSTVAS-YS||F2+β||VAS||F2,s.t.||di||22≤1---(1)]]>其中,表示来自M个类别的m个样本,D为字典矩阵,CS表示训练样本XS在隐空间中的表征,V为兼容矩阵,表示M个类别的类别语义矩阵,α,β表示权重系数,||·||F表示Frobenius范数;2)利用多模态字典学习模型学习字典矩阵D和兼容矩阵V;3)利用学习到的字典矩阵D和兼容矩阵V实现零样本分类。
【技术特征摘要】
1.一种基于多模态字典学习的零样本分类方法,其特征在于,包...
【专利技术属性】
技术研发人员:冀中,于云龙,
申请(专利权)人:天津大学,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。