基于多任务多示例支持向量机的图像分类方法技术

技术编号:14013343 阅读:111 留言:0更新日期:2016-11-17 14:59
本发明专利技术公开了一种基于多任务多示例支持向量机的图像分类方法。该方法包括:为T组图像建立T个学习任务;对T个学习任务的图像进行多示例化;为T个任务中的每个类别的图像构建一个类包;建立类包中的示例到多示例包的欧式距离公式;构建类包到多示例包的示例距离向量;建立类包到多示例包的加权欧式距离公式;约束多示例包到所属类别的距离小于到其他类别的距离;建立多任务多示例支持向量机的优化问题;转换优化问题为传统单任务单示例支持向量机问题;求解支持向量机优化问题。本发明专利技术涉及了一种最优化加权欧式距离公式的方法,通过把图像示例化,建立多任务多示例支持向量机学习问题,从而最优化出理想权值,从而提高图像分类器的性能。

【技术实现步骤摘要】

本专利技术涉及图像分类
,特别是涉及基于多任务多示例支持向量机的图像分类方法
技术介绍
随着信息技术的进步与社交网络的长久发展,互联网上面已经存在着海量的图像,并且每天新上传到互联网上的图像数量也呈指数上升,图像所包含的场景也越来越丰富,虽然社交网站得到了长久的发展,但是网站上海量的图片却没有得到充分的利用,并且每天都会有大量新的图像上传到网站上面,如何识别出未被标记的图像,并且准确分类到对应的类别中以更好地服务网站用户,是大部分互联网公司都在研究的一个问题。一方面,由于在拍摄图像的时候可能会包含各种各样的背景元素,则会导致图像不仅仅包含一个场景,如果采用传统的单示例图像识别方法,如单示例支持向量机,可能会导致误分类。例如,在动物园拍摄景物的时候,可能会同时把不同物种拍到同一张图像,如人、马、小鸟等动物都可能会在同一张图像中。另一方面,由于互联网的开放性以及拍摄设备的多样性,同一个人的照片可能会出现在不同的社交网站上面,或者由不同设备所拍摄,或者由不同的视频所剪辑而来,把这些图片混合一起进行识别,显然是不合理的;再者,为了提高图像分类器的性能,需要大量的有标记的图像来进行分类器的训练,如果训练样本不足,则会导致分类器的性能下降,从而影响图像分类的效果。早期的图像分类都是通过人工标记的形式进行分类,但是这种方法的人工成功会非常高,在少量图像下,或许还可行,但是以互联网现在的图像产生速度,则不太可取。
技术实现思路
虽然同一类型的已标注的图像在互联网上面的数量很多,但是由于来源方式不同,例如,拍摄的设备或者储存的社交网站不同,把这些图片混合一起进行分类器的训练是不合理的,但是根据来源形式来进行分组训练,则可能会遇到训练样本不足从而导致分类器的精度下降等问题,所以可以采用多任务的形式,把若干组图片同时进行训练,并且利用每组图片的相关性来提高每组图片分类器的性能。而且由于图像含有多个场景,把图像看成单示例来进行处理,则会忽略掉多个场景的相关性,此时可以采用多示例学习方法,把一个图像看成多个示例。本专利技术的基于多任务多示例支持向量机的图像分类方法包括如下步骤:(1)获取若干组的图像,并且保证每组图像的数量不多,以组为单位,建立若干个学习任务,并且以人工标记的形式,进行图像的人工分类。(2)把所有学习任务的所有图像,转换为多示例数据。(3)在每个多示例学习任务中,为每个图像类别构建一个相关联的多示例包,该多示例包在本专利技术中称为类包,并且建立类包中的示例到多示例包的欧式距离公式。(4)构建类包到多示例包的示例距离向量,从而建立类包到多示例包的加权欧式距离公式。(5)建立约束,保证多示例包到所属类别的距离要远远小于到其他类别的距离。(6)建立多任务多示例支持向量机的优化问题。(7)转换步骤(6)的多任务多示例支持向量机优化问题为一个类似单任务单示例支持向量机的优化问题。(8)求解步骤(7)的支持向量机优化问题,可以获得最优化的权值,从而训练出一个基于多任务多示例支持向量机的图像分类器,进行图像的分类。附图说明图1为本专利技术的基于最大间距多任务多示例学习的网页分类方法的流程图。具体实施方式本专利技术的基于多任务多示例支持向量机的图像分类方法包括如下步骤:第一步,获取若干组的图像,并且保证每组图像的数量不多,以组为单位,建立若干个学习任务,并且以人工标记的形式,进行图像的人工分类。例如,如果存在T组图像,则建立T个图像分类器学习任务,而且由于T个任务的图像数量都不多,可以进行人工标记。第二步,把所有学习任务的所有图像,转换为多示例数据。由于图像含有多个场景,而在分类的时候,只需要其中的一个关键场景,所以此时把整个图像转换为一个单示例来进行分类,可能会忽略掉多个场景的相关性,导致分类效果变差,所以此时可以采用多示例学习方法来进行图像分类。采用多示例学习方法之前,需要对图像进行多示例数据化,可以采用经典的图像切割方法,如本专利技术采用的Blobworld System,来进行图像的区域化,此时对每个图像区域进行特征提取,从而使该图像区域转换为一个示例。一个图像含有多个区域,则可以转换为多个示例,此时一张图像可以称为一个多示例包。第三步,在每个多示例学习任务中,为每个图像类别构建一个相关联的多示例包,该多示例包在本专利技术中称为类包,并且建立类包中的示例到多示例包的欧式距离公式。不像传统的多示例方法,本专利技术不直接关注图像与图像之间的距离,而是把每个类别的所有图像组合在一起,建立一个类级别的多示例包,简称为类包,并且建立类包中的示例到多示例包的欧式距离公式,如下: Dist t ( c kt j , B it ) = 1 n kt ( c kt j , b - it ) T ( c kt i , b - it ) ]]>在上式中,示例是类包Ckt的第j个示例,是多示例包Bit的中心。nkt是类包Ckt的示例个数。第四步,构建类包到多示例包的示例距离向量,从而建立类包到多示例包的加权欧式距离公式。在第三步中,可以求得每个类包示例到多示例包的距离大小,以该距离大小为向量元素,建立类包到多示例包的示例距离向量,则第t个任务的第k个类别到第i个多示例包的示例距离向量如下: d k i t = [ Dist t ( c k t 1 , B i t ) , ... , Dist t 本文档来自技高网...
基于多任务多示例支持向量机的图像分类方法

【技术保护点】
一种基于多任务多示例支持向量机的图像分类方法,其特征在于,包括如下步骤:第一步、获取若干组的图像,并且保证每组图像的数量不多,以组为单位,建立若干个学习任务,并且以人工标记的形式,进行图像的人工分类;第二步、把所有学习任务的所有图像,转换为多示例数据;第三步、在每个多示例学习任务中,为每个图像类别构建一个相关联的多示例包,该多示例包称为类包,并且建立类包中的示例到多示例包的欧式距离公式;第四步、构建类包到多示例包的示例距离向量,从而建立类包到多示例包的加权欧式距离公式;第五步、建立约束,保证多示例包到所属类别的距离要远远小于到其他类别的距离;第六步、建立多任务多示例支持向量机的优化问题;第七步、转换第六步的多任务多示例支持向量机优化问题为一个类似单任务单示例支持向量机的优化问题;第八步、求解第七步的支持向量机优化问题,可以获得最优化的权值,从而训练出一个基于多任务多示例支持向量机的图像分类器,进行图像的分类。

【技术特征摘要】
1.一种基于多任务多示例支持向量机的图像分类方法,其特征在于,包括如下步骤:第一步、获取若干组的图像,并且保证每组图像的数量不多,以组为单位,建立若干个学习任务,并且以人工标记的形式,进行图像的人工分类;第二步、把所有学习任务的所有图像,转换为多示例数据;第三步、在每个多示例学习任务中,为每个图像类别构建一个相关联的多示例包,该多示例包称为类包,并且建立类包中的示例到多示例包的欧式距离公式;第四步、构建类包到多示例包的示例距离向量,从而建立类包到多示例包的加权欧式距离公式;第五步、建立约束,保证多示例包到所属类别的距离要远远小于到其他类别的距离;第六步、建立多任务多示例支持向量机的优化问题;第七步、转换第六步的多任务多示例支持向量机优化问题为一个类似单任务单示例支持向量机的优化问题;第八步、求解第七步的支持向量机优化问题,可以获得最优化的权值,从而训练出一个基于多任务多示例支持向量机的图像分类器,进行图像的分类。2.根据权利要求1所述的基于多任务多示例支持向量机的图像分类方法,其特征在于,第三步中,在每个多示例学习任务中,为每个图像类别构建一个相关联的多示例包,该多示例包称为类包,并且建立类包中的示例到多示例包的欧式距离公式具体为:不同于传统的直接关注图像与图像之间距离的多示例方法,,把每个类别的所有图像组合在一起,建立一个类级别的多示例包,简称为类包,建立类包中的示例到多示例包的欧式距离公式,如下: Dist t ( c k t j , B i t ) = 1 n k t ( c k t j , b ‾ i t ) T ( c k t j , b ‾ i t ) ]]>其中,示例是类包Ckt的第j个示例,是多示例包Bit的中心,nkt是类包Ckt的示例个数。3.根据权利要求2所述的基于多任务多示例支持向量机的图像分类方法,其特征在于,第四步中,构建类包到多示例包的示例距离向量,从而建立类包到多示例包的加权欧式距离公式,在第三步中,可以求得每个类包示例到多示例包的距离大小,以该距离大小为向量元素,建立类包到多示例包的示例距离向量,则第t个任务的第k个类别到第i个多示例包的示例距离向量如下: d k i t = [ Dist t ( c k t 1 , B i t ) , ... , Dist t ( c k t j , B i t ) , ... , Dist t ( c k t nk t , B i t ) ] T ]]>建立一个与示例距离向量等长度的权值向量Wkt,该权值向量定义如下: w k t = [ w k t 1 , ... , w k t j , ... , w k t n k t ] T ]]>将示例距离向量与权值向量Wkt相乘,则可以得到类包到多示例包的加权欧式距离公式: Dist t ( C k t , B i t ) = w k t d k i t . ]]>4.根据权利要求3所述的基于多任务多示例支持向量机的图像分类方法,其特征在于,第五步中,建立约束,保证多示例包到所属类别的距离要远远小于到其他类别的距离,建立以下约束: ∀ p ∈ P t ( B i t ) , ∀ n ∈ N t ( B i t ) : w n t d n i t - w p t d p i t ≥ 1 - ξ i p n t ]]>上式中,Pt(Bit)为多示例包Bit所属的类别集合,Nt(Bit)为与多示例包Bit无关的类别集合,为误差项,该约束保证了类别n到多示例包Bit的距离要大于类别p到多示例包Bit的距离。5.根据权利要求4所述的基于多任务多示例支持向量机的图像分类方法,其特征在于,第六步中,建立多任务多示例支持向量机的优化问题。在第t个任务中,把所有类别的权值向量组成一个向量Wt,如下: w t = [ w 1 t T , ... , w k t T , ... , w K t T ] T ]]>相应的,构建一个等长的向量向量由和组成,该向量的其他位置填充0,所以可以把第五步中所建立的约束转换为如下的形式: ∀ p ∈ P t ( B i t ) , ∀ n ∈ N t ( B i t ) : w t d i p n t ≥ 1 - ξ i p n t ]]>基于该约束,把Wt转换为多任务学习的形式,即Wt=W0+vt,W0被认为是所有任务共享的公共权值系数,而vt是每个任务所则独享的权值系数,为此建立一个多任务多示例支持向量机的优化问题,如下: min Tγ 0 | | w 0 | | 2 + γ 1 Σ t = 1 ...

【专利技术属性】
技术研发人员:阮奕邦肖燕珊刘波郝志峰黎启祥
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1