【技术实现步骤摘要】
本专利技术涉及图像分类
,特别是涉及基于多任务多示例支持向量机的图像分类方法。
技术介绍
随着信息技术的进步与社交网络的长久发展,互联网上面已经存在着海量的图像,并且每天新上传到互联网上的图像数量也呈指数上升,图像所包含的场景也越来越丰富,虽然社交网站得到了长久的发展,但是网站上海量的图片却没有得到充分的利用,并且每天都会有大量新的图像上传到网站上面,如何识别出未被标记的图像,并且准确分类到对应的类别中以更好地服务网站用户,是大部分互联网公司都在研究的一个问题。一方面,由于在拍摄图像的时候可能会包含各种各样的背景元素,则会导致图像不仅仅包含一个场景,如果采用传统的单示例图像识别方法,如单示例支持向量机,可能会导致误分类。例如,在动物园拍摄景物的时候,可能会同时把不同物种拍到同一张图像,如人、马、小鸟等动物都可能会在同一张图像中。另一方面,由于互联网的开放性以及拍摄设备的多样性,同一个人的照片可能会出现在不同的社交网站上面,或者由不同设备所拍摄,或者由不同的视频所剪辑而来,把这些图片混合一起进行识别,显然是不合理的;再者,为了提高图像分类器的性能,需要大量的有标记的图像来进行分类器的训练,如果训练样本不足,则会导致分类器的性能下降,从而影响图像分类的效果。早期的图像分类都是通过人工标记的形式进行分类,但是这种方法的人工成功会非常高,在少量图像下,或许还可行,但是以互联网现在的图像产生速度,则不太可取。
技术实现思路
虽然同一类型的已标注的图像在互联网上面的数量很多,但是由于来源方式不同,例如,拍摄的设备或者储存的社交网站不同,把这些图片混合一起进行分类器 ...
【技术保护点】
一种基于多任务多示例支持向量机的图像分类方法,其特征在于,包括如下步骤:第一步、获取若干组的图像,并且保证每组图像的数量不多,以组为单位,建立若干个学习任务,并且以人工标记的形式,进行图像的人工分类;第二步、把所有学习任务的所有图像,转换为多示例数据;第三步、在每个多示例学习任务中,为每个图像类别构建一个相关联的多示例包,该多示例包称为类包,并且建立类包中的示例到多示例包的欧式距离公式;第四步、构建类包到多示例包的示例距离向量,从而建立类包到多示例包的加权欧式距离公式;第五步、建立约束,保证多示例包到所属类别的距离要远远小于到其他类别的距离;第六步、建立多任务多示例支持向量机的优化问题;第七步、转换第六步的多任务多示例支持向量机优化问题为一个类似单任务单示例支持向量机的优化问题;第八步、求解第七步的支持向量机优化问题,可以获得最优化的权值,从而训练出一个基于多任务多示例支持向量机的图像分类器,进行图像的分类。
【技术特征摘要】
1.一种基于多任务多示例支持向量机的图像分类方法,其特征在于,包括如下步骤:第一步、获取若干组的图像,并且保证每组图像的数量不多,以组为单位,建立若干个学习任务,并且以人工标记的形式,进行图像的人工分类;第二步、把所有学习任务的所有图像,转换为多示例数据;第三步、在每个多示例学习任务中,为每个图像类别构建一个相关联的多示例包,该多示例包称为类包,并且建立类包中的示例到多示例包的欧式距离公式;第四步、构建类包到多示例包的示例距离向量,从而建立类包到多示例包的加权欧式距离公式;第五步、建立约束,保证多示例包到所属类别的距离要远远小于到其他类别的距离;第六步、建立多任务多示例支持向量机的优化问题;第七步、转换第六步的多任务多示例支持向量机优化问题为一个类似单任务单示例支持向量机的优化问题;第八步、求解第七步的支持向量机优化问题,可以获得最优化的权值,从而训练出一个基于多任务多示例支持向量机的图像分类器,进行图像的分类。2.根据权利要求1所述的基于多任务多示例支持向量机的图像分类方法,其特征在于,第三步中,在每个多示例学习任务中,为每个图像类别构建一个相关联的多示例包,该多示例包称为类包,并且建立类包中的示例到多示例包的欧式距离公式具体为:不同于传统的直接关注图像与图像之间距离的多示例方法,,把每个类别的所有图像组合在一起,建立一个类级别的多示例包,简称为类包,建立类包中的示例到多示例包的欧式距离公式,如下: Dist t ( c k t j , B i t ) = 1 n k t ( c k t j , b ‾ i t ) T ( c k t j , b ‾ i t ) ]]>其中,示例是类包Ckt的第j个示例,是多示例包Bit的中心,nkt是类包Ckt的示例个数。3.根据权利要求2所述的基于多任务多示例支持向量机的图像分类方法,其特征在于,第四步中,构建类包到多示例包的示例距离向量,从而建立类包到多示例包的加权欧式距离公式,在第三步中,可以求得每个类包示例到多示例包的距离大小,以该距离大小为向量元素,建立类包到多示例包的示例距离向量,则第t个任务的第k个类别到第i个多示例包的示例距离向量如下: d k i t = [ Dist t ( c k t 1 , B i t ) , ... , Dist t ( c k t j , B i t ) , ... , Dist t ( c k t nk t , B i t ) ] T ]]>建立一个与示例距离向量等长度的权值向量Wkt,该权值向量定义如下: w k t = [ w k t 1 , ... , w k t j , ... , w k t n k t ] T ]]>将示例距离向量与权值向量Wkt相乘,则可以得到类包到多示例包的加权欧式距离公式: Dist t ( C k t , B i t ) = w k t d k i t . ]]>4.根据权利要求3所述的基于多任务多示例支持向量机的图像分类方法,其特征在于,第五步中,建立约束,保证多示例包到所属类别的距离要远远小于到其他类别的距离,建立以下约束: ∀ p ∈ P t ( B i t ) , ∀ n ∈ N t ( B i t ) : w n t d n i t - w p t d p i t ≥ 1 - ξ i p n t ]]>上式中,Pt(Bit)为多示例包Bit所属的类别集合,Nt(Bit)为与多示例包Bit无关的类别集合,为误差项,该约束保证了类别n到多示例包Bit的距离要大于类别p到多示例包Bit的距离。5.根据权利要求4所述的基于多任务多示例支持向量机的图像分类方法,其特征在于,第六步中,建立多任务多示例支持向量机的优化问题。在第t个任务中,把所有类别的权值向量组成一个向量Wt,如下: w t = [ w 1 t T , ... , w k t T , ... , w K t T ] T ]]>相应的,构建一个等长的向量向量由和组成,该向量的其他位置填充0,所以可以把第五步中所建立的约束转换为如下的形式: ∀ p ∈ P t ( B i t ) , ∀ n ∈ N t ( B i t ) : w t d i p n t ≥ 1 - ξ i p n t ]]>基于该约束,把Wt转换为多任务学习的形式,即Wt=W0+vt,W0被认为是所有任务共享的公共权值系数,而vt是每个任务所则独享的权值系数,为此建立一个多任务多示例支持向量机的优化问题,如下: min Tγ 0 | | w 0 | | 2 + γ 1 Σ t = 1 ...
【专利技术属性】
技术研发人员:阮奕邦,肖燕珊,刘波,郝志峰,黎启祥,
申请(专利权)人:广东工业大学,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。