【技术实现步骤摘要】
一种多类图像半监督分类方法及系统
本申请涉及数据挖掘、机器学习及模式分类
,特别是涉及一种多类图像半监督分类方法及系统。
技术介绍
随着信息和数据爆炸时代的到来,分类技术成为数据挖掘、模式识别等领域中最重要的研究课题之一。分类主要实现未知类别的数据的归类,在医疗数据分析、信用卡的信用分级和图像分类等领域有着重大的意义,一旦研究成功并投入应用,将产生巨大的社会和经济效益。但是真实世界中的数据(例如互联网中的图像)大多是无类别标签的,且样本的人工标定过程非常费时费力且昂贵,使得数据的准确分类有一定难度。最近,基于相似图构造的半监督学习方法在数据挖掘和模式分类等相关领域已经兴起成为强大而流行的有效工具。基于真实世界中的数据特点,半监督学习主要通过有标定样本的类别,和有标签与无标签样本间的相似性,揭示出无标签样本的类别。近年来,由于基于标签传播理论的学习过程具有简单有效、快速等优点,故已成为半监督学习的典型代表之一。作为一种基于图的半监督学习方法,标签传播根据有标签和无标签样本间的内在关联信息,将有标签样本的标签信息传播给无标签样本,完成无标签样本的类别估计。标签传播用于半监督分类的思想于2002年由Zhu等人提出,因其效率高、复杂度低等优点引起国内外学者广泛关注,并逐渐被证实为一种简单、速度极快、可扩展性强、性能较为稳定的算法,并被广泛的运用在许多领域,如社交网络中的社会关系分析、多媒体信息检索分类等。经典的标签传播算法包括GFHF、LLGC、LNP和SLP等。目前几乎所有的研究都着眼于改进相似图的构建来提高分类性能,也取得了一些成绩。但是现有方法仍有一些 ...
【技术保护点】
一种多类图像半监督分类方法,其特征在于,包括:对训练集中的有标签图像样本和无标签图像样本进行相似性学习,构造相似近邻图,计算得到权重系数矩阵,并对所述权重系数矩阵进行对称化、归一化处理;根据所述训练集中有标签图像样本的类别标签信息,初始化一个类标签矩阵,其中,所述类标签矩阵中额外添加第(c+1)类用于检测异类/未发现的新颖类,c为有标签图像样本的总类别数;引入l2,1‑范数正则化技术,非负约束,以及列和为1的约束,并基于所述类标签矩阵及对称化、归一化处理后的权重系数矩阵进行非负稀疏标签传播的迭代过程,得到“软类别标签”预测矩阵;根据所述“软类别标签”预测矩阵表征的相似性概率,预测所述训练集中无标签图像样本的准确类别,得到直推式图像分类结果,训练完成半监督分类建模,生成训练模型;利用所述训练模型对测试集中的无标签待分类的图像样本进行类别信息的预测,得到所述测试集中的无标签待分类的图像样本的类别标签,以实现对训练集以外数据的归纳过程。
【技术特征摘要】
1.一种多类图像半监督分类方法,其特征在于,包括:对训练集中的有标签图像样本和无标签图像样本进行相似性学习,构造相似近邻图,计算得到权重系数矩阵,并对所述权重系数矩阵进行对称化、归一化处理;根据所述训练集中有标签图像样本的类别标签信息,初始化一个类标签矩阵,其中,所述类标签矩阵中额外添加第c+1类用于检测异类/未发现的新颖类,c为有标签图像样本的总类别数;引入l2,1-范数正则化技术,非负约束,以及列和为1的约束,并基于所述类标签矩阵及对称化、归一化处理后的权重系数矩阵进行非负稀疏标签传播的迭代过程,得到“软类别标签”预测矩阵;根据所述“软类别标签”预测矩阵表征的相似性概率,预测所述训练集中无标签图像样本的准确类别,得到直推式图像分类结果,训练完成半监督分类建模,生成训练模型;利用所述训练模型对测试集中的无标签待分类的图像样本进行类别信息的预测,得到所述测试集中的无标签待分类的图像样本的类别标签,以实现对训练集以外数据的归纳过程;其中,所述对训练集中的有标签图像样本和无标签图像样本进行相似性学习,构造相似近邻图,计算得到权重系数矩阵,对所述权重系数矩阵进行对称化、归一化处理的过程为:基于所述训练集进行K最近邻搜索,构造近邻图G,找出所述训练集中每个图像样本的K个最近邻的图像样本,所述训练集中的图像样本包括有标签图像样本和无标签图像样本;采用LocallyLinearEmbedding,LLE-重构权的构造方法,计算、衡量近邻图G中的顶点之间的相似性,构造权重系数矩阵;将所述权重系数矩阵进行各行求和得到一个对角矩阵,其中,所述对角矩阵中的对角元素表征各个顶点在图中的重要性;将所述权重系数矩阵对称化处理后,利用所述对角矩阵对其进行归一化处理,得到归一化后的权重系数矩阵。2.根据权利要求1所述的方法,其特征在于,所述训练集和测试集的生成过程为:接收图像样本集合,并将图像进行向量化描述;从进行向量化描述后的图像样本集合中选出部分图像样本数据作为训练集,其余的图像样本数据作为测试集,其中,所述训练集中包含少量有标签图像样本和适量的无标签图像样本,所述测试集中包含大量无标签的待分类图像样本。3.根据权利要求1所述的方法,其特征在于,所述根据所述训练集中有标签图像样本的类别标签信息,初始化一个类标签矩阵的过程为:初始化定义一个行、列数分别为c+1和N的类标签矩阵Y来表征所述训练集中所有图像样本的原始标签信息,其中,所述类标签矩阵Y中的所有元素均初始化为0;N是图像样本的总数;对有标签图像样本,若有标签图像样本xj属于第i类,令Y(i,j)=1,其中类别标签i属于集合{1,2,…,c};对于无标签图像样本,若无标签图像样本xj属于第c+1类,令Y(i,j)=1,即上述的异类或未发现的新颖类样本。4.根据权利要求3所述的方法,其特征在于,所述引入l2,1-范数正则化技术,非负约束,以及列和为1的约束,并基于所述类标签矩阵及权重系数矩阵进行非负稀疏标签传播的迭代过程,得到“软类别标签”预测矩阵的过程为:对标签传播算法加入l2,1-范数正则化约束,非负约束,以及列和为一约束,保证基于所述类标签矩阵及权重系数矩阵进行非负稀疏标签传播的迭代过程中,传播的标签信息总是非负和足够稀疏的,其中,非负约束具体为:“软类别标签”预测标签矩阵F=[f1,f2,…,fN]中的元素总是非负的,满足任意fi≥0;列和为一约束具体为:对F中的任意一个fi,满足eTfi=1;通过迭代过程,图像样本的标签信息得以充分传播,相邻顶点具有相似的标签信息,结果以“软类别标签”形式的预测标签矩阵输出,其中,各列fi中的元素即为图像样本属于各...
【专利技术属性】
技术研发人员:张召,梁雨宸,李凡长,张莉,
申请(专利权)人:苏州大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。