本实施例公开了一种基于特征迁移的集成分类方法及系统,用以解决现有集成方法海量数据运算以及准确度不高的问题,其中,该方法包括步骤:选取基础模型并利用所述基础模型的迁移特征对预训练模型进行特征迁移的提取;基于所述提取的迁移特征对所述预训练模型的分类任务进行训练,同时根据所述预训练模型的不同构建新的特征上层的基分类器,获得多个基分类器;对所述多个基分类器进行集成;提取所述预训练模型的特征,并利用所述集成的基分类器对所述特征进行集成分类。本发明专利技术通过集成少数几个基于特征迁移而训练得到的基分类器,无需进行大量运算,进而在少量的时间与空间开销代价下,达到提高分类准确率的目的。
【技术实现步骤摘要】
一种基于特征迁移的集成分类方法及系统
本专利技术涉及数据分类
,尤其涉及一种基于特征迁移的集成分类方法及系统。
技术介绍
集成分类(ensembleclassification)方法,是指通过适当的组合多个性能较低的弱分类器,进而构成高性能的强分类器的方法,它的基本思想是:对于一个复杂问题来说,将多个专家的判断进行适当的综合得出的判断,要比其中任何一个专家单独的判断好。正是基于这样一种简单的思想,集成分类方法可获得比单一分类器有显著优越的泛化性能。有关集成分类方法的研究,一直是机器学习领域的热点。特征迁移是指在一个特定的机器学习任务(如图像分类)中学习到的有关该任务领域的数据的特征表达,可以直接迁移到另一个近似或类似的任务中,且只需要对上层分类器的参数进行调整,就能够获得很好的性能。与特征迁移有联系的另一个术语是“迁移学习,其表达的是一个更广的范畴,迁移学习不仅可以对上层分类器的参数进行调整,还可以对用于表述特征表达的基础模型的若干参数进行调整,而且对于选择那些参数进行调整也有不同的策略。基于这种定义可以了解到,特征迁移其实是迁移学习的一个子集。目前集成分类方法根据单个分类器的生成方式大致可分为两大类:第一类是基于“Boosting”(提升)的方法,其中的代表是“AdaptBoost”,这类方法中的单个分类器之间存在比较强的依赖关系,需以串行的方式生成各个弱分类器;第二类是基于“Bagging”(重采样)的方法,其中的代表是“RandomForest”,这类方法中的单分类器之间不存在依赖关系,因此可以以并行的方式生成各个分类器。Boosting提升方法通过改变训练样本的权重来改变样本的分布,使得分类器聚集在那些比较难分类的样本上,加强对那些容易错分的样本进行学习。这种加强学习的方式是通过增加错误分类样本的权重来完成的,这样错误分类的样本在下一轮的迭代中就有更大的作用。Bagging重采样方法,通过对原始数据进行有放回的抽样,构建出多个样本数据集,然后用这些新的数据集训练多个分类器。由于是有放回的采样,因此一些样本可能会出现多次,而其它样本则会被忽略。该方法是通过简化基分类器,进而来改善整体模型的泛化能力的。因此,Bagging方法的性能是依赖于基分类器的稳定性的,如果基分类器是不稳定的,Bagging则有助于减低因训练数据的扰动而导致的误差,但是如果基分类器是稳定的,即对数据不敏感,那么Bagging方法对性能就没有提升,甚至可能会降低。但是,基于Boosting或Bagging的集成方法一般需要集成成千上万个基分类器才能够满足一定的精度,因此在数据特征维度较高的情况下,训练或预测阶段的时间或空间代价会比较大。
技术实现思路
本专利技术的目的是针对现有技术的缺陷,提供一种基于特征迁移的集成分类方法及系统,解决现有集成方法海量数据运算以及准确度不高的问题。为了实现以上目的,本专利技术采用以下技术方案:一种基于特征迁移的集成分类方法,包括步骤:选取基础模型并利用所述基础模型的迁移特征对预训练模型进行特征迁移的提取;基于所述提取的迁移特征对所述预训练模型的分类任务进行训练,同时根据所述预训练模型的不同构建新的特征上层的基分类器,获得多个基分类器;对所述多个基分类器进行集成;提取所述预训练模型的特征,并利用所述集成的基分类器对所述特征进行集成分类。优选的,所述对预设训练模型进行特征迁移的提取具体为:利用预设定领域中已训练完成的模型作为特征迁移的基础模型。优选的,还包括步骤:在训练过程中对新构造的基分类器进行调整。优选的,通过平均加权的方式对所述多个基分类器进行集成,具体为:其中,N表示基分类器的数量,Vlensemble(维度为l)表示分类器的输出向量,上标表示分类器的标志,下标表示向量中元素的位置,N表示基分类器的数量,通过对V中的每一维度Vl均采用式Vlensemble进行集成,得到一个与基分类器输出一样维度的向量Vensemble。优选的,还包括步骤:选择不同数量的所述多个基分类器进行集成;根据所述不同数量的基分类器的集成分类结果确定所述预训练模型需要的基分类器集成数量。相应的,还提供一种基于特征迁移的集成分类系统,包括:特征提取模块,用于选取基础模型并利用所述基础模型的迁移特征对预训练模型进行特征迁移的提取;基分类器训练模块,用于基于所述提取的迁移特征对所述预训练模型的分类任务进行训练,同时根据所述预训练模型的不同构建新的特征上层的基分类器,获得多个基分类器;基分类器集成模块,用于对所述多个基分类器进行集成;集成分类模块,用于提取所述预训练模型的特征,并利用所述集成的基分类器对所述特征进行集成分类。优选的,所述特征提取模块包括:选取单元,用于选取预设定领域中已训练完成的模型作为特征迁移的基础模型。优选的,还包括:调整模块,用于在训练过程中对新构造的基分类器进行调整。优选的,通过平均加权的方式对所述多个基分类器进行集成,具体为:其中,N表示基分类器的数量,Vlensemble(维度为l)表示分类器的输出向量,上标表示分类器的标志,下标表示向量中元素的位置;通过对V中的每一维度Vl均采用式Vlensemble进行集成,得到一个与基分类器输出一样维度的向量Vensemble。优选的,还包括:选择模块,用于选择不同数量的所述多个基分类器进行集成;确定模块,用于根据所述不同数量的基分类器的集成分类结果确定所述预训练模型需要的基分类器集成数量。与现有技术相比,本专利技术通过集成少数几个基于特征迁移而训练得到的基分类器,进而在少量的时间与空间开销代价下,达到提高分类准确率的目的,且适用性强,用于提取迁移特征的基础模型是不受限制的,任何可能的迁移模型均适合本方案。附图说明图1为实施例一提供的一种基于特征迁移的集成分类方法流程图;图2为实施例一提供的一种基于特征迁移的集成分类系统结构图;图3为实施例二提供的一种基于特征迁移的集成分类方法流程图;图4为实施例二提供的一种基于特征迁移的集成分类系统结构图。具体实施方式以下是本专利技术的具体实施例并结合附图,对本专利技术的技术方案作进一步的描述,但本专利技术并不限于这些实施例。实施例一本实施例公开了一种基于特征迁移的集成分类方法,如图1所示,包括步骤:S101、选取基础模型并利用所述基础模型的迁移特征对预训练模型进行特征迁移的提取;S102、基于所述提取的迁移特征对所述预训练模型的分类任务进行训练,同时根据所述预训练模型的不同构建新的特征上层的基分类器,获得多个基分类器;S103、对所述多个基分类器进行集成;S104、提取所述预训练模型的特征,并利用所述集成的基分类器对所述特征进行集成分类。目前的集成分类方法中基于Boosting或Bagging的集成方法一般需要集成成千上万个基分类器才能够满足一定的精度,因此在数据特征维度较高的情况下,训练或预测阶段的时间或空间代价会比较大。本实施例通过集成少数几个基于特征迁移而训练得到的基分类器,进而在少量的时间与空间开销代价下,达到提高分类准确率的目的:步骤S101选取基础模型并利用其迁移特征对预训练模型进行特征迁移的提取,优选的,所述对预设训练模型进行特征迁移的提取具体为:利用预设定领域中已训练完成的模型作为特征迁移的基础模型。例如基于菜品识别这本文档来自技高网...
【技术保护点】
1.一种基于特征迁移的集成分类方法,其特征在于,包括步骤:选取基础模型并利用所述基础模型的迁移特征对预训练模型进行特征迁移的提取;基于所述提取的迁移特征对所述预训练模型的分类任务进行训练,同时根据所述预训练模型的不同构建新的特征上层的基分类器,获得多个基分类器;对所述多个基分类器进行集成;提取所述预训练模型的特征,并利用所述集成的基分类器对所述特征进行集成分类。
【技术特征摘要】
1.一种基于特征迁移的集成分类方法,其特征在于,包括步骤:选取基础模型并利用所述基础模型的迁移特征对预训练模型进行特征迁移的提取;基于所述提取的迁移特征对所述预训练模型的分类任务进行训练,同时根据所述预训练模型的不同构建新的特征上层的基分类器,获得多个基分类器;对所述多个基分类器进行集成;提取所述预训练模型的特征,并利用所述集成的基分类器对所述特征进行集成分类。2.如权利要求1所述的一种基于特征迁移的集成分类方法,其特征在于,所述对预训练模型进行特征迁移的提取具体为:利用预设定领域中已训练完成的模型作为特征迁移的基础模型。3.如权利要求1所述的一种基于特征迁移的集成分类方法,其特征在于,还包括步骤:在训练过程中对新构造的基分类器进行调整。4.如权利要求1所述的一种基于特征迁移的集成分类方法,其特征在于,通过平均加权的方式对所述多个基分类器进行集成,具体为:其中,N表示基分类器的数量,Vlensemble(维度为l)表示分类器的输出向量,上标表示分类器的标志,下标表示向量中元素的位置;通过对V中的每一维度Vl均采用式Vlensemble进行集成,得到一个与基分类器输出一样维度的向量Vensemble。5.如权利要求1所述的一种基于特征迁移的集成分类方法,其特征在于,还包括步骤:选择不同数量的所述多个基分类器进行集成;根据所述不同数量的基分类器的集成分类结果确定所述预训练模型需要的基分类器集成数量。6.一种基于特征迁移的集成分类系统,其特征在于,包括...
【专利技术属性】
技术研发人员:杨永全,
申请(专利权)人:四川斐讯信息技术有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。