一种基于增量学习的分类方法及装置制造方法及图纸

技术编号:15502218 阅读:64 留言:0更新日期:2017-06-03 23:13
本发明专利技术实施例公开了一种基于增量学习的分类方法,所述方法包括:构建分类器并确定分类特征向量;根据所述分类器和所述分类特征向量,对新增的数据样本进行训练;根据训练所得到的相关参数,对所述数据样本进行删除和保留。相应的,本发明专利技术实施例还公开了一种基于增量学习的分类装置。采用本发明专利技术,可以实现在增量学习中,主动删除无用的数据以及保留有用的数据,从而提高认知计算模型的适应性和准确率。

Classification method and device based on incremental learning

The embodiment of the invention discloses a classification method based on incremental learning, the method includes: constructing classifier and determine the classification of feature vectors; according to the classifier and the feature vectors for training the new data sample; according to relevant training parameters obtained by the data samples were removed and retained. Accordingly, the embodiment of the invention also discloses a classification device based on incremental learning. By adopting the present invention, it is possible to actively delete unwanted data and retain useful data in incremental learning, thereby improving the adaptability and accuracy of the cognitive computing model.

【技术实现步骤摘要】
一种基于增量学习的分类方法及装置
本专利技术涉及数据处理
,尤其涉及一种基于增量学习的分类方法及装置。
技术介绍
云计算、物联网等新兴技术的快速发展促使数据的规模正以前所未有的速度增长,大数据时代已经到来。如何在海量的复杂数据中及时有效地获取有价值的信息,依赖于一种能够主动学习,并且根据需求自行分析数据中的有价值信息,主动进行数据计算处理的模型——认知计算模型。应理解的,认知计算模型能够快速、准确的发现有价值的信息,提取有效信息并将这些有价值的信息组织起来,给出一个有效的解决方案。作为一种应用较为普遍的认知计算模型,支持向量机(SupportVectorMachine,SVM)分类算法采用的是批量处理算法,由于批量处理算法需要将整个数据集加载到内存之中,而内存的存储量有限,使得该算法不适合于大数据的运算,无法应用于实时性较高的场合。同时,还会使得在构建分类器时需要耗费大量的时间,导致后面到达的数据可能会由于处理不及时导致丢失,造成严重的后果。
技术实现思路
本专利技术实施例提供了一种基于增量学习的分类方法及装置,可以实现在增量学习中,主动删除无用的数据以及保留有用的数据,从而提高认知计算模型的适应性和准确率。本专利技术实施例第一方面提供了一种基于增量学习的分类方法,包括:构建分类器并确定分类特征向量;根据所述分类器和所述分类特征向量,对新增的数据样本进行训练;根据训练所得到的相关参数,对所述数据样本进行删除和保留。在第一方面的第一种可能实现方式中,所述构建分类器并确定分类特征向量,包括:确定待构建的分类器的数量;构建各个所述分类器;确定各个所述分类器的分类特征向量。在第一方面的第二种可能实现方式中,所述根据所述分类器和所述分类特征向量,对新增的数据样本进行训练,包括:①通过随机梯度下降SGD算法,随机抽取新增的数据样本子集B1进行训练;②通过初始分类器Γ1判断所述样本子集B1分类的正确性,并根据判断结果将所述样本子集B1划分为测试错误集Berr和测试正确集Bok;③判断所述测试错误集Berr是否为空集,若是,则通过所述SGD算法抽取新一批数据样本进行训练,若否,则将原始的数据样本中支持向量SV的集合与所述样本子集B1进行合并以得到新的集合和新的分类器Γ2,以及将所述集合中除所述集合的数据样本外的剩余数据样本与所述测试正确集Bok进行合并以得到所述分类器Γ2的增量数据样本集B1′;重复执行上述①、②和③三个步骤。结合第一方面的第二种可能实现方式,在第三种可能实现方式中,所述根据训练所得到的相关参数,对所述数据样本进行删除和保留,包括:根据公式(1)、公式(2)和公式(3),求得遗忘因子αi,其中,αi表示数据样本经T次训练后第i个数据样本支持向量SV的比率,Ti表示总训练次数,ri表示第i个数据样本经训练后支持向量SV的次数,所述测试错误集Berr内每个数据样本的ri=0,所述测试正确集Bok内每个数据样本的ri=1;根据基于所述遗忘因子αi的预测增量学习机制,对所述数据样本进行删除和保留。结合第一方面的第三种可能实现方式,在第四种可能实现方式中,所述根据基于所述遗忘因子αi的预测增量学习机制,对所述数据样本进行删除和保留,包括:设置β、γ和δ三个阈值;比较所述遗忘因子αi与β、γ和δ的大小关系;根据比较的结果,对所述数据样本进行删除和保留。结合第一方面的第四种可能实现方式,在第五种可能实现方式中,所述设置β、γ和δ三个阈值之后,还包括:每经10次训练后,根据公式(4)求得各个数据样本与所设阈值的误差权值,其中,ei表示误差权值,P表示所设阈值;ei=P-αi(1≤i≤10)(4)选择所述误差权值最大的遗忘因子αi作为新的阈值;根据所述遗忘因子αi,适应调整β、γ和δ的取值。结合第一方面的第四种可能实现方式,在第六种可能实现方式中,所述根据比较的结果,对所述数据样本进行删除和保留,包括:当所述遗忘因子αi=0时,保留所述遗忘因子αi对应数据样本;当所述遗忘因子0<αi<β时,删除所述遗忘因子αi对应数据样本;当所述遗忘因子β≤αi<δ时,选择大于γ的数据样本作为下一次的数据样本集进行测试;当所述遗忘因子δ<αi<1时,将所述遗忘因子αi对应数据样本作为下一次的数据样本集进行测试。本专利技术实施例第二方面提供了一种基于增量学习的分类装置,包括:初始化模块,用于构建分类器并确定分类特征向量;数据训练模块,用于根据所述分类器和所述分类特征向量,对新增的数据样本进行训练;数据处理模块,用于根据训练所得到的相关参数,对所述数据样本进行删除和保留。在第二方面的第一种可能实现方式中,所述初始化模块,具体用于:确定待构建的分类器的数量;构建各个所述分类器;确定各个所述分类器的分类特征向量。在第二方面的第二种可能实现方式中,所述数据训练模块,具体用于:①通过随机梯度下降SGD算法,随机抽取新增的数据样本子集B1进行训练;②通过初始分类器Γ1判断所述样本子集B1分类的正确性,并根据判断结果将所述样本子集B1划分为测试错误集Berr和测试正确集Bok;③判断所述测试错误集Berr是否为空集,若是,则通过所述SGD算法抽取新一批数据样本进行训练,若否,则将原始的数据样本中支持向量SV的集合与所述样本子集B1进行合并以得到新的集合和新的分类器Γ2,以及将所述集合中除所述集合的数据样本外的剩余数据样本与所述测试正确集Bok进行合并以得到所述分类器Γ2的增量数据样本集B1′;重复执行上述①、②和③三个步骤。结合第二方面的第二种可能实现方式,在第三种可能实现方式中,所述数据处理模块包括:参数计算单元,用于根据公式(1)、公式(2)和公式(3),求得遗忘因子αi,其中,αi表示数据样本经T次训练后第i个数据样本支持向量SV的比率,Ti表示总训练次数,ri表示第i个数据样本经训练后支持向量SV的次数,所述测试错误集Berr内每个数据样本的ri=0,所述测试正确集Bok内每个数据样本的ri=1;数据处理单元,用于根据基于所述遗忘因子αi的预测增量学习机制,对所述数据样本进行删除和保留。结合第二方面的第三种可能实现方式,在第四种可能实现方式中,所述数据处理单元,具体用于:设置β、γ和δ三个阈值;比较所述遗忘因子αi与β、γ和δ的大小关系;根据比较的结果,对所述数据样本进行删除和保留。结合第二方面的第四种可能实现方式,在第五种可能实现方式中,所述数据处理模块还包括阈值调整单元,用于:每经10次训练后,根据公式(4)求得各个数据样本与所设阈值的误差权值,其中,ei表示误差权值,P表示所设阈值;ei=P-αi(1≤i≤10)(4)选择所述误差权值最大的遗忘因子αi作为新的阈值;根据所述遗忘因子αi,适应调整β、γ和δ的取值。结合第二方面的第四种可能实现方式,在第六种可能实现方式中,所述数据处理单元,还具体用于:当所述遗忘因子αi=0时,保留所述遗忘因子αi对应数据样本;当所述遗忘因子0<αi<β时,删除所述遗忘因子αi对应数据样本;当所述遗忘因子β≤αi<δ时,选择大于γ的数据样本作为下一次的数据样本集进行测试;当所述遗忘因子δ<αi<1时,将所述遗忘因子αi对应数据样本作为下一次的数据样本集进行测试。由上可见,本专利技术实施例先构建分本文档来自技高网...
一种基于增量学习的分类方法及装置

【技术保护点】
一种基于增量学习的分类方法,其特征在于,所述方法包括:构建分类器并确定分类特征向量;根据所述分类器和所述分类特征向量,对新增的数据样本进行训练;根据训练所得到的相关参数,对所述数据样本进行删除和保留。

【技术特征摘要】
1.一种基于增量学习的分类方法,其特征在于,所述方法包括:构建分类器并确定分类特征向量;根据所述分类器和所述分类特征向量,对新增的数据样本进行训练;根据训练所得到的相关参数,对所述数据样本进行删除和保留。2.如权利要求1所述的方法,其特征在于,所述构建分类器并确定分类特征向量,包括:确定待构建的分类器的数量;构建各个所述分类器;确定各个所述分类器的分类特征向量。3.如权利要求1所述的方法,其特征在于,所述根据所述分类器和所述分类特征向量,对新增的数据样本进行训练,包括:①通过随机梯度下降SGD算法,随机抽取新增的数据样本子集B1进行训练;②通过初始分类器Γ1判断所述样本子集B1分类的正确性,并根据判断结果将所述样本子集B1划分为测试错误集Berr和测试正确集Bok;③判断所述测试错误集Berr是否为空集,若是,则通过所述SGD算法抽取新一批数据样本进行训练,若否,则将原始的数据样本中支持向量SV的集合与所述样本子集B1进行合并以得到新的集合和新的分类器Γ2,以及将所述集合中除所述集合的数据样本外的剩余数据样本与所述测试正确集Bok进行合并以得到所述分类器Γ2的增量数据样本集B′1;重复执行上述①、②和③三个步骤。4.如权利要求3所述的方法,其特征在于,所述根据训练所得到的相关参数,对所述数据样本进行删除和保留,包括:根据公式(1)、公式(2)和公式(3),求得遗忘因子αi,其中,αi表示数据样本经T次训练后第i个数据样本支持向量SV的比率,Ti表示总训练次数,ri表示第i个数据样本经训练后支持向量SV的次数,所述测试错误集Berr内每个数据样本的ri=0,所述测试正确集Bok内每个数据样本的ri=1;根据基于所述遗忘因子αi的预测增量学习机制,对所述数据样本进行删除和保留。5.如权利要求4所述的方法,其特征在于,所述根据基于所述遗忘因子αi的预测增量学习机制,对所述数据样本进行删除和保留,包括:设置β、γ和δ三个阈值;比较所述遗忘因子αi与β、γ和δ的大小关系;根据比较的结果,对所述数据样本进行删除和保留。6.如权利要求5所述的方法,其特征在于,所述设置β、γ和δ三个阈值之后,还包括:每经10次训练后,根据公式(4)求得各个数据样本与所设阈值的误差权值,其中,ei表示误差权值,P表示所设阈值;ei=P-αi(1≤i≤10)(4)选择所述误差权值最大的遗忘因子αi作为新的阈值;根据所述遗忘因子αi,适应调整β、γ和δ的取值。7.如权利要求5所述的方法,其特征在于,所述根据比较的结果,对所述数据样本进行删除和保留,包括:当所述遗忘因子αi=0时,保留所述遗忘因子αi对应数据样本;当所述遗忘因子0<αi<β时,删除所述遗忘因子αi对应数据样本;当所述遗忘因子β≤αi<δ时,选择大于γ的数据样本作为下一次的数据样本集进行测试;当所述遗忘因子δ<αi<1时,将所述遗忘因子αi对应数...

【专利技术属性】
技术研发人员:王堃杨丽王元钢
申请(专利权)人:华为技术有限公司南京邮电大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1