一种样本分类方法、装置、电子设备及存储介质制造方法及图纸

技术编号:25600510 阅读:18 留言:0更新日期:2020-09-11 23:57
本申请提供一种样本分类方法、装置、电子设备及存储介质,用于改善使用目前的方法训练后的模型进行分类的准确率较低的问题。该方法包括:使用由第一样本集训练获得的特征提取器提取第二样本集中的训练样本的特征,第一样本集中的样本数量大于第二样本集中的样本数量,第二样本集包括:测试样本、训练标签和训练样本;根据提取的训练样本的特征和测试样本,确定测试样本对应的初始标签;使用测试样本、初始标签、训练样本和训练标签训练特征提取器,获得训练后的特征提取器;使用训练后的特征提取器提取测试样本的特征;根据测试样本的特征和测试样本,确定测试样本对应的测试标签。

【技术实现步骤摘要】
一种样本分类方法、装置、电子设备及存储介质
本申请涉及机器学习、模型训练和图像分类的
,具体而言,涉及一种样本分类方法、装置、电子设备及存储介质。
技术介绍
模型训练,是指根据训练数据对目标模型进行训练,具体的训练方式根据训练数据的情况可以包括:监督式学习和无监督学习等方式。监督式学习(Supervisedlearning),又被称为监督式训练,是机器学习的一种方法,可以由训练资料中学到或建立一个学习模式或学习函数,并依此模式推测新的实例。通常训练数据可以包括训练集和测试集,使用训练集对模型进行训练,获得训练后的模型,再使用测试集预测训练后的模型的准确率。类原型(ClassPrototype),是模型训练中一个通用的概念,类原型可以理解为在分类任务的过程中模型将样本分类为该类的基本依据特征;具体例如:若苹果是一个类别,而梨是另一个类别,将苹果和梨的各种图片放入到一个模型中,让模型学习到每个类的类原型,通常来说一个类别只有一个类原型,苹果的各种图片是与苹果的类原型更相似的,而与梨的类原型不相似,类原型可以理解为这个类别抽象的代表。在监督式训练过程中,若训练集中的某个类别的样本过少,即训练集中的该类别只有少量样本能够被使用,目前的主要做法是:从训练集中的该类别少量样本中学习一个类原型,具体例如:利用训练集中的该类别的样本均值作为类原型,然后通过计算待分类样本与这个类原型的距离来进行分类。在具体的实践过程中发现,通过使用训练集中的该类别少量样本训练后,再使用样本均值作为类原型的方法训练的模型进行分类的准确率较低;也就是说,使用目前的方法训练后的模型进行分类的准确率较低。
技术实现思路
本申请实施例的目的在于提供一种样本分类方法、装置、电子设备及存储介质,用于改善使用目前的方法训练后的模型进行分类的准确率较低的问题。本申请实施例提供一种样本分类方法,包括:使用由第一样本集训练获得的特征提取器提取第二样本集中的训练样本的特征,第一样本集中的样本数量大于第二样本集中的样本数量,第二样本集包括:测试样本、训练标签和训练样本;根据提取的训练样本的特征和测试样本,确定测试样本对应的初始标签;使用测试样本、初始标签、训练样本和训练标签训练特征提取器,获得训练后的特征提取器;使用训练后的特征提取器提取测试样本的特征;根据测试样本的特征和测试样本,确定测试样本对应的测试标签。在上述的实现过程中,先根据测试样本获得的特征和测试样本确定初始标签,使用初始标签、测试样本和训练集训练特征提取器,即对类原型进行校正的过程,再使用训练后的特征提取器提取测试样本的特征;根据测试样本的特征和测试样本,确定测试样本对应的测试标签;也就是说,将获得的测试样本的预测标签加入训练数据对特征训练器重新训练后,再使用训练后的特征训练器对测试样本进行分类,从而有效地提高了使用模型对测试样本进行分类的准确率。可选地,在本申请实施例中,根据提取的训练样本的特征和测试样本,确定测试样本对应的初始标签,包括:根据训练样本的特征确定初始类原型;根据初始类原型与测试样本的相似程度,确定测试样本对应的初始标签。在上述的实现过程中,通过根据训练样本的特征确定初始类原型;根据初始类原型与测试样本的相似程度,确定测试样本对应的初始标签;从而有效地提高了使用模型对测试样本进行分类的准确率。可选地,在本申请实施例中,使用测试样本、初始标签、训练样本和训练标签训练特征提取器,包括:将测试样本和训练样本合并,获得数据集;将初始标签和训练标签合并,获得标签集;以数据集为训练数据,以标签集为训练标签,对特征提取器进行训练。在上述的实现过程中,通过将测试样本和训练样本合并,获得数据集;将初始标签和训练标签合并,获得标签集;以数据集为训练数据,以标签集为训练标签,对特征提取器进行训练;从而有效地提高了获得训练后的特征提取器的速度。可选地,在本申请实施例中,根据测试样本的特征和测试样本,确定测试样本对应的测试标签,包括:根据测试样本的特征确定目标类原型;根据目标类原型与测试样本的相似程度,确定测试样本对应的测试标签。在上述的实现过程中,通过根据测试样本的特征确定目标类原型;根据目标类原型与测试样本的相似程度,确定测试样本对应的测试标签;从而有效地提高了确定测试样本对应的测试标签的速度。可选地,在本申请实施例中,在确定测试样本对应的测试标签之后,还包括:将测试样本和测试标签确定为测试集;将训练样本和训练标签确定为训练集;对训练集和测试集进行交叉验证,获得第二样本集的标签准确率。在上述的实现过程中,通过将测试样本和测试标签确定为测试集;将训练样本和训练标签确定为训练集;对训练集和测试集进行交叉验证,获得第二样本集的标签准确率;从而有效地提高了获得第二样本集的标签准确率的速度。可选地,在本申请实施例中,特征提取器包括卷积神经网络;在使用由第一样本集训练获得的特征提取器提取第二样本集中的训练样本的特征之前,还包括:获得第一样本集;使用第一样本集训练卷积神经网络,获得特征提取器。在上述的实现过程中,通过获得第一样本集;使用第一样本集训练卷积神经网络,获得特征提取器;从而有效地提高了获得训练后的特征提取器的速度。可选地,在本申请实施例中,第一样本集包括:样本数据和样本标签;使用第一样本集训练卷积神经网络,包括:使用卷积神经网络提取样本数据的特征,获得样本特征;将样本特征进行均值归一化,获得样本类原型;根据样本类原型与样本数据的相似程度,确定样本数据的预测标签;根据预测标签和样本标签的损失值对卷积神经网络进行训练。在上述的实现过程中,通过使用卷积神经网络提取样本数据的特征,获得样本特征;将样本特征进行均值归一化,获得样本类原型;根据样本类原型与样本数据的相似程度,确定样本数据的预测标签;根据预测标签和样本标签的损失值对卷积神经网络进行训练;从而有效地减少了对卷积神经网络进行训练的训练时间,提高了对卷积神经网络进行训练的效率。本申请实施例还提供了一种样本分类装置,包括:第一特征提取模块,用于使用由第一样本集训练获得的特征提取器提取第二样本集中的训练样本的特征,第一样本集中的样本数量大于第二样本集中的样本数量,第二样本集包括:测试样本、训练标签和训练样本;初始标签确定模块,用于根据提取的训练样本的特征和测试样本,确定测试样本对应的初始标签;提取器获得模块,用于使用测试样本、初始标签、训练样本和训练标签训练特征提取器,获得训练后的特征提取器;第二特征提取模块,用于使用训练后的特征提取器提取测试样本的特征;测试标签确定模块,用于根据测试样本的特征和测试样本,确定测试样本对应的测试标签。在上述的实现过程中,先根据测试样本获得的特征和测试样本确定初始标签,使用初始标签、测试样本和训练集训练特征提取器,即对类原型进行校正的过程,再使用训练后的特征提取器提取测试样本的特征;根据测试样本的特征和测试样本,确定测试样本对应的测试标签;也就是说,将获得的测试样本的预测标签加入训练数据对特征训练器重新训练后,再使用训练后的特征训练器对测试样本进行分类,从而有效地提本文档来自技高网
...

【技术保护点】
1.一种样本分类方法,其特征在于,包括:/n使用由第一样本集训练获得的特征提取器提取第二样本集中的训练样本的特征,所述第一样本集中的样本数量大于所述第二样本集中的样本数量,所述第二样本集包括:测试样本、训练标签和所述训练样本;/n根据提取的所述训练样本的特征和所述测试样本,确定所述测试样本对应的初始标签;/n使用所述测试样本、所述初始标签、所述训练样本和所述训练标签训练所述特征提取器,获得训练后的特征提取器;/n使用所述训练后的特征提取器提取所述测试样本的特征;/n根据所述测试样本的特征和所述测试样本,确定所述测试样本对应的测试标签。/n

【技术特征摘要】
1.一种样本分类方法,其特征在于,包括:
使用由第一样本集训练获得的特征提取器提取第二样本集中的训练样本的特征,所述第一样本集中的样本数量大于所述第二样本集中的样本数量,所述第二样本集包括:测试样本、训练标签和所述训练样本;
根据提取的所述训练样本的特征和所述测试样本,确定所述测试样本对应的初始标签;
使用所述测试样本、所述初始标签、所述训练样本和所述训练标签训练所述特征提取器,获得训练后的特征提取器;
使用所述训练后的特征提取器提取所述测试样本的特征;
根据所述测试样本的特征和所述测试样本,确定所述测试样本对应的测试标签。


2.根据权利要求1所述的方法,其特征在于,所述根据提取的所述训练样本的特征和所述测试样本,确定所述测试样本对应的初始标签,包括:
根据所述训练样本的特征确定初始类原型;
根据所述初始类原型与所述测试样本的相似程度,确定所述测试样本对应的初始标签。


3.根据权利要求1所述的方法,其特征在于,所述使用所述测试样本、所述初始标签、所述训练样本和所述训练标签训练所述特征提取器,包括:
将所述测试样本和所述训练样本合并,获得数据集;
将所述初始标签和所述训练标签合并,获得标签集;
以所述数据集为训练数据,以所述标签集为训练标签,对所述特征提取器进行训练。


4.根据权利要求1所述的方法,其特征在于,所述根据所述测试样本的特征和所述测试样本,确定所述测试样本对应的测试标签,包括:
根据所述测试样本的特征确定目标类原型;
根据所述目标类原型与所述测试样本的相似程度,确定所述测试样本对应的测试标签。


5.根据权利要求1所述的方法,其特征在于,在所述确定所述测试样本对应的测试标签之后,还包括:
将所述测试样本和所述测试标签确定为测试集;
将所述训练样本和所述训练标签确定为训练集;
对所述训练集和所述测试集进行交叉验证,获得所述第二样本集的标签...

【专利技术属性】
技术研发人员:张发恩刘金露
申请(专利权)人:创新奇智上海科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1