一种样本分类方法、装置、电子设备及存储介质制造方法及图纸

技术编号：25600510 阅读：18 留言：0更新日期：2020-09-11 23:57

本申请提供一种样本分类方法、装置、电子设备及存储介质，用于改善使用目前的方法训练后的模型进行分类的准确率较低的问题。该方法包括：使用由第一样本集训练获得的特征提取器提取第二样本集中的训练样本的特征，第一样本集中的样本数量大于第二样本集中的样本数量，第二样本集包括：测试样本、训练标签和训练样本；根据提取的训练样本的特征和测试样本，确定测试样本对应的初始标签；使用测试样本、初始标签、训练样本和训练标签训练特征提取器，获得训练后的特征提取器；使用训练后的特征提取器提取测试样本的特征；根据测试样本的特征和测试样本，确定测试样本对应的测试标签。

全部详细技术资料下载

【技术实现步骤摘要】
一种样本分类方法、装置、电子设备及存储介质
本申请涉及机器学习、模型训练和图像分类的
，具体而言，涉及一种样本分类方法、装置、电子设备及存储介质。
技术介绍
模型训练，是指根据训练数据对目标模型进行训练，具体的训练方式根据训练数据的情况可以包括：监督式学习和无监督学习等方式。监督式学习(Supervisedlearning)，又被称为监督式训练，是机器学习的一种方法，可以由训练资料中学到或建立一个学习模式或学习函数，并依此模式推测新的实例。通常训练数据可以包括训练集和测试集，使用训练集对模型进行训练，获得训练后的模型，再使用测试集预测训练后的模型的准确率。类原型(ClassPrototype)，是模型训练中一个通用的概念，类原型可以理解为在分类任务的过程中模型将样本分类为该类的基本依据特征；具体例如：若苹果是一个类别，而梨是另一个类别，将苹果和梨的各种图片放入到一个模型中，让模型学习到每个类的类原型，通常来说一个类别只有一个类原型，苹果的各种图片是与苹果的类原型更相似的，而与梨的类原型不相似，类原型可以理解为这个类别抽象的代表。在监督式训练过程中，若训练集中的某个类别的样本过少，即训练集中的该类别只有少量样本能够被使用，目前的主要做法是：从训练集中的该类别少量样本中学习一个类原型，具体例如：利用训练集中的该类别的样本均值作为类原型，然后通过计算待分类样本与这个类原型的距离来进行分类。在具体的实践过程中发现，通过使用训练集中的该类别少量样本训练后，再使用样本均值作为类原型的方法训练的模型进行分类的...

【技术保护点】
1.一种样本分类方法，其特征在于，包括：/n使用由第一样本集训练获得的特征提取器提取第二样本集中的训练样本的特征，所述第一样本集中的样本数量大于所述第二样本集中的样本数量，所述第二样本集包括：测试样本、训练标签和所述训练样本；/n根据提取的所述训练样本的特征和所述测试样本，确定所述测试样本对应的初始标签；/n使用所述测试样本、所述初始标签、所述训练样本和所述训练标签训练所述特征提取器，获得训练后的特征提取器；/n使用所述训练后的特征提取器提取所述测试样本的特征；/n根据所述测试样本的特征和所述测试样本，确定所述测试样本对应的测试标签。/n

【技术特征摘要】
1.一种样本分类方法，其特征在于，包括：
使用由第一样本集训练获得的特征提取器提取第二样本集中的训练样本的特征，所述第一样本集中的样本数量大于所述第二样本集中的样本数量，所述第二样本集包括：测试样本、训练标签和所述训练样本；
根据提取的所述训练样本的特征和所述测试样本，确定所述测试样本对应的初始标签；
使用所述测试样本、所述初始标签、所述训练样本和所述训练标签训练所述特征提取器，获得训练后的特征提取器；
使用所述训练后的特征提取器提取所述测试样本的特征；
根据所述测试样本的特征和所述测试样本，确定所述测试样本对应的测试标签。

2.根据权利要求1所述的方法，其特征在于，所述根据提取的所述训练样本的特征和所述测试样本，确定所述测试样本对应的初始标签，包括：
根据所述训练样本的特征确定初始类原型；
根据所述初始类原型与所述测试样本的相似程度，确定所述测试样本对应的初始标签。

3.根据权利要求1所述的方法，其特征在于，所述使用所述测试样本、所述初始标签、所述训练样本和所述训练标签训练所述特征提取器，包括：
将所述测试样本和所述训练样本合并，获得数据集；
将所述初始标签和所述训练标签合并，获得标签集；
以所述数据集为训练数据，以所述标签集为训练标签，对所述特征提取器进行训练。

4.根据权利要求1所述的方法，其特征在于，所述根据所述测试样本的特征和所述测试样本，确定所述测试样本对应的测试标签，包括：
根据所述测试样本的特征确定目标类原型；
根据所述目标类原型与所述测试样本的相似程度，确定所述测试样本对应的测试标签。

5.根据权利要求1所述的方法，其特征在于，在所述确定所述测试样本对应的测试标签之后，还包括：
将所述测试样本和所述测试标签确定为测试集；
将所述训练样本和所述训练标签确定为训练集；
对所述训练集和所述测试集进行交叉验证，获得所述第二样本集的标签...

【专利技术属性】
技术研发人员：张发恩，刘金露，
申请(专利权)人：创新奇智上海科技有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人