一种基于数据平衡的交叉验证数据集裁剪和评估方法技术

技术编号：41908815 阅读：13 留言：0更新日期：2024-07-05 14:12

本发明专利技术公开了一种基于数据平衡的交叉验证数据集裁剪和评估方法，该方法首先对样本数据集进行划分，采用k折交叉验证法对预设第一图像分类模型进行训练，记录以每个子集作为验证集时每个样本的预测准确性和预测概率值；基于预测准确性和预测概率值对样本进行排序，根据排序结果对样本进行删除，得到核心数据集；利用核心数据集对预设第二图像分类模型进行训练，得到训练完备的预设第二图像分类模型；最后通过测试数据集对训练完备的预设第二图像分类模型进行性能评估。本发明专利技术既实现了保留信息丰富的不确定性样本，又保证了样本评估不会因为图像分类模型记忆而产生误差，改善深度学习图像分类模型的效率和泛化能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像分类识别，尤其涉及一种基于数据平衡的交叉验证数据集裁剪和评估方法。

技术介绍

1、图像数据往往包含着大量有效信息，图像识别技术可以对大量图像数据进行自动化的信息提取和分析，从而推进不同领域的智能化应用和发展。例如，在工业生产中，可以通过图像识别来检测产品缺陷；在医学影像中，可以通过图像识别来辅助医生进行疾病诊断等。在图像识别领域中，数据集的质量对于图像识别性能提升具有关键作用。但样本数据集往往存在相似或者重复的样本，这些冗余样本既增加了数据集的大小，又占用了训练过程中宝贵的资源。此外，数据集中还可能存在标注不正确或有噪声的低质量样本。这些数据会降低图像分类模型性能而且对图像分类模型的泛化能力产生负面影响。

2、现阶段的数据集修剪方法主要包括修剪困难样本、修剪简单样本或修剪简单样本和困难样本。修剪困难样本的方法未考虑到那些具有丰富信息的样本，修剪剩余的核心数据集会造成样本存在更大的冗余性。修剪简单样本后剩余核心集会进一步增大困难样本对图像分类模型训练时的扰动；修剪简单和困难样本，剩余核心集保留了那些信息丰富的样本更有助于图像分类模型训练，但是现阶段数据集修剪方法对样本进行评估动态性时均参与了训练过程，图像分类模型会对样本进行记忆，从而会对样本评估特性时产生偏差。

3、因此，需要提出一种基于数据平衡的交叉验证数据集裁剪方法，能够解决数据集冗余、计算资源限制、数据集中存在低质量样本的问题，改善深度学习图像分类模型的效率和泛化能力。

技术实现思路

2、为达到上述技术目的，本专利技术采取了以下技术方案：

3、第一方面，本专利技术提供了一种基于数据平衡的交叉验证数据集裁剪和评估方法，包括：

4、获取样本数据集，将样本数据集划分为k个子集；

5、将划分后的样本数据集输入图像分类模型中，依次遍历k个子集，以当前子集作为验证集、其余子集作为训练集对预设第一图像分类模型进行训练，记录以每个子集作为验证集时，预设第一图像分类模型对验证集中每个样本的预测准确性和预测概率值；

6、基于预测准确性和预测概率值对样本进行排序，根据排序结果对样本进行删除，得到核心数据集；

7、利用核心数据集对预设第二图像分类模型进行训练，得到训练完备的预设第二图像分类模型；

8、获取测试数据集，将测试数据集输入训练完备的预设第二图像分类模型中进行测试，根据测试结果对训练完备的预设第二图像分类模型进行性能评估。

9、进一步的，所述基于预测准确性和预测概率值对样本进行排序，根据排序结果对样本进行删除，包括：

10、将预测错误的样本按照预测概率值从小到大进行排序、预测正确的样本按照预测概率从大到小进行排序；

11、基于预设核心数据集比例对预测错误的样本按照预测概率值从小到大进行样本删除；

12、若删除后剩余样本数据集的比例大于预设核心数据集比例，对预测正确的样本按照预测概率从大到小进行删除。

13、进一步的，对测试数据集进行预处理，将预处理后的测试数据集输入到训练完备的预设第二图像分类模型中进行分类测试；

14、所述预处理包括对测试集中的图像进行高斯模糊和加入高斯噪声。

15、进一步的，对图像进行高斯模糊包括：

16、根据预设高斯核的大小和标准差生成二维高斯权重矩阵；

17、对于测试集中每个样本的像素点，以各像素点为中心，基于所述二维高斯权重矩阵对当前像素点邻域的像素进行加权平均。

18、进一步的，对图像加入高斯噪声包括：

19、生成符合高斯分布的随机数，得到高斯噪声；

20、将所述高斯噪声加权到图像的各像素值上；

21、其中，所述高斯噪声强度的调整方式为调整随机数的标准差。

22、进一步的，所述预设第一图像分类模型和预设第二图像分类模型为不同结构的图像分类模型；所述预设第一图像分类模型基于transformer神经网络构建；所述预设第二图像分类模型基于卷积神经网络构建。

23、进一步的，根据分类测试结果对预设第二图像分类模型进行性能评估，包括：根据预设第二图像分类模型的准确率对模型进行性能评估，所述准确率的计算方法为：

24、准确率＝预测正确样本数量/全部样本数量。

25、第二方面，本专利技术还提供了一种基于数据平衡的交叉验证数据集裁剪和评估系统，包括：

26、数据集获取模块，用于获取样本数据集，将样本数据集划分为k个子集；

27、数据集分析模块，用于将划分后的样本数据集输入图像分类模型中，依次遍历k个子集，以当前子集作为验证集、其余子集作为训练集对预设第一图像分类模型进行训练，记录以每个子集作为验证集时，预设第一图像分类模型对验证集中每个样本的预测准确性和预测概率值；

28、裁剪模块，用于基于预测准确性和预测概率值对样本进行排序，并根据排序结果对样本进行删除，得到核心数据集，

29、模型训练模块，用于利用核心数据集对预设第二图像分类模型进行训练，得到训练完备的预设第二图像分类模型；

30、性能评估模块，用于获取测试数据集，将测试数据集输入训练完备的预设第二图像分类模型中进行测试，根据测试结果对训练完备的预设第二图像分类模型进行性能评估。

31、第三方面，本专利技术还提供了一种电子设备，包括处理器以及存储器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时，能够实现上述任一种所述的基于数据平衡的交叉验证数据集裁剪和评估方法。

32、第四方面，本专利技术还提供了一种计算机可读存储介质，用于存储计算机可读取的程序或指令，程序或指令被处理器执行时，能够实现上述任一种实现方式中的基于数据平衡的交叉验证数据集裁剪和评估方法中的步骤。

33、本专利技术提供了一种基于数据平衡的交叉验证数据集裁剪和评估方法，首先通过k折交叉验证方法对预设第一分类模型进行训练，评估训练集每个样本，保证样本评估不会因为图像分类模型记忆而产生误差；其次，通过训练后的预设第一分类模型对验证集中每个样本的预测准确性和预测概率值进行计算并排序，基于排序结果对数据集进行裁剪，删除低质量的样本以及冗余样本，构造了高质量的核心数据集。同时，高质量的核心数据集可以更好地代表原始数据集的分布，使得训练出来的图像分类模型具有更好的性能和泛化能力。最后，利用高质量的核心数据集对预设第二图像分类模型进行训练，得到训练完备的分类模型，并利用测试数据集对训练好的模型进行性能评估，根据评估结果客观地对核心数据集进行评价。本专利技术既实现了删除简单样本和困难样本，保留信息丰富的不确定性样本；又实现了度量样本时，样本不参与图像分类模型训练，保证本文档来自技高网...

【技术保护点】

1.一种基于数据平衡的交叉验证数据集裁剪和评估方法，其特征在于，包括：

2.根据权利要求1所述的基于数据平衡的交叉验证数据集裁剪和评估方法，其特征在于，所述基于预测准确性和预测概率值对样本进行排序，根据排序结果对样本进行删除，包括：

3.根据权利要求1所述的基于数据平衡的交叉验证数据集裁剪和评估方法，其特征在于，将测试数据集输入训练完备的预设第二图像分类模型中进行测试，还包括：

4.根据权利要求3所述的基于数据平衡的交叉验证数据集裁剪和评估方法，其特征在于，对图像进行高斯模糊包括：

5.根据权利要求3所述的基于数据平衡的交叉验证数据集裁剪和评估方法，其特征在于，对图像加入高斯噪声包括：

6.根据权利要求1所述的基于数据平衡的交叉验证数据集裁剪和评估方法，其特征在于，所述预设第一图像分类模型和预设第二图像分类模型为不同结构的图像分类模型；所述预设第一图像分类模型基于Transformer神经网络构建；所述预设第二图像分类模型基于卷积神经网络构建。

7.根据权利要求1所述的基于数据平衡的交叉验证数据集裁剪和评估方

8.一种基于数据平衡的交叉验证数据集裁剪和评估系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括处理器以及存储器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时，实现如权利要求1-7任一所述的基于数据平衡的交叉验证数据集裁剪和评估方法。

10.一种计算机可读存储介质，其特征在于，用于存储计算机可读取的程序或指令，所述程序或指令被处理器执行时，能够实现上述权利要求1-7中任一项所述基于数据平衡的交叉验证数据集裁剪和评估方法中的步骤。

...

【技术特征摘要】

1.一种基于数据平衡的交叉验证数据集裁剪和评估方法，其特征在于，包括：

4.根据权利要求3所述的基于数据平衡的交叉验证数据集裁剪和评估方法，其特征在于，对图像进行高斯模糊包括：

5.根据权利要求3所述的基于数据平衡的交叉验证数据集裁剪和评估方法，其特征在于，对图像加入高斯噪声包括：

6.根据权利要求1所述的基于数据平衡的交叉验证数据集裁剪和评估方法，其特征在于，所述预设第一图像分类模型和预设第二图像分类模型为不同结构的图像分类模型；所述预设第一图像...

【专利技术属性】
技术研发人员：罗俊，陈燕敏，柳成林，周梦瑶，李就良，杨健，李振飞，
申请(专利权)人：华中农业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人