数据增强策略搜索方法及装置制造方法及图纸

技术编号：43985124 阅读：1 留言：0更新日期：2025-01-10 20:08

本公开提供一种数据增强策略搜索方法及装置。该方法包括：获取包含至少两类增强操作的增强操作集合；不同类增强操作对应的执行概率范围不同；获取待增强的训练集的特征分布，根据训练集的特征分布以及增强操作集合中的每个增强操作的强度参数，搜索目标增强操作；根据训练集的特征分布、预设长度以及各个目标增强操作的强度参数，搜索用于增强训练集的目标数据增强策略；其中，预设长度，用于将同一类增强操作中的不同目标增强操作随机组合成数据增强策略。本公开实施例能够简化数据增强策略的搜索过程，降低了计算复杂度。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及数据处理，尤其涉及一种数据增强策略搜索方法及装置。

技术介绍

1、深度学习任务通常需要大量的训练数据。为了获得大量的训练数据，可以对已有的训练数据采用数据增强策略进行数据增强，以提升模型的性能和效果。

2、相关技术中，数据增强策略设定大多是基于人的先验知识，例如，在训练一个视觉模型时，基于人的先验知识，人为地加入数据增强操作，这种人为地添加数据增强操作，需要繁琐地调节参数，由于这些参数的搜索空间很大，很难取得最优的一组参数，导致数据增强策略的搜索效果不佳。

技术实现思路

1、本公开实施例提供一种数据增强策略搜索方法及装置。

2、根据本公开实施例的第一方面，提供了一种数据增强策略搜索方法，所述方法包括：

3、获取包含至少两类增强操作的增强操作集合；其中，不同类增强操作对应的执行概率范围不同；

4、获取待增强的训练集的特征分布；

5、根据所述训练集的特征分布以及所述增强操作集合中的每个增强操作的强度参数，搜索目标增强操作；

6、根据所述训练集的特征分布、预设长度以及各个所述目标增强操作的强度参数，搜索用于增强所述训练集的目标数据增强策略；其中，所述预设长度，用于将同一类增强操作中的不同目标增强操作随机组合成数据增强策略。

7、在一个实施例中，所述获取包含至少两类增强操作的增强操作集合，包括：

8、根据所述训练集与未标记标签的测试集之间的样本属性的差异，确定多个增强操作以及各所述增强操作的执行概率和强度参数；

9、根据各所述增强操作的执行概率与预设概率之间的比较结果，确定形成所述增强操作集合的至少两类增强操作。

10、在一个实施例中，所述获取待增强的训练集的特征分布，包括：

11、根据预训练模型的第一损失函数、以及所述预训练模型对所述训练集中的各样本图像提取的特征描述，获取所述训练集的特征分布；

12、其中，所述第一损失函数中包含：以所述训练集中所有样本图像的特征描述的特征中心作为球心、以距离阈值作为半径的球的球面外的特征描述到所述球面的距离。

13、在一个实施例中，所述根据所述训练集的特征分布以及所述增强操作集合中的每个增强操作的强度参数，搜索目标增强操作，包括：

14、将所述增强操作集合中的所有增强操作的执行概率调整为同一概率；

15、针对所述增强操作集合中的每个增强操作，执行以下操作：

16、根据所述增强操作的强度参数，分别对所述训练集中各样本图像执行数据增强；

17、获取所述预训练模型对经所述增强操作增强后的各所述样本图像提取的特征描述；

18、获取所述训练集的特征分布的中心与经所述增强操作增强后的各所述样本图像的特征描述之间的第一距离；

19、根据多个所述第一距离以及所述距离阈值，确定所述增强操作是否为所述目标增强操作。

20、在一个实施例中，所述根据多个所述第一距离以及所述距离阈值，确定所述增强操作是否为所述目标增强操作，包括：

21、确定与所述距离阈值之间的差值绝对值小于预设差值的所述第一距离的个数；

22、当确定的所述第一距离的个数占所述第一距离的总个数的比值超过第一预设比值时，确定所述增强操作为所述目标增强操作；

23、当确定的所述第一距离的个数占所述第一距离的总个数的比值未超过所述第一预设比值时，确定所述增强操作不是所述目标增强操作。

24、在一个实施例中，所述目标增强操作包括：属于第一类增强操作的第一目标增强操作以及属于第二类增强操作的第二目标增强操作；其中，所述第一类增强操作对应的执行概率范围的下限值大于所述第二类增强操作对应的执行概率范围的上限值；

25、所述根据所述训练集的特征分布、预设长度以及各个所述目标增强操作的强度参数，搜索用于增强所述训练集的目标数据增强策略，包括：

26、将第一数据增强集合中的每一个数据增强策略分别确定为第一目标数据增强策略；其中，所述第一数据增强集合包括：根据各所述第一目标增强操作的强度参数对不同所述第一目标增强操作进行所述预设长度的随机组合得到的数据增强策略；

27、和/或，

28、根据所述训练集的特征分布，在第二数据增强集合中搜索第二目标数据增强策略；其中，所述第二数据增强集合包括：根据各所述第二目标增强操作的强度参数对不同所述第二目标增强操作进行所述预设长度的随机组合得到的数据增强策略。

29、在一个实施例中，所述根据所述训练集的特征分布，在第二数据增强集合中搜索第二目标数据增强策略，包括：

30、针对所述第二数据增强集合中的每一个数据增强策略，执行以下操作：

31、根据所述数据增强策略的强度参数，对所述训练集中各样本图像执行数据增强；

32、获取所述预训练模型对经所述数据增强策略增强后的各所述样本图像提取的特征描述；

33、获取所述训练集的特征分布的中心与经所述数据增强策略增强后的各所述样本图像的特征描述之间的第二距离；

34、根据多个所述第二距离以及所述距离阈值，确定所述数据增强策略是否为所述第二目标数据增强策略。

35、在一个实施例中，所述根据多个所述第二距离以及所述距离阈值，确定所述数据增强策略是否为所述第二目标数据增强策略，包括：

36、确定与所述距离阈值之间的差值绝对值小于预设差值的所述第二距离的个数；

37、当确定的所述第二距离的个数占所述第二距离的总个数的比值超过第二预设比值时，确定所述数据增强策略为所述第二目标数据增强策略；

38、当确定的所述第二距离的个数占所述第二距离的总个数的比值未超过所述第二预设比值时，确定所述数据增强策略不是所述第二目标数据增强策略。

39、在一个实施例中，所述方法还包括：

40、根据增强后的所述训练集以及所述训练集的标签数据，对所述预训练模型进行微调；

41、基于微调后的所述预训练模型，重复执行获取所述特征分布的步骤、搜索所述目标增强操作的步骤、搜索所述目标数据增强策略的步骤以及微调所述预训练模型的步骤，直至达到训练结束条件。

42、在一个实施例中，所述预训练模型为：经由所述训练集预训练的多任务学习模型；所述多任务学习模型包括特征提取网络、单分类头以及与目标任务对应的任务头；所述特征提取网络分别连接所述任务头与所述单分类头；

43、其中，所述特征提取网络，用于对所述训练集中的各样本图像进行特征提取；

44、所述单分类头，用于从所述特征提取网络输出的特征提取结果中提取各所述样本图像的特征描述；所述单分类器的损失函数为所述第一损失函数。

45、根据本公开实施例的第二方面，提供了一种数据增强策略搜索装置，所述装置包括：

46、第一获取模块，用于获取包含至少两类增强本文档来自技高网...

【技术保护点】

1.一种数据增强策略搜索方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取包含至少两类增强操作的增强操作集合，包括：

3.根据权利要求1所述的方法，其特征在于，所述获取待增强的训练集的特征分布，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述训练集的特征分布以及所述增强操作集合中的每个增强操作的强度参数，搜索目标增强操作，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据多个所述第一距离以及所述距离阈值，确定所述增强操作是否为所述目标增强操作，包括：

6.根据权利要求3所述的方法，其特征在于，所述目标增强操作包括：属于第一类增强操作的第一目标增强操作以及属于第二类增强操作的第二目标增强操作；其中，所述第一类增强操作对应的执行概率范围的下限值大于所述第二类增强操作对应的执行概率范围的上限值；

7.根据权利要求6所述的方法，其特征在于，所述根据所述训练集的特征分布，在第二数据增强集合中搜索第二目标数据增强策略，包括：

8.根据权利要求7所述的方法

9.根据权利要求3所述的方法，其特征在于，所述方法还包括：

10.一种数据增强策略搜索装置，其特征在于，所述装置包括：

...

【技术特征摘要】

1.一种数据增强策略搜索方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取包含至少两类增强操作的增强操作集合，包括：

3.根据权利要求1所述的方法，其特征在于，所述获取待增强的训练集的特征分布，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据多个所述第一距离以及所述距离阈值，确定所述增强操作是否为所述目标增强操作，包括：

6.根据权利要求3所述的方法，其特征在于，所述目标增强...

【专利技术属性】
技术研发人员：林露樾，段纪伟，黄达一，
申请(专利权)人：珠海金山办公软件有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人