一种适用于目标检测算法小样本学习任务的数据增强方法及系统技术方案

技术编号：37394987 阅读：26 留言：0更新日期：2023-04-27 07:32

本发明专利技术涉及基于深度学习的目标检测技术领域，尤其涉及一种适用于目标检测算法小样本学习任务的数据增强方法及系统。为了解决传统目标检测算法在小样本学习问题上会随着数据集数量的减少而逐渐失效的缺陷，本发明专利技术提供一种适用于目标检测算法小样本学习任务的数据增强方法及系统。本发明专利技术方法基于copy and paste算法以及U2Net图像分割工具的目标检测数据集扩容方法，对检测目标的实例进行剪切、复制、增强、粘贴等操作以扩容训练样本集，同时采用预训练U2Net图像分割算法剔除目标实例的背景，使目标实例可以融合于新的图像场景，最终实现标注实例数量及样本多样性的同步提升。终实现标注实例数量及样本多样性的同步提升。终实现标注实例数量及样本多样性的同步提升。

全部详细技术资料下载

【技术实现步骤摘要】
一种适用于目标检测算法小样本学习任务的数据增强方法及系统

[0001]本专利技术涉及基于深度学习的目标检测
，尤其涉及一种适用于目标检测算法小样本学习任务的数据增强方法及系统。

技术介绍

[0002]数据增强是提升数据利用效率的最直接方式，是各类深度学习算法中的关键组件。在目标检测领域，常用的数据增强方法包含图像仿射变换、切割等基础算法，也包括集成在目标检测算法框架内的Mosaic，MixUp等方法。这些算法本质上更通用，并不是针对于小样本学习问题而单独设计的，因此这些算法也会随着数据集数量的减少而逐渐失效。对于小样本学习场景，传统的copy and paste算法由于无法删除目标实例的背景，仅通过复制粘贴对待增强数据的增强效果不佳，很难实现实例数量及样本多样性的同步提升。

技术实现思路

[0003]针对上述问题，本专利技术提供一种适用于目标检测算法小样本学习任务的数据增强方法及系统，旨在通过对检测目标实例的剪切、复制、增强和粘贴等操作扩容训练样本集，最终实现标注实例数量及样本多样性的同步提升。
[0004]一种适用于目标检测算法小样本学习任务的数据增强方法，包括以下步骤：
[0005]S1、统计训练数据中每个类别的标注实例数量，根据该数量定义头类和尾类；
[0006]S2、开始一轮训练，按顺序读取训练数据，将当前读取的训练数据定义为待增强数据，随机抽选另一个训练数据，定义为源数据；
[0007]S3、通过随机裁剪、随机旋转、随机尺度和随机剪切改变所述待增强数据的...

【技术保护点】

【技术特征摘要】
1.一种适用于目标检测算法小样本学习任务的数据增强方法，其特征在于，包括以下步骤：S1、统计训练数据中每个类别的标注实例数量，根据该数量定义头类和尾类；S2、开始一轮训练，按顺序读取训练数据，将当前读取的训练数据定义为待增强数据，随机抽选另一个训练数据，定义为源数据；S3、通过随机裁剪、随机旋转、随机尺度和随机剪切改变所述待增强数据的图像，并修改其标注信息；S4、利用源数据的标注信息从源数据的图像中裁剪标注实例，将所有标注实例记为源实例图像集合I，并根据各类别的标注实例数量，将源实例图像集合I中属于头类的实例集合记为I
L
；属于尾类的实例集合记为I
S
；S5、通过随机裁剪、随机旋转、随机尺度和随机剪切改变所述I
S
的实例图像；S6、随机抽选所述I
L
中预定数量的实例，删除未选中的实例；S7、利用U2Net检测并识别步骤S5与步骤S6得到的I
S
和I
L
内所有实例图像的前景和背景，并将每个实例图像的背景剔除；S8、将剔除背景的实例图像粘贴到所述待增强数据中，并修改对应标注信息；S9、重复步骤S2至步骤S8，直至遍历当前轮次所有训练数据；S10、利用增强后的训练数据集训练模型，完成当前训练轮次，判断训练轮次是否达到预设次数，若是，则结束训练，否则，回到步骤S2。2.根据权利要求1所述的一种适用于目标检测算法小样本学习任务的数据增强方法，其特征在于，所述步骤S1定义头类和尾类的方法为：统计训练数据中所有类别的标注实例数量，判断某个类别的标注实例数量是否小于标注实例数量最大的类别的标注实例数量的预设阈值，若是则将该类别定义为尾类，否则定义为头类。3.根据权利要求1所述的一种适用于目标检测算法小样本学习任务的数据增强方法，其特征在于，所述训练数据包含训练图像、训练图像尺度、训练图像格式、训练图像地址和标注信息，其中，所述标注信息包括：检测/分割任务类型、标注属性、标注类别、标注框坐标和标注框类别。4.根据权利要求1所述的一种适用于目标检测算法小样本学习任务的数据增强方法，其特征在于，所述随机裁剪步骤通过四个随机值R1、R2、R3、R4定义其裁剪方法，其中R1、R2为布尔值0或1，R1＝0、1分别代表矩形实例从左、右方向开始裁剪；R2＝0、1分别代表矩形实例从上、下开始裁剪；R3、R4为(0，1)内的随机小...

【专利技术属性】
技术研发人员：严鼎天，黄季涛，熊俊峰，张剑，郑荣，张黎，陈国润，徐玉清，
申请(专利权)人：上海理想信息产业集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人