System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种数据集构建方法、装置、终端设备及存储介质制造方法及图纸_技高网

一种数据集构建方法、装置、终端设备及存储介质制造方法及图纸

技术编号:44435735 阅读:6 留言:0更新日期:2025-02-28 18:46
本申请适用于数据挖掘技术领域,提供了一种数据集构建方法、装置、终端设备及存储介质,所述方法包括:获取样本示例图片,所述样本示例图片中包含目标检测任务中的待检测目标;从所述样本示例图片中提取所述待检测目标的目标实例特征;根据所述目标实例特征与预先建立的近邻关系图,确定第一样本图集,其中,所述近邻关系图根据若干数量原始图片的原始实例特征建立,所述第一样本图集中的图片包含与所述目标实例特征相同和/或相似的实例特征;基于主动学习的任务流程对所述第一样本图集进行更新挖掘,得到用于所述目标检测任务的目标样本数据集。本申请可以高效构建数据集,减少噪声数据,保障数据集的质量,同时可有效节省人工消耗。

【技术实现步骤摘要】

本申请属于数据挖掘,尤其涉及一种数据集构建方法、装置、终端设备及存储介质


技术介绍

1、目标检测是计算机视觉领域一个基础问题,在工业界,常见类别的目标检测任务已经得到了较好的解决,这得益于基于深度学习的先进检测算法、强大的特征提取基础模型(如深度卷积神经网络、transformer等),以及大量的人工标注数据。其中,数据是提升算法性能的重中之重。

2、对于长尾场景下的目标检测任务,高效率的数据获取一直是工业界和学术界十分关心的问题。“长尾”是指在整体的数据集中,一小部分的类别占据了大多数的训练样本,而大部分的类别只有极少数的训练样本,“长尾”意味着数据出现的频率低,噪声数据多,如果通过人工标注大量原始数据来收集长尾任务的数据,需要消耗大量的人力。

3、因此,如何高效构建数据集并保证数据集的质量,减少噪声数据,是当前需要解决的问题。


技术实现思路

1、有鉴于此,本申请实施例提供了一种数据集构建方法、装置、终端设备及存储介质,可以高效构建数据集,减少噪声数据,保障数据集的质量,同时可有效节省人工消耗。

2、本申请实施例的第一方面提供了一种数据集构建方法,包括:

3、获取样本示例图片,所述样本示例图片中包含目标检测任务中的待检测目标;

4、从所述样本示例图片中提取所述待检测目标的目标实例特征;

5、根据所述目标实例特征与预先建立的近邻关系图,确定第一样本图集,其中,所述近邻关系图根据若干数量原始图片的原始实例特征建立,所述第一样本图集中的图片包含与所述目标实例特征相同和/或相似的实例特征;

6、基于主动学习的任务流程对所述第一样本图集进行更新挖掘,得到用于所述目标检测任务的目标样本数据集。

7、本申请实施例的第二方面提供了一种数据集构建装置,包括:

8、示例图获取单元,用于获取样本示例图片,所述样本示例图片中包含目标检测任务中的待检测目标;

9、目标实例提取单元,用于从所述样本示例图片中提取所述待检测目标的目标实例特征;

10、第一图集确定单元,用于根据所述目标实例特征与预先建立的近邻关系图,确定第一样本图集,其中,所述近邻关系图根据若干数量原始图片的原始实例特征建立,所述第一样本图集中的图片包含与所述目标实例特征相同和/或相似的实例特征;

11、数据集构建单元,用于基于主动学习的任务流程对所述第一样本图集进行更新挖掘,得到用于所述目标检测任务的目标样本数据集。

12、本申请实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述方法的步骤。

13、本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述方法的步骤。

14、本申请实施例的第五方面提供了一种计算机程序产品,当所述计算机程序产品在终端设备上运行时,使得终端设备实现如上述方法的步骤。

15、本申请实施例与现有技术相比存在的有益效果是:

16、在本申请的数据集构建方法中,通过获取包含待检测目标的样本示例图片,然后从所述样本示例图片中提取所述待检测目标的目标实例特征,根据所述目标实例特征与预先建立的包括相似实例特征关系的近邻关系图,快速确定第一样本图集,再基于主动学习的任务流程对所述第一样本图集进行更新挖掘,得到可用于所述目标检测任务的目标样本数据集,本申请方案可高效构建高质量的目标样本数据集,节省人工损耗,数据集构建效率及质量的提升有利于提升目标检测模型的性能。

本文档来自技高网...

【技术保护点】

1.一种数据集构建方法,其特征在于,包括:

2.根据权利要求1所述的数据集构建方法,其特征在于,在所述根据所述目标实例特征与预先建立的近邻关系图,确定第一样本图集的步骤之前,包括:

3.根据权利要求2所述的数据集构建方法,其特征在于,所述对若干数量的原始图片进行实例特征提取,获得每一所述原始图片对应的原始实例特征的步骤,包括:

4.根据权利要求1所述的数据集构建方法,其特征在于,所述从所述样本示例图片中提取所述待检测目标的目标实例特征的步骤,包括:

5.根据权利要求1所述的数据集构建方法,其特征在于,所述近邻关系图通过对若干数量的原始实例特征聚类得到,所述近邻关系图包括聚类中心的中心实例特征,以及所述中心实例特征与所述原始实例特征的索引关系;

6.根据权利要求1所述的数据集构建方法,其特征在于,所述基于主动学习的任务流程对所述第一样本图集进行更新挖掘,得到用于所述目标检测任务的目标样本数据集的步骤,包括:

7.根据权利要求1至6任一项所述的数据集构建方法,其特征在于,在所述基于主动学习的任务流程对所述第一样本图集进行更新挖掘,得到用于所述目标检测任务的目标样本数据集的步骤之后,还包括:

8.一种数据集构建装置,其特征在于,包括:

9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。

...

【技术特征摘要】

1.一种数据集构建方法,其特征在于,包括:

2.根据权利要求1所述的数据集构建方法,其特征在于,在所述根据所述目标实例特征与预先建立的近邻关系图,确定第一样本图集的步骤之前,包括:

3.根据权利要求2所述的数据集构建方法,其特征在于,所述对若干数量的原始图片进行实例特征提取,获得每一所述原始图片对应的原始实例特征的步骤,包括:

4.根据权利要求1所述的数据集构建方法,其特征在于,所述从所述样本示例图片中提取所述待检测目标的目标实例特征的步骤,包括:

5.根据权利要求1所述的数据集构建方法,其特征在于,所述近邻关系图通过对若干数量的原始实例特征聚类得到,所述近邻关系图包括聚类中心的中心实例特征,以及所述中心实例特征与所述原始实例特征的索引关系;

6.根据权利要求1所述的数据集构...

【专利技术属性】
技术研发人员:林丰余晓填肖嵘陈宁
申请(专利权)人:深圳云天励飞技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1