一种数据标注方法、装置、电子设备及存储介质制造方法及图纸

技术编号：25691393 阅读：17 留言：0更新日期：2020-09-18 21:02

本申请提供一种数据标注方法、装置、电子设备及存储介质，用于改善对图像数据进行数据标注效率比较低下的问题。该方法包括：使用预先训练的目标检测模型标注出第一图像集中的每个图像的检测框，第一图像集中的每个图像包括至少一个目标对象，检测框内的图像区域包括至少一个目标对象；根据第一图像集中的每个图像的检测框确定目标对象对应的第二图像集；对第二图像集进行聚类分析和相似性分析，获得第一类别集合；根据第一类别集合对第二图像集进行细类别划分，获得第二类别集合；对第二类别集合中的每个类别对应的图像进行聚类分析采样和类别标注，获得第二图像集中的每个图像对应的类别标签。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据标注方法、装置、电子设备及存储介质
本申请涉及机器学习和数据标注的
，具体而言，涉及一种数据标注方法、装置、电子设备及存储介质。
技术介绍
机器学习，是指人工智能领域中研究人类学习行为的一个分支，即通过归纳、一般化、特殊化、类比等基本方法探索人类的认识规律和学习过程，建立各种能通过经验自动改进的算法，使计算机系统能够具有自动学习特定知识和技能的能力。数据标注(DataAnnotation)，是指在使用训练集对模型训练进行机器学习的过程中，对训练集中的输入数据添加期望输出数据的数据标注，也就是说，对训练集中的训练数据添加对应的训练标签，这里的训练集通常是由输入数据和输出数据组成的数据对，这里的输入数据也可以理解为训练数据，这里的输出数据也可以理解为训练标签，通常训练标签是模型所期望的输出数据，在没有训练标签的情况下，需要人为地为训练数据添加对应的训练标签，常见的数据标注包括：图片标注、语音标注、文本标注和视频标注等。目前通常都是由人工地来完成数据标注，即人为地为训练数据添加对应的训练标签，具体例如：在商超零售领域中，需要标注的图片数据多为密集陈列的商品，在单张图片中的需要标注类别的商品种类和数量繁多；因此，通过人工方式对图像数据进行数据标注效率比较低下。
技术实现思路
本申请实施例的目的在于提供一种数据标注方法、装置、电子设备及存储介质，用于改善对图像数据进行数据标注效率比较低下的问题。本申请实施例提供了一种数据标注方法，包括：使用预先训练的目标检测模型标注出第...

【技术保护点】
1.一种数据标注方法，其特征在于，包括：/n使用预先训练的目标检测模型标注出第一图像集中的每个图像的检测框，所述第一图像集中的每个图像包括至少一个目标对象，所述检测框内的图像区域包括至少一个目标对象；/n根据所述第一图像集中的每个图像的检测框确定目标对象对应的第二图像集，所述第一图像集中的每个图像的图像尺寸大于所述第二图像集中的每个图像的图像尺寸；/n对所述第二图像集进行聚类分析和相似性分析，获得第一类别集合；/n根据所述第一类别集合对所述第二图像集进行细类别划分，获得第二类别集合；/n对所述第二类别集合中的每个类别对应的图像进行聚类分析采样和类别标注，获得所述第二图像集中的每个图像对应的类别标签。/n

【技术特征摘要】
1.一种数据标注方法，其特征在于，包括：
使用预先训练的目标检测模型标注出第一图像集中的每个图像的检测框，所述第一图像集中的每个图像包括至少一个目标对象，所述检测框内的图像区域包括至少一个目标对象；
根据所述第一图像集中的每个图像的检测框确定目标对象对应的第二图像集，所述第一图像集中的每个图像的图像尺寸大于所述第二图像集中的每个图像的图像尺寸；
对所述第二图像集进行聚类分析和相似性分析，获得第一类别集合；
根据所述第一类别集合对所述第二图像集进行细类别划分，获得第二类别集合；
对所述第二类别集合中的每个类别对应的图像进行聚类分析采样和类别标注，获得所述第二图像集中的每个图像对应的类别标签。

2.根据权利要求1所述的方法，其特征在于，所述目标检测模型包括：区域卷积神经网络模型，在所述使用预先训练的目标检测模型标注出第一图像集中的每个图像的检测框之前，还包括：
获得多个图像数据和多个图像标签，所述图像数据为包括目标对象的图像，所述图像标签为所述目标对象的类别标签；
以所述多个图像数据为训练数据，以所述多个图像标签为训练标签，对区域卷积神经网络进行训练，获得所述区域卷积神经网络模型。

3.根据权利要求1所述的方法，其特征在于，所述对所述第二图像集进行聚类分析和相似性分析，获得第一类别集合，包括：
对所述第二图像集进行聚类分析，获得所述第二图像集的多个聚类簇；
从所述多个聚类簇中的每个聚类簇中筛选出簇中心图像，获得多个簇中心图像；
对所述多个簇中心图像进行相似性分析，获得第一类别集合。

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一类别集合对所述第二图像集进行细类别划分，包括：
以所述多个簇中心图像为训练数据，以所述第一类别集合为训练标签，对特征提取网络进行训练，获得特征提取网络模型；
使用所述特征提取网络模型对所述第二图像集进行细类别划分。

5.根据权利要求3所述的方法，其特征在于，所述对所述第二类别集合中的每个类别对应的图...

【专利技术属性】
技术研发人员：秦永强，纪双西，李素莹，
申请(专利权)人：创新奇智上海科技有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人