一种数据标注方法、装置、电子设备及存储介质制造方法及图纸

技术编号:25691393 阅读:17 留言:0更新日期:2020-09-18 21:02
本申请提供一种数据标注方法、装置、电子设备及存储介质,用于改善对图像数据进行数据标注效率比较低下的问题。该方法包括:使用预先训练的目标检测模型标注出第一图像集中的每个图像的检测框,第一图像集中的每个图像包括至少一个目标对象,检测框内的图像区域包括至少一个目标对象;根据第一图像集中的每个图像的检测框确定目标对象对应的第二图像集;对第二图像集进行聚类分析和相似性分析,获得第一类别集合;根据第一类别集合对第二图像集进行细类别划分,获得第二类别集合;对第二类别集合中的每个类别对应的图像进行聚类分析采样和类别标注,获得第二图像集中的每个图像对应的类别标签。

【技术实现步骤摘要】
一种数据标注方法、装置、电子设备及存储介质
本申请涉及机器学习和数据标注的
,具体而言,涉及一种数据标注方法、装置、电子设备及存储介质。
技术介绍
机器学习,是指人工智能领域中研究人类学习行为的一个分支,即通过归纳、一般化、特殊化、类比等基本方法探索人类的认识规律和学习过程,建立各种能通过经验自动改进的算法,使计算机系统能够具有自动学习特定知识和技能的能力。数据标注(DataAnnotation),是指在使用训练集对模型训练进行机器学习的过程中,对训练集中的输入数据添加期望输出数据的数据标注,也就是说,对训练集中的训练数据添加对应的训练标签,这里的训练集通常是由输入数据和输出数据组成的数据对,这里的输入数据也可以理解为训练数据,这里的输出数据也可以理解为训练标签,通常训练标签是模型所期望的输出数据,在没有训练标签的情况下,需要人为地为训练数据添加对应的训练标签,常见的数据标注包括:图片标注、语音标注、文本标注和视频标注等。目前通常都是由人工地来完成数据标注,即人为地为训练数据添加对应的训练标签,具体例如:在商超零售领域中,需要标注的图片数据多为密集陈列的商品,在单张图片中的需要标注类别的商品种类和数量繁多;因此,通过人工方式对图像数据进行数据标注效率比较低下。
技术实现思路
本申请实施例的目的在于提供一种数据标注方法、装置、电子设备及存储介质,用于改善对图像数据进行数据标注效率比较低下的问题。本申请实施例提供了一种数据标注方法,包括:使用预先训练的目标检测模型标注出第一图像集中的每个图像的检测框,第一图像集中的每个图像包括至少一个目标对象,检测框内的图像区域包括至少一个目标对象;根据第一图像集中的每个图像的检测框确定目标对象对应的第二图像集,第一图像集中的每个图像的图像尺寸大于第二图像集中的每个图像的图像尺寸;对第二图像集进行聚类分析和相似性分析,获得第一类别集合;根据第一类别集合对第二图像集进行细类别划分,获得第二类别集合;对第二类别集合中的每个类别对应的图像进行聚类分析采样和类别标注,获得第二图像集中的每个图像对应的类别标签。在上述的实现过程中,使用目标检测模型标注出第一图像集中的检测框,并根据检测框从第一图像集中确定包括目标对象的第二图像集;然后对第二图像集进行聚类分析、相似性分析、细类别划分和类别标注,获得最终的图像类别标签;也就是说,通过目标检测模型标注出第一图像集中的检测框获得第二图像集,并对第二图像集进行聚类分析、相似性分析、细类别划分和类别标注,有效地提高了对图像数据进行数据标注的效率。可选地,在本申请实施例中,目标检测模型包括:区域卷积神经网络模型,在使用预先训练的目标检测模型标注出第一图像集中的每个图像的检测框之前,还包括:获得多个图像数据和多个图像标签,图像数据为包括目标对象的图像,图像标签为目标对象的类别标签;以多个图像数据为训练数据,以多个图像标签为训练标签,对区域卷积神经网络进行训练,获得区域卷积神经网络模型。在上述的实现过程中,通过以获得的多个图像数据为训练数据,以获得的多个图像标签为训练标签,对区域卷积神经网络进行训练,获得区域卷积神经网络模型,再使用训练后的区域卷积神经网络模型标注图像数据;从而有效地提高了对图像数据进行数据标注的正确率。可选地,在本申请实施例中,对第二图像集进行聚类分析和相似性分析,获得第一类别集合,包括:对第二图像集进行聚类分析,获得第二图像集的多个聚类簇;从多个聚类簇中的每个聚类簇中筛选出簇中心图像,获得多个簇中心图像;对多个簇中心图像进行相似性分析,获得第一类别集合。在上述的实现过程中,通过对第二图像集进行聚类分析,获得第二图像集的多个聚类簇;从多个聚类簇中的每个聚类簇中筛选出簇中心图像,获得多个簇中心图像;对多个簇中心图像进行相似性分析,获得第一类别集合,从而有效地提高了获得第一类别集合的正确率。可选地,在本申请实施例中,根据第一类别集合对第二图像集进行细类别划分,包括:以多个簇中心图像为训练数据,以第一类别集合为训练标签,对特征提取网络进行训练,获得特征提取网络模型;使用特征提取网络模型对第二图像集进行细类别划分。在上述的实现过程中,通过以多个簇中心图像为训练数据,以第一类别集合为训练标签,对特征提取网络进行训练,获得特征提取网络模型;并使用特征提取网络模型对第二图像集进行细类别划分;从而有效地提高了获得第一类别集合的正确率。可选地,在本申请实施例中,对第二类别集合中的每个类别对应的图像进行聚类分析采样和类别标注,包括:对第二类别集合中的每个类别对应的图像进行聚类分析采样,获得多个采样聚类;将多个采样聚类中的每个采样聚类中除簇中心图像之外的图像进行类别标注。在上述的实现过程中,通过对第二类别集合中的每个类别对应的图像进行聚类分析采样,获得多个采样聚类;将多个采样聚类中的每个采样聚类中除簇中心图像之外的图像进行类别标注;从而有效地提高了对除簇中心图像之外的图像进行类别标注的效率。可选地,在本申请实施例中,在获得第二图像集中的每个图像对应的类别标签之后,还包括:获得第二图像集中的每个图像的人工标注标签;根据每个图像的人工标注标签对每个图像对应的类别标签进行修正。在上述的实现过程中,通过获得第二图像集中的每个图像的人工标注标签;根据每个图像的人工标注标签对每个图像对应的类别标签进行修正;从而有效地提高了对图像进行类别标注的正确率。与此同时,通过一部分图像数据使用人工标注,而另一部份图像数据使用辅助算法标注,在保证数据标注质量的情况下,有效地提高对图像进行类别标注的效率,减轻了人工标注的工作量。可选地,在本申请实施例中,在获得第二图像集中的每个图像对应的类别标签之后,还包括:将第一图像集划分为训练集和测试集;对训练集和测试集进行交叉验证,获得第一图像集的类别标签的准确率。在上述的实现过程中,通过将第一图像集划分为训练集和测试集;对训练集和测试集进行交叉验证,获得第一图像集的类别标签的准确率;从而有效地验证了训练数据的准确率。本申请实施例还提供了一种数据标注装置,包括:检测框标注模块,用于使用预先训练的目标检测模型标注出第一图像集中的每个图像的检测框,第一图像集中的每个图像包括至少一个目标对象,检测框内的图像区域包括至少一个目标对象;图像集确定模块,用于根据第一图像集中的每个图像的检测框确定目标对象对应的第二图像集,第一图像集中的每个图像的图像尺寸大于第二图像集中的每个图像的图像尺寸;图像集分析模块,用于对第二图像集进行聚类分析和相似性分析,获得第一类别集合;细类别划分模块,用于根据第一类别集合对第二图像集进行细类别划分,获得第二类别集合;类别标签获得模块,用于对第二类别集合中的每个类别对应的图像进行聚类分析采样和类别标注,获得第二图像集中的每个图像对应的类别标签。可选地,在本申请实施例中,目标检测模型包括:区域卷积神经网络模型,数据标注装置,还包括:数据标签获得模块,用于获得多个图像数据和多个图像标签,图像数据为包括目标对象的图像,图像标签为目标对象的类别标签;神经网络训练模块,用于本文档来自技高网...

【技术保护点】
1.一种数据标注方法,其特征在于,包括:/n使用预先训练的目标检测模型标注出第一图像集中的每个图像的检测框,所述第一图像集中的每个图像包括至少一个目标对象,所述检测框内的图像区域包括至少一个目标对象;/n根据所述第一图像集中的每个图像的检测框确定目标对象对应的第二图像集,所述第一图像集中的每个图像的图像尺寸大于所述第二图像集中的每个图像的图像尺寸;/n对所述第二图像集进行聚类分析和相似性分析,获得第一类别集合;/n根据所述第一类别集合对所述第二图像集进行细类别划分,获得第二类别集合;/n对所述第二类别集合中的每个类别对应的图像进行聚类分析采样和类别标注,获得所述第二图像集中的每个图像对应的类别标签。/n

【技术特征摘要】
1.一种数据标注方法,其特征在于,包括:
使用预先训练的目标检测模型标注出第一图像集中的每个图像的检测框,所述第一图像集中的每个图像包括至少一个目标对象,所述检测框内的图像区域包括至少一个目标对象;
根据所述第一图像集中的每个图像的检测框确定目标对象对应的第二图像集,所述第一图像集中的每个图像的图像尺寸大于所述第二图像集中的每个图像的图像尺寸;
对所述第二图像集进行聚类分析和相似性分析,获得第一类别集合;
根据所述第一类别集合对所述第二图像集进行细类别划分,获得第二类别集合;
对所述第二类别集合中的每个类别对应的图像进行聚类分析采样和类别标注,获得所述第二图像集中的每个图像对应的类别标签。


2.根据权利要求1所述的方法,其特征在于,所述目标检测模型包括:区域卷积神经网络模型,在所述使用预先训练的目标检测模型标注出第一图像集中的每个图像的检测框之前,还包括:
获得多个图像数据和多个图像标签,所述图像数据为包括目标对象的图像,所述图像标签为所述目标对象的类别标签;
以所述多个图像数据为训练数据,以所述多个图像标签为训练标签,对区域卷积神经网络进行训练,获得所述区域卷积神经网络模型。


3.根据权利要求1所述的方法,其特征在于,所述对所述第二图像集进行聚类分析和相似性分析,获得第一类别集合,包括:
对所述第二图像集进行聚类分析,获得所述第二图像集的多个聚类簇;
从所述多个聚类簇中的每个聚类簇中筛选出簇中心图像,获得多个簇中心图像;
对所述多个簇中心图像进行相似性分析,获得第一类别集合。


4.根据权利要求3所述的方法,其特征在于,所述根据所述第一类别集合对所述第二图像集进行细类别划分,包括:
以所述多个簇中心图像为训练数据,以所述第一类别集合为训练标签,对特征提取网络进行训练,获得特征提取网络模型;
使用所述特征提取网络模型对所述第二图像集进行细类别划分。


5.根据权利要求3所述的方法,其特征在于,所述对所述第二类别集合中的每个类别对应的图...

【专利技术属性】
技术研发人员:秦永强纪双西李素莹
申请(专利权)人:创新奇智上海科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1