数据标注的方法、装置及电子设备制造方法及图纸

技术编号:33886998 阅读:60 留言:0更新日期:2022-06-22 17:20
本申请公开了一种数据标注的方法、装置及电子设备。其中,该方法包括:网络侧设备获取待标注数据集,以及获取待标注数据集中待标注数据的类型,其中,待标注数据集中的待标注数据具有第一标记,第一标记表示允许获取待标注数据;从待标注数据的类型中确定目标类型,从待标注数据集中确定属于目标类型的数据,得到目标数据;将目标数据分发给不同的目标对象;接收目标对象对目标数据进行标注后的标注结果,并存储标注结果。本申请解决了由于不同的AI公司对数据的要求不同,导致无法在全流程建立标准,只能被动的接收定制化需求的技术问题。只能被动的接收定制化需求的技术问题。只能被动的接收定制化需求的技术问题。

【技术实现步骤摘要】
数据标注的方法、装置及电子设备


[0001]本申请涉及数据标注领域,具体而言,涉及一种数据标注的方法、装置及电子设备。

技术介绍

[0002]在AI领域,尤其是以计算机视觉为主的AIOT(人工智能物联网)、自动驾驶领域中,对数据标注是很重要的依赖;从标注工具本身来说是通过可视化工具来标注现实世界中需要算法感知到的要素,涉及到对语音、图像、点云的标注等;标注本身看似技术不复杂,但为了标注进行的整个数据准备、处理、运营管理的过程是一个繁复的长链过程;目前市面上缺少对“标注工具链”的行业标准,主要受制于AI公司本身的业务繁杂,快速发展过程中制约了标准跟进步伐,如果后期去做弥补去重新建立标准而进行改造,对已有流程是较大的冲击,而数据标注多由三方专业服务商提供服务,最大的问题在于受限于不同AI公司对数据的要求不同,三方公司无法在全流程建立标准,只能被动的接收定制化需求。
[0003]建立灵活规范高可用的“标注工具链”对目前AI领域的快速发展是一个非常必要的能力,但有很多的环节需要攻克。
[0004]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]本申请实施例提供了一种数据标注的方法、装置及电子设备,以至少解决由于不同的AI公司对数据的要求不同,导致无法在全流程建立标准,只能被动的接收定制化需求的技术问题。
[0006]根据本申请实施例的一个方面,提供了一种数据标注的方法,包括:网络侧设备获取待标注数据集,以及获取待标注数据集中待标注数据的类型,其中,待标注数据集中的待标注数据具有第一标记,第一标记表示允许获取待标注数据;从待标注数据的类型中确定目标类型,从待标注数据集中确定属于目标类型的数据,得到目标数据;将目标数据分发给不同的目标对象;接收目标对象对目标数据进行标注后的标注结果,并存储标注结果。
[0007]可选地,网络侧设备获取待标注数据集,包括:获取第一数据和第二数据,其中,第一数据为对全部原始数据进行处理后得到的数据,第二数据为第一数据中需要进行标注的数据,第一数据对应的第一数据表和第二数据对应的第二数据表存在映射关系,第一数据表和第二数据表存储在数据库中;对第二数据进行复制,得到第三数据,其中,第三数据中的每条数据都以第一命名方式命名;将第三数据按顺序拆分成多个批次,其中,多个批次中存储的数据量相同;将多个批次中的来自同一采集任务的数据存储在待标注数据集中。
[0008]可选地,第二数据通过以下方式获取:依据文件类型确定第二数据;采用标签对第二数据进行标记,并记录第二数据和标签的映射关系,其中,标签为与第二数据对应的场景信息的标签。
[0009]可选地,对第二数据进行复制,得到第三数据,包括:在第三数据的文件类型为图
片格式时,过滤连续帧图片中相似度大于预设阈值的图片;将过滤后的第三数据的格式类型转换成目标格式后,以第二命名方式命名第三数据。
[0010]可选地,将第三数据按顺序拆分成多个批次,包括:确定第三数据的数据量,以及多个批次中每个批次存储的最大数据量;将第三数据按照存储顺序依次存入多个批次中;在多个批次中的每个批次存储的数据量达到最大数据量时,自动将数据存入下一批次,直至第三数据全部存入多个批次中,并以第三命名方式命名多个批次。
[0011]可选地,存储顺序为第三数据存储在不同文件夹下的文件顺序。
[0012]可选地,将多个批次中的来自同一采集任务的数据存储在待标注数据集中,包括:依据多个批次中存储的第三数据的标签以及多个批次的命名,确定第三数据所属的采集任务,其中,第三数据的标签和第二数据的标签相同;将属于同一采集任务的数据进行分组,将分组后的数据存储在待标注数据集中。
[0013]可选地,网络侧设备获取待标注数据集,包括:在待标注数据集中的待标注数据具有第二标记时,拒绝获取待标注数据。
[0014]可选地,将目标数据分发给不同的目标对象,包括:将目标数据平均划分成目标数量的单元;将目标数量的单元分发给不同组的目标对象进行标注。
[0015]可选地,存储标注结果之后,方法还包括:对标注结果进行以下至少之一的校验:存储标注结果的文件格式、标注的语法、比对预先埋点的真值结果与对应的标注的数据是否一致;将校验结果与标注结果以目标结构存储至数据库中。
[0016]根据本申请实施例的另一方面,还提供了一种数据标注的装置,包括:获取模块,用于获取待标注数据集,以及获取待标注数据集中待标注数据的类型,其中,待标注数据集中的待标注数据具有第一标记,第一标记表示允许获取待标注数据;确定模块,用于确定目标类型,从待标注数据集中确定属于目标类型的数据,得到目标数据;分发模块,用于将目标数据分发给不同的目标对象;接收模块,用于接收目标对象对目标数据进行标注后的标注结果,并存储标注结果。
[0017]根据本申请实施例的又一方面,还提供了一种电子设备,包括:存储器,用于存储程序指令;处理器,与存储器连接,用于执行实现以下功能的程序指令:网络侧设备获取待标注数据集,以及获取待标注数据集中待标注数据的类型,其中,待标注数据集中的待标注数据具有第一标记,第一标记表示允许获取待标注数据;确定目标类型,从待标注数据集中确定属于目标类型的数据,得到目标数据;将目标数据分发给不同的目标对象;接收目标对象对目标数据进行标注后的标注结果,并存储标注结果。
[0018]根据本申请实施例的再一方面,还提供了一种非易失性存储介质,该非易失性存储介质包括存储的程序,其中,在程序运行时控制该非易失性存储介质所在设备执行上述数据标注的方法。
[0019]在本申请实施例中,通过搭建标准的面向自动驾驶领域的全流程标注工具链,达到了在全流程标注过程中对数据进行标准化处理的目的,从而实现了缩短标注周期,提升标注效率的技术效果,进而解决了由于不同的AI公司对数据的要求不同,导致无法在全流程建立标准,只能被动的接收定制化需求的技术问题。
附图说明
[0020]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0021]图1是根据本申请实施例的一种用于实现数据标注的方法的计算机终端(或电子设备)的硬件结构框图;
[0022]图2是根据本申请实施例的一种数据标注的方法的流程图;
[0023]图3是根据本申请实施例的一种网络侧设备获取待标注数据集的流程图;
[0024]图4是根据本申请实施例的一种第二数据的获取方式的流程图;
[0025]图5是根据本申请实施例的一种得到第三数据的流程图;
[0026]图6是根据本申请实施例的一种将第三数据按顺序拆分成多个批次的流程图;
[0027]图7是根据本申请实施例的一种将多个批次中的来自同一采集任务的数据存储在待标注数据集中的流程图;
[0028]图8是根据本申请实施例的一种将目标数据分发给不同的目标对象的流程图;...

【技术保护点】

【技术特征摘要】
1.一种数据标注的方法,其特征在于,包括:网络侧设备获取待标注数据集,以及获取所述待标注数据集中待标注数据的类型,其中,所述待标注数据集中的待标注数据具有第一标记,所述第一标记表示允许获取所述待标注数据;从所述待标注数据的类型中确定目标类型,从所述待标注数据集中确定属于所述目标类型的数据,得到目标数据;将所述目标数据分发给不同的目标对象;接收所述目标对象对所述目标数据进行标注后的标注结果,并存储所述标注结果。2.根据权利要求1所述的数据标注的方法,其特征在于,网络侧设备获取待标注数据集,包括:获取第一数据和第二数据,其中,所述第一数据为对全部原始数据进行处理后得到的数据,所述第二数据为所述第一数据中需要进行标注的数据,所述第一数据对应的第一数据表和所述第二数据对应的第二数据表存在映射关系,所述第一数据表和所述第二数据表存储在数据库中;对所述第二数据进行复制,得到第三数据,其中,所述第三数据中的每条数据都以第一命名方式命名;将所述第三数据按顺序拆分成多个批次,其中,所述多个批次中存储的数据量相同;将所述多个批次中的来自同一采集任务的数据存储在所述待标注数据集中。3.根据权利要求2所述的数据标注的方法,其特征在于,所述第二数据通过以下方式获取:依据文件类型确定所述第二数据;采用标签对所述第二数据进行标记,并记录所述第二数据和所述标签的映射关系,其中,所述标签为与所述第二数据对应的场景信息的标签。4.根据权利要求2所述的数据标注的方法,其特征在于,对所述第二数据进行复制,得到第三数据,包括:在所述第三数据的文件类型为图片格式时,过滤连续帧图片中相似度大于预设阈值的图片;将过滤后的第三数据的格式类型转换成目标格式后,以第二命名方式命名第三数据。5.根据权利要求2所述的数据标注的方法,其特征在于,将所述第三数据按顺序拆分成多个批次,包括:确定所述第三数据的数据量,以及所述多个批次中每个批次存储的最大数据量;将所述第三数据按照存储顺序依次存入所述多个批次中;在所述多个批次中的每个批次存储的数据量达到所述最大数据量时,自动将数据存入下一批次,直至所述第三数据全部存入所述多个批次中,并以第三命名方式命名所述多个批次。6.根据权利要求5所述的数据标注的方法,其特征在于,所述存储顺序为所述第三数据存储在不同文件夹下的文件顺序。7.根据权利要求2所述的数据标注的方法,其特征在于,将所述多个批次...

【专利技术属性】
技术研发人员:史明威王尔辛
申请(专利权)人:亿咖通湖北技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1