System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及自动驾驶,特别是涉及一种标注数据清洗方法、装置、计算机设备、存储介质和计算机程序产品。
技术介绍
1、深度学习是机器学习领域中的一个新的研究方向,它被引入机器学习使其更接近于最初的目标-人工智能。深度学习是学习样本数据的内在规律和表示层次,这些学习过程获得的信息诸如文字、图像和声音等数据的解释有很大的帮助。深度学习在自动驾驶中的应用主要涉及感知、决策和控制等方面,例如:通过传感器和雷达的组合实现对道路、车辆和行人等物体的感知和识别;通过训练深度学习模型,实现对道路上的车辆、行人、交通标志等物体的检测和识别;将道路场景分割成不同的区域并分别识别出语义信息;通过深度学习模型来学习和优化驾驶策略,实现路线规划以及驾驶动作控制等。总而言之,深度学习在自动驾驶中的应用已经取得了显著的进展,只是仍然面临一些挑战,例如数据标注、计算性能和安全性等方面。
2、数据标注是指将原始数据集中的样本进行人工或半自动的标记或注释的过程。通过数据标注可以为模型提供有监督的训练数据。数据标注的目的是为了给每个样本分配正确的标签或类别,以便训练模型能够学习到样本的特征和模式,并进行预测和分类。
3、相关技术中,对数据进行标注的方法主要是通过人工标注、众包平台或半自动工具来完成。人工标注是指由人工标注员根据规定的标准和指南对数据进行标注。众包平台是通过将任务分发给大量的众包工人来完成标注任务。半自动工具是利用计算机视觉或自然语言处理技术来辅助标注过程。数据标注的质量和准确性对于训练出高质量的模型非常重要。因此,在进行数据标注时,
4、然而,目前的标注数据质量控制方法,存在如下的技术问题:
5、现有的标注数据质量控制方法的效率低,导致数据质检成本过高。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够提高数据标注质量的一种标注数据清洗方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
2、第一方面,本申请提供了一种标注数据清洗方法。所述方法包括:
3、获取待处理的初始数据,所述初始数据包括初始目标标注结果,对所述初始数据进行目标检测,得到目标召回检测结果;
4、基于所述初始目标标注结果以及所述目标召回检测结果构建得到标注实例集,所述实例集包括噪声标签;
5、基于预设的特征提取网络对所述标注实例集进行训练,得到所述标注实例集中实例样本的预测结果,所述预测结果包括置信度预测结果;
6、根据所述置信度预测结果得到所述噪声标签与所述实例样本的真实标签之间的联合概率分布;
7、基于所述联合概率分布对所述噪声标签进行过滤,以去除所述置信度预测结果满足预设的过滤条件的所述噪声标签。
8、在其中一个实施例中,所述基于所述初始目标标注结果以及所述目标召回检测结果构建得到标注实例集,所述实例集包括噪声标签包括:
9、分别获取所述初始目标标注结果对应的第一检测框以及目标召回检测结果对应的第二检测框;
10、通过计算得到所述第一检测框以及所述第二检测框的匹配参数,基于所述匹配参数为所述实例样本赋予所述噪声标签。
11、在其中一个实施例中,所述基于预设的特征提取网络对所述标注实例集进行训练,得到所述标注实例集中实例样本的预测结果,所述预测结果包括置信度预测结果包括:
12、将所述标注实例集划分为多个实例组,选取其中一个所述实例组作为训练集,并以剩余的所述实例组作为预测集;
13、基于所述训练集与所述预测集对所述标注实例集进行遍历训练,直至得到全部所述实例样本的所述预测结果。
14、在其中一个实施例中,所述根据所述置信度预测结果得到所述噪声标签与所述实例样本的真实标签之间的联合概率分布包括:
15、根据所述置信度预测结果确定置信度阈值,基于所述置信度阈值确定满足所述置信度阈值的所述实例样本的计数结果;
16、对所述计数结果进行归一化处理,得到所述联合概率分布。
17、在其中一个实施例中,所述基于所述联合概率分布对所述噪声标签进行过滤,以去除所述置信度预测结果满足预设的过滤条件的所述噪声标签包括:
18、根据所述联合概率分布确定目标实例样本的所述噪声标签与所述真实标签一致的期望概率;
19、基于所述期望概率以及所述目标实例样本对应的类别总数确定待过滤的所述噪声标签数量。
20、在其中一个实施例中,所述获取待处理的初始数据,所述初始数据包括初始目标标注结果,对所述初始数据进行目标检测,得到目标召回检测结果包括:
21、获取对所述初始数据中同一目标对象的多组召回检测结果;
22、基于预设的目标检测算法将多组所述召回检测结果合并,得到所述目标召回检测结果。
23、第二方面,本申请还提供了一种标注数据清洗装置。所述装置包括:
24、目标召回模块,用于获取待处理的初始数据,所述初始数据包括初始目标标注结果,对所述初始数据进行目标检测,得到目标召回检测结果;
25、实例集构建模块,用于基于所述初始目标标注结果以及所述目标召回检测结果构建得到标注实例集,所述实例集包括噪声标签;
26、实例样本预测模块,用于基于预设的特征提取网络对所述标注实例集进行训练,得到所述标注实例集中实例样本的预测结果,所述预测结果包括置信度预测结果;
27、联合概率分布模块,用于根据所述置信度预测结果得到所述噪声标签与所述实例样本的真实标签之间的联合概率分布;
28、标签过滤模块,用于基于所述联合概率分布对所述噪声标签进行过滤,以去除所述置信度预测结果满足预设的过滤条件的所述噪声标签。
29、在其中一个实施例中,所述实例集构建模块包括:
30、检测框模块,用于分别获取所述初始目标标注结果对应的第一检测框以及目标召回检测结果对应的第二检测框;
31、匹配参数模块,用于通过计算得到所述第一检测框以及所述第二检测框的匹配参数,基于所述匹配参数为所述实例样本赋予所述噪声标签。
32、在其中一个实施例中,所述实例样本预测模块包括:
33、样本分组模块,用于将所述标注实例集划分为多个实例组,选取其中一个所述实例组作为训练集,并以剩余的所述实例组作为预测集;
34、遍历训练模块,用于基于所述训练集与所述预测集对所述标注实例集进行遍历训练,直至得到全部所述实例样本的所述预测结果。
35、在其中一个实施例中,所述联合概率分布模块包括:
36、计数结果模块,用于根据所述置信度预测结果确定置信度阈值,基于所述置信度阈值确定满足所述置信度阈值的所述实例样本的计数结果;
...【技术保护点】
1.一种标注数据清洗方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述初始目标标注结果以及所述目标召回检测结果构建得到标注实例集,所述实例集包括噪声标签包括:
3.根据权利要求1所述的方法,其特征在于,所述基于预设的特征提取网络对所述标注实例集进行训练,得到所述标注实例集中实例样本的预测结果,所述预测结果包括置信度预测结果包括:
4.根据权利要求1所述的方法,其特征在于,所述根据所述置信度预测结果得到所述噪声标签与所述实例样本的真实标签之间的联合概率分布包括:
5.根据权利要求1所述的方法,其特征在于,所述基于所述联合概率分布对所述噪声标签进行过滤,以去除所述置信度预测结果满足预设的过滤条件的所述噪声标签包括:
6.根据权利要求1所述的方法,其特征在于,所述获取待处理的初始数据,所述初始数据包括初始目标标注结果,对所述初始数据进行目标检测,得到目标召回检测结果包括:
7.一种标注数据清洗装置,其特征在于,所述装置包括:
8.一种计算机设备,包括存储器和处理器,
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
...【技术特征摘要】
1.一种标注数据清洗方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述初始目标标注结果以及所述目标召回检测结果构建得到标注实例集,所述实例集包括噪声标签包括:
3.根据权利要求1所述的方法,其特征在于,所述基于预设的特征提取网络对所述标注实例集进行训练,得到所述标注实例集中实例样本的预测结果,所述预测结果包括置信度预测结果包括:
4.根据权利要求1所述的方法,其特征在于,所述根据所述置信度预测结果得到所述噪声标签与所述实例样本的真实标签之间的联合概率分布包括:
5.根据权利要求1所述的方法,其特征在于,所述基于所述联合概率分布对所述噪声标签进行过滤,以去除所述置信度预测结果满足预设的过滤条件的所述噪声标签...
【专利技术属性】
技术研发人员:龙翔,陈胤子,张振林,卢先英,
申请(专利权)人:中汽创智科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。