System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及计算机,特别是涉及一种数据标注方法及相关装置。
技术介绍
1、有监督学习是指利用已知类型的标注数据来训练模型,使模型能够对未知类型的数据进行分类或预测的深度学习方法。在有监督学习中,标注数据对模型性能有着重要的影响。
2、目前可以由标注员依靠自身的专业知识对数据进行标注以得到标注数据。然而随着大数据时代的到来,数据量以及数据类型随着增加,这对标注员的专业性提出了更高的要求。
3、在标注员数量有限,而数据量以及数据类型不断增加的情况下,如何提高数据标注效率,成为目前亟待解决的技术问题。
技术实现思路
1、基于上述问题,本申请提供了一种数据标注方法及相关装置。
2、本申请实施例公开了如下技术方案:
3、第一方面:本申请实施例提供一种数据标注方法,包括:
4、对待标注数据进行缺陷数据提取,获得所述待标注数据中的缺陷数据;
5、根据所述缺陷数据与缺陷检索库中的标注数据之间的相似度,确定所述缺陷数据的类型;所述缺陷检索库中的标注数据为标注类型的缺陷数据;
6、基于所述缺陷数据的类型,对所述待标注数据进行标注,获得标注后的数据。
7、在一种可能的实现方式中,所述根据所述缺陷数据与缺陷检索库中的标注数据之间的相似度,确定所述缺陷数据的类型,包括:
8、计算所述缺陷数据与所述缺陷检索库中的标注数据之间的距离;
9、按照距离从小到大的顺序对所述缺陷检索库中的标注数据进行排
10、根据所述排序后的缺陷检索库中的前k个标注数据的类型,确定所述缺陷数据的类型;其中,k为正整数。
11、在一种可能的实现方式中,所述根据所述排序后的缺陷检索库中的前k个标注数据的类型,确定所述缺陷数据的类型,包括:
12、根据所述排序后的缺陷检索库中的前k个标注数据的类型,确定各类型对应的距离阈值;
13、基于所述各类型对应的距离阈值对所述k个标注数据进行筛选,得到筛选后的标注数据;
14、根据所述筛选后的标注数据的类型,确定所述缺陷数据的类型。
15、在一种可能的实现方式中,所述根据所述排序后的缺陷检索库中的前k个标注数据的类型,确定各类型对应的距离阈值,包括:
16、针对所述前k个标注数据的类型中的每个类型,计算所述缺陷检索库中所述类型对应的标注数据与聚类中心之间的距离;
17、将所述类型对应的标注数据与聚类中心之间的距离中的最大值,确定为所述类型的第一距离;
18、基于第一类型的标注数据在所述k个标注数据中的占比,对各类型的第一距离进行调节,确定各类型对应的距离阈值;所述第一类型的标注数据为所述k个标注数据中占比最大的标注数据。
19、在一种可能的实现方式中,所述基于第一类型的标注数据在所述k个标注数据中的占比,对各类型的第一距离进行调节,确定各类型对应的距离阈值,包括:
20、基于第一类型的标注数据在所述k个标注数据中的占比,确定调节系数;
21、将所述调节系数与各类型的第一距离的乘积,确定为各类型对应的距离阈值。
22、在一种可能的实现方式中,所述根据所述筛选后的标注数据的类型,确定所述缺陷数据的类型,包括:
23、将所述筛选后的标注数据的类型确定为候选类型;
24、根据所述k个标注数据的类型对应的第二距离,确定候选类型中占比最大的候选类型;所述类型对应的第二距离为缺陷检索库中所述类型对应的标注数据与聚类中心之间的距离总和的平均值;
25、将所述占比最大的候选类型确定为所述缺陷数据的类型。
26、在一种可能的实现方式中,所述根据所述缺陷数据与缺陷检索库中的标注数据之间的相似度,确定所述缺陷数据的类型,包括:
27、对所述缺陷数据进行编码,得到所述缺陷数据的特征向量;
28、根据所述缺陷数据的特征向量与所述缺陷检索库中的标注数据的特征向量之间的相似度,确定所述缺陷数据的类型;所述标注数据的特征向量为对所述标注数据进行编码得到的。
29、第二方面:本申请实施例提供一种数据标注装置,包括:
30、提取单元、确定单元、以及标注单元;
31、所述提取单元,用于对待标注数据进行缺陷数据提取,获得所述待标注数据中的缺陷数据;
32、所述确定单元,用于根据所述缺陷数据与缺陷检索库中的标注数据之间的相似度,确定所述缺陷数据的类型;所述缺陷检索库中的标注数据为标注类型的缺陷数据;
33、所述标注单元,用于基于所述缺陷数据的类型,对所述待标注数据进行标注,获得标注后的数据。
34、在一种可能的实现方式中,所述根据所述缺陷数据与缺陷检索库中的标注数据之间的相似度,确定所述缺陷数据的类型,包括:
35、计算所述缺陷数据与所述缺陷检索库中的标注数据之间的距离;
36、按照距离从小到大的顺序对所述缺陷检索库中的标注数据进行排序,得到排序后的缺陷检索库;
37、根据所述排序后的缺陷检索库中的前k个标注数据的类型,确定所述缺陷数据的类型;其中,k为正整数。
38、在一种可能的实现方式中,所述根据所述排序后的缺陷检索库中的前k个标注数据的类型,确定所述缺陷数据的类型,包括:
39、根据所述排序后的缺陷检索库中的前k个标注数据的类型,确定各类型对应的距离阈值;
40、基于所述各类型对应的距离阈值对所述k个标注数据进行筛选,得到筛选后的标注数据;
41、根据所述筛选后的标注数据的类型,确定所述缺陷数据的类型。
42、在一种可能的实现方式中,所述根据所述排序后的缺陷检索库中的前k个标注数据的类型,确定各类型对应的距离阈值,包括:
43、针对所述前k个标注数据的类型中的每个类型,计算所述缺陷检索库中所述类型对应的标注数据与聚类中心之间的距离;
44、将所述类型对应的标注数据与聚类中心之间的距离中的最大值,确定为所述类型的第一距离;
45、基于第一类型的标注数据在所述k个标注数据中的占比,对各类型的第一距离进行调节,确定各类型对应的距离阈值;所述第一类型的标注数据为所述k个标注数据中占比最大的标注数据。
46、在一种可能的实现方式中,所述基于第一类型的标注数据在所述k个标注数据中的占比,对各类型的第一距离进行调节,确定各类型对应的距离阈值,包括:
47、基于第一类型的标注数据在所述k个标注数据中的占比,确定调节系数;
48、将所述调节系数与各类型的第一距离的乘积,确定为各类型对应的距离阈值。
49、在一种可能的实现方式中,所述根据所述筛选后的标注数据的类型,确定所述缺陷数据的类型,包括:
50、将所述筛选后的标注数据的类型确定为候选类型;
本文档来自技高网...
【技术保护点】
1.一种数据标注方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述缺陷数据与缺陷检索库中的标注数据之间的相似度,确定所述缺陷数据的类型,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述排序后的缺陷检索库中的前K个标注数据的类型,确定所述缺陷数据的类型,包括:
4.根据权利要求3所述的方法,其特征在于,所述根据所述排序后的缺陷检索库中的前K个标注数据的类型,确定各类型对应的距离阈值,包括:
5.根据权利要求4所述的方法,其特征在于,所述基于第一类型的标注数据在所述K个标注数据中的占比,对各类型的第一距离进行调节,确定各类型对应的距离阈值,包括:
6.根据权利要求3所述的方法,其特征在于,所述根据所述筛选后的标注数据的类型,确定所述缺陷数据的类型,包括:
7.根据权利要求1所述的方法,其特征在于,所述根据所述缺陷数据与缺陷检索库中的标注数据之间的相似度,确定所述缺陷数据的类型,包括:
8.一种数据标注装置,其特征在于,包括:
9.一种电子设备,其
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的一种数据标注方法的步骤。
...【技术特征摘要】
1.一种数据标注方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述缺陷数据与缺陷检索库中的标注数据之间的相似度,确定所述缺陷数据的类型,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述排序后的缺陷检索库中的前k个标注数据的类型,确定所述缺陷数据的类型,包括:
4.根据权利要求3所述的方法,其特征在于,所述根据所述排序后的缺陷检索库中的前k个标注数据的类型,确定各类型对应的距离阈值,包括:
5.根据权利要求4所述的方法,其特征在于,所述基于第一类型的标注数据在所述k个标注数据中的占比,对各类型的第一距离进行调节,确定...
【专利技术属性】
技术研发人员:曹高宇,孙新,
申请(专利权)人:苏州镁伽科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。