System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请属于数据处理,具体涉及一种标注样本检测方法、装置、电子设备及存储介质。
技术介绍
1、在机器学习领域,依据学习形式,学习任务可大致划分为两类,一种是监督学习,另一种是非监督学习。监督学习需要有大量的已标注数据,已标注数据就是指已经有了标准答案的数据,这样的数据越多,机器学习得到的算法就越好,就越能够从输入数据中得到正确的答案。对于数据标注可采用人工标注方式或机器标注方式。人工标注方式准确度高,但是效率低,而机器标注方式虽然效率很高,但是其标注结果准确度较低,只适合数据量大、标注要求较低的场景。
技术实现思路
1、鉴于此,本申请的目的在于提供一种标注样本检测方法、装置、电子设备及存储介质,以提高标注样本审核的准确率。
2、第一方面,本申请实施例提供了一种标注样本检测方法,所述方法包括:s11.将标注样本分别发送至k个审核节点,k为正整数;s12.依据所有审核节点的审核结果确定第i轮审核通过率,i=1;s13.若所述第i轮审核通过率大于第一阈值,则输出所述标注样本的标注结果为正确;若所述第i轮审核通过率小于等于所述第一阈值,则执行步骤s14;s14.令i=i+1且k=k+n,n为正整数,将标注样本分别发送至k个审核节点以对应获取k个审核结果并确定第i轮审核通过率,若所述第i轮审核通过率大于所述第一阈值,则输出所述标注样本的标注结果为正确;若所述第i轮审核通过率小于等于所述第一阈值,则计算所述第i轮审核通过率的置信度;s15.若所述第i轮的置信度小于第二阈值,则输出所述
3、上述标注样本检测方法中,通过标注样本的审核通过率进行异常判断,并进一步通过审核通过率的方差验证审核结果的真实性,通过两次判断能够提升审核的准确性,并且本申请每一轮审核采用不同的审核节点数,既能使每一轮的审核通过率存在不同,还能减少审核节点的总数。
4、在本申请一个可选实施例中,所述确定第i轮审核通过率,包括:
5、
6、其中,p为审核通过率,va为第a轮中审核结果为通过的节点数,ka为第a轮的参与审核的审核节点数。
7、上述实施例中,通过计算节点通过率的均值得到审核通过率,能够保证每轮审核通过率的稳定,降低误审率。
8、在本申请一个可选实施例中,所述停止条件包括:i的值等于预设的重复值。
9、上述实施例中,在循环指定的轮次后直接停止循环,直接判断标注样本为异常样本,能够减少判断次数,节约算力。
10、在本申请一个可选实施例中,所述计算所述第i轮审核通过率的置信度,包括:
11、
12、其中,s(p)为审核通过率的置信度,pa为第a轮审核的审核通过率,为第i轮审核之前每一轮次审核通过率的均值。
13、上述实施例中,将审核通过率的方差作为审核通过率的置信度,从而通过审核通过率的波动来快速、精确的判断审核通过率的准确程度。
14、在本申请一个可选实施例中,计算所述第i轮审核通过率前还包括:判断第i轮的k的值是否大于所具有的审核节点总数值;若所述第i轮的k的值大于所具有的审核节点总数值,则输出所述标注样本的标注结果为异常;若所述第i轮的k的值小于等于所具有的审核节点总数值,则将标注样本分别发送至k个审核节点以计算所述第i轮审核通过率。
15、上述实施例中,在审核节点大于审核节点总数时,直接判断标注样本为异常样本,能够减少判断次数,节约算力。
16、在本申请一个可选实施例中,所述第一阈值为0.6或0.7。
17、在本申请一个可选实施例中,所述n取值为1。
18、在本申请一个可选实施例中,第二阈值为0.2或0.3。
19、第三方面,本申请实施例提供了一种标注样本检测装置,所述装置包括:发送模块,用于将标注样本分别发送至k个审核节点,k为正整数;确定模块,用于依据所有节点的审核结果确定第i轮审核通过率,i=1;若所述第i轮审核通过率大于第一阈值,则输出所述标注样本的标注结果为正确;若所述第i轮审核通过率小于等于所述第一阈值,则触发计算模块;所述计算模块,用于令i=i+1且k=k+n,n为正整数,将标注样本分别发送至k个审核节点以对应获取k个审核结果并确定第i轮审核通过率,若所述第i轮审核通过率大于所述第一阈值,则输出所述标注样本的标注结果为正确;若所述第i轮审核通过率小于等于所述第一阈值,则计算所述第i轮审核通过率的置信度;若所述第i轮的置信度小于第二阈值,则输出所述标注样本的标注结果为异常;若所述第i轮的置信度大于等于所述第二阈值,则判断是否满足停止条件,若不满足停止条件,则再次触发所述计算模块,若满足停止条件,则输出所述标注样本的标注结果为异常。
20、第四方面,本申请实施例提供了一种电子设备,其特征在于,包括:存储器和处理器,所述处理器与所述存储器连接;所述存储器,用于存储程序;所述处理器,用于调用存储于所述存储器中的程序,以执行如第一方面所述的方法。
21、本申请的其他特征和优点将在随后的说明书阐述。本申请的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
本文档来自技高网...【技术保护点】
1.一种标注样本检测方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述确定第i轮审核通过率,包括:
3.根据权利要求1所述的方法,其特征在于,所述停止条件包括:i的值等于预设的重复值。
4.根据权利要求3所述的方法,其特征在于,所述计算所述第i轮审核通过率的置信度,包括:
5.根据权利要求1所述的方法,其特征在于,计算所述第i轮审核通过率前还包括:
6.根据权利要求1所述的方法,其特征在于,所述第一阈值为0.6或0.7。
7.根据权利要求1所述的方法,其特征在于,所述n取值为1。
8.根据权利要求1所述的方法,其特征在于,第二阈值为0.2或0.3。
9.一种标注样本检测装置,其特征在于,所述装置包括:
10.一种电子设备,其特征在于,包括:存储器和处理器,所述处理器与所述存储器连接;
【技术特征摘要】
1.一种标注样本检测方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述确定第i轮审核通过率,包括:
3.根据权利要求1所述的方法,其特征在于,所述停止条件包括:i的值等于预设的重复值。
4.根据权利要求3所述的方法,其特征在于,所述计算所述第i轮审核通过率的置信度,包括:
5.根据权利要求1所述的方法,其特征在于,计算所述第i轮审核通过...
【专利技术属性】
技术研发人员:陈亮,
申请(专利权)人:上海斗象信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。