一种基于置信度确定样本回收量的方法和设备技术

技术编号:14901898 阅读:50 留言:0更新日期:2017-03-29 17:14
本申请公开了一种基于置信度确定样本回收量的方法,所述方法包括:服务器获取所有样本的置信度;所述服务器根据各个样本的置信度确定各个样本的回收量。本申请通过样本置信度确定出不同置信度对应样本的回收量,可以减少总样本的回收量,还保证了样本标注的准确度。

【技术实现步骤摘要】

本申请涉及网络
,特别是涉及基于置信度确定样本回收量的方法和设备
技术介绍
随着现在互联网技术的普及,每天网络上会上传海量的样本,这些样本包括:语音、图片、视频等,同时大量的中小社交分享网站同样会产生大量的样本,这些样本都是需要进行审核和处理的,以便对样本进行监控,防止黄色、暴力等内容在网络上出现,这就需要占用大量的人力和物力。基于众包的数据标注平台成为了解决这样问题的一个有力手段,众包平台将平时在互联网上闲散的人员组织起来,对这些样本进行统一的处理,这样不仅降低了对样本进行处理时的资源消耗,还极大的提高了样本的处理效率。在现有技术中,为了保证样本的处理质量,会对样本定义一个回收量,即为了降低不同标注人员对同一样本的理解不同造成的对同一个样本的标注数据的异常,采用同一个样本使用多人交叉标注的方式进行处理,具体的,以样本集合中单个样本所需的最大回收量来座位所有样本的回收量来回收样本,以最大回收量为5,样本为100万为例,所有样本的需要500万人;来共同完成,所有样本的标注量为500万,还可以为不同的人区分不同的权重,例如:普通标注人的权重为1,高级标注人的权重为2(一个人进行标注就等于两个人完成的标注),这样一个回收量为5的样本最少只要3个人就可以完成标注,所有样本的标注量最少为300万。在实现本申请的过程中,申请人发现现有技术至少存在以下问题:由于样本的难度是不同的,对所有的样本使用相同的回收量会造成人力和物力的浪费,同时标注的效率也不高,而采用赋予标注人权重的方案,由于不同的标注人对同一样本的理解不同,以及其精通领域的不同,权重高的标注人对不同样本进行标注时的准确率会产生影响,这样会对样本标注的精确度产生重大影响,同时由于权重高的标注人会产生比普通标注人更高的费用,使得整体的费用过高。
技术实现思路
本申请的目的在于提供一种基于置信度确定样本回收量的方法和设备,通过标准正态分布图的划分确定出样本置信度的标准化值所对应的偏移量区间,在根据为标准化正态分布图的不同图形区域分配的编号确定出样本对应的回收量,本申请基于样本本身的置信度来确定出所述样本对应的回收量,这样不仅可以减少样本标注量的数量,还可以保证对不同样本进行标注时的准确率,同时还降低了对样本进行标注时产生的费用。本申请的技术方案如下:一种基于置信度确定样本回收量的方法,所述方法包括:服务器获取所有样本的置信度;所述服务器根据各个样本的置信度确定各个样本的回收量。所述服务器根据各个样本的置信度确定各个样本的回收量,具体为:所述服务器根据各个样本的置信度确定出置信度最低的样本;所述服务器根据预设的置信度和回收量的对应规则确定所述置信度最低的样本的回收量N;所述服务器根据预先设定的划分规则将标准正态分布图划分为M份面积相等的图形;所述服务器根据回收量N确定各个图形对应的回收量;所述服务器根据所述标准正态分布图X轴对应的距离平均值的偏移量确定各个图形对应的偏移量区间;所述服务器根据各个样本置信度的标准化值通过各个图形对应的偏移量区间和各个图形对应的回收量确定各个样本所对应的回收量;其中,N>M。所述服务器根据回收量N确定各个图形对应的回收量,具体为:所述服务器根据设定的排序规则对各个图形进行编号;所述服务器将各个图形对应的编号确定为各个图形对应的回收量;其中,所述标准正态分布图中最左边的图形的编号为N,所述标准正态分布图中最右边的图形的编号不小于2;所述排序规则为从标准正态分布图中最左边的图形到最右边的图形的编号依次降低。所述服务器根据各个样本置信度的标准化值通过各个图形对应的偏移量区间和各个图形对应的回收量确定各个样本所对应的回收量,具体为:所述服务器根据各个样本的置信度生成各个样本置信度的标准化值;所述服务器判断所述标准化值所在的偏移量区间;所述服务器将所述标准化值所在偏移量区间所在图形对应的回收量确定为所述标准化值对应的样本的回收量。所述服务器根据各个样本的置信度生成各个样本置信度的标准化值,具体为:所述服务器根据各个样本的置信度确定样本置信度的平均值;所述服务器根据所述样本置信度的平均值确定各个样本置信度的标准差;所述服务器根据所述样本置信度的平均值和各个样本置信度的标准差生成各个样本置信度的标准化值。一种服务器,所述服务器包括:获取模块,用于获取所有样本的置信度;确定模块,用于根据各个样本的置信度确定各个样本的回收量。所述确定模块具体用于:根据各个样本的置信度确定出置信度最低的样本;根据预设的置信度和回收量的对应规则确定所述置信度最低的样本的回收量N;根据预先设定的划分规则将标准正态分布图划分为M份面积相等的图形;根据回收量N确定各个图形对应的回收量;根据所述标准正态分布图X轴对应的距离平均值的偏移量确定各个图形对应的偏移量区间;根据各个样本置信度的标准化值通过各个图形对应的偏移量区间和各个图形对应的回收量确定各个样本所对应的回收量;其中,N>M。所述确定模块根据回收量N确定各个图形对应的回收量,具体为:所述确定模块根据设定的排序规则对各个图形进行编号;所述确定模块将各个图形对应的编号确定为各个图形对应的回收量;其中,所述标准正态分布图中最左边的图形的编号为N,所述标准正态分布图中最右边的图形的编号不小于2;所述排序规则为从标准正态分布图中最左边的图形到最右边的图形的编号依次降低。所述确定模块根据各个样本置信度的标准化值通过各个图形对应的偏移量区间和各个图形对应的回收量确定各个样本所对应的回收量,具体为:所述确定模块根据各个样本的置信度生成各个样本置信度的标准化值;所述确定模块判断所述标准化值所在的偏移量区间;所述确定模块将所述标准化值所在偏移量区间所在图形对应的回收量确定为所述标准化值对应的样本的回收量。所述确定模块根据各个样本的置信度生成各个样本置信度的标准化值,具体为:所述确定模块根据各个样本的置信度确定样本置信度的平均值;所述确定模块根据所述样本置信度的平均值确定各个样本置信度的标准差;所述确定模块根据所述样本置信度的平均值和各个样本置信度的标准差生成各个样本置信度的标准化值。本申请通过标准正态分布图的划分确定出样本置信度的标准化值所对应的偏移量区间,在根据为标准化正态分布图的不同图形区域分配的编号确定出样本对应的回收量,本申请基于样本本身的置信度来确定出所述样本对应的回收量,这样不仅可以减少样本标注量的数量,还可以保证对不同样本进行标注时的准确率,同时还降低了对样本进行标注时产生的费用。附图说明为了更清楚地说明本申请或现有技术中的技术方案,下面将对本申请或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例中的一种基于置信度确定样本回收量的方法流程图;图2为本申请实施例中的一种标准正态分布图划分后的结构示意图;图3为本申请实施例中的一种服务器的结构示意图。具体实施方式下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施本文档来自技高网
...
一种基于置信度确定样本回收量的方法和设备

【技术保护点】
一种基于置信度确定样本回收量的方法,其特征在于,所述方法包括:服务器获取所有样本的置信度;所述服务器根据各个样本的置信度确定各个样本的回收量。

【技术特征摘要】
1.一种基于置信度确定样本回收量的方法,其特征在于,所述方法包括:服务器获取所有样本的置信度;所述服务器根据各个样本的置信度确定各个样本的回收量。2.如权利要求1所述方法,其特征在于,所述服务器根据各个样本的置信度确定各个样本的回收量,具体为:所述服务器根据各个样本的置信度确定出置信度最低的样本;所述服务器根据预设的置信度和回收量的对应规则确定所述置信度最低的样本的回收量N;所述服务器根据预先设定的划分规则将标准正态分布图划分为M份面积相等的图形;所述服务器根据回收量N确定各个图形对应的回收量;所述服务器根据所述标准正态分布图X轴对应的距离平均值的偏移量确定各个图形对应的偏移量区间;所述服务器根据各个样本置信度的标准化值通过各个图形对应的偏移量区间和各个图形对应的回收量确定各个样本所对应的回收量;其中,N>M。3.如权利要求2所述方法,其特征在于,所述服务器根据回收量N确定各个图形对应的回收量,具体为:所述服务器根据设定的排序规则对各个图形进行编号;所述服务器将各个图形对应的编号确定为各个图形对应的回收量;其中,所述标准正态分布图中最左边的图形的编号为N,所述标准正态分布图中最右边的图形的编号不小于2;所述排序规则为从标准正态分布图中最左边的图形到最右边的图形的编号依次降低。4.如权利要求2所述方法,其特征在于,所述服务器根据各个样本置信度的标准化值通过各个图形对应的偏移量区间和各个图形对应的回收量确定各个样本所对应的回收量,具体为:所述服务器根据各个样本的置信度生成各个样本置信度的标准化值;所述服务器判断所述标准化值所在的偏移量区间;所述服务器将所述标准化值所在偏移量区间所在图形对应的回收量确定为所述标准化值对应的样本的回收量。5.如权利要求4所述方法,其特征在于,所述服务器根据各个样本的置信度生成各个样本置信度的标准化值,具体为:所述服务器根据各个样本的置信度确定样本置信度的平均值;所述服务器根据所述样本置信度的平均值确定各个样本置信度的标准差;所述服务器根据所述样本置信度的平均值和各个样本置信度...

【专利技术属性】
技术研发人员:薛研歆周幼静余井霞方惠如袁赓拓张培
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1