【技术实现步骤摘要】
一种群体计算的质量控制方法及装置
本专利技术涉及计算机技术,尤其涉及一种群体计算的质量控制方法及装置。
技术介绍
众包(crowdsourcing)指的是一个公司或机构把过去由员工执行的工作任务,以自由自愿的形式外包给非特定的(而且通常是大型的)大众网络的做法。近年来,众包在很多领域获得了广泛的应用,众包任务发布者将任务发布在众包平台,通过众包平台,收集大量的数据或者任务完成的结果,这些数据质量越高越好,即主要指收集的数据的广泛性或者完成任务结果的准确性,目前群体计算研究的主要问题集中在控制众包平台的发布任务的花费、控制结果收集和最终答案汇聚的质量。目前对于众包技术质量控制研究主要基于以下几点:(1)参与者能力分析与选择:由于众包平台参与者来自大众群体,良莠不齐,为了能使得众包任务得以正常完成,怎样判断参与者能力和怎样选用参与者以及如何有效地结合工人因素、请求人的任务优化目标进行在线任务分配是个问题;(2)任务分割与结果汇聚:由于很多任务单个人难于完成,并且众包参与者之间的合作关系较弱。所以如何将一个任务数目庞大的任务集分割成单个参与者能够单独完成的量也是一个很大的挑战。由于众包系统更适合于微观任务,因此为了支持复杂任务,需要把复杂的任务集划分为数目较少的微观任务系列,然后把微观任务系列分发给任务完成者(也称作工人),并收集工人对微观任务的答案,最后整合工人答案来完成初始的复杂任务。目前群体计算的研究主要集中在“实名制平台”(所谓实名制即为:平台或者发包者可以根据工人的基本资料获得用户的资料或者工人的信息),主要通过建立任务和工人的映射关系,从而提高任务完 ...
【技术保护点】
一种群体计算的质量控制方法,其特征在于,包括:将待处理的众包任务集合划分成多个任务类别的子任务集合;从所述子任务集合中选择测试任务,并确定所述测试任务的难度系数和准确答案;确定第一子任务集合和第二子任务集合;其中,所述第一子任务集合为加入所述测试任务的子任务集合,所述第二子任务集合为未加入所述测试任务的子任务集合;根据所述测试任务的难度系数确定所述第一子任务集合中子任务的难度系数;根据所述测试任务的难度系数和准确答案评估工人的能力系数,并根据所述工人的能力系数以及所述第一子任务集合中子任务的难度系数确定工人完成所述子任务的准确度;根据所述准确度获取所述第一子任务集合中子任务的完成结果,并获取所述第二子任务集合中子任务的完成结果。
【技术特征摘要】
1.一种群体计算的质量控制方法,其特征在于,包括:将待处理的众包任务集合划分成多个任务类别的子任务集合;从所述子任务集合中选择测试任务,并确定所述测试任务的难度系数和准确答案;确定第一子任务集合和第二子任务集合;其中,所述第一子任务集合为加入所述测试任务的子任务集合,所述第二子任务集合为未加入所述测试任务的子任务集合;根据所述测试任务的难度系数确定所述第一子任务集合中子任务的难度系数;根据所述测试任务的难度系数和准确答案评估工人的能力系数,并根据所述工人的能力系数以及所述第一子任务集合中子任务的难度系数确定工人完成所述子任务的准确度;根据所述准确度获取所述第一子任务集合中子任务的完成结果,并获取所述第二子任务集合中子任务的完成结果;其中,所述从所述子任务集合中选择测试任务,包括:计算所述子任务集合与其他任意子任务集合组成的k-1个任务类序对中子任务包含所述子任务集合的信息量;其中,所述子任务集合的个数为k;所述k为大于1的整数;从每个所述k-1个任务类序对中选择包含所述子任务集合的信息量从最大值依次降序排列的Nk/k个子任务,得到Nk(k-1)/k个子任务,并从所述k-1个任务类序对中选择包含所述子任务集合的信息量从最小值依次升序排列的Nk/k个子任务,将所述Nk个子任务作为测试任务;其中,所述Nk为预设的测试任务的个数,且为大于1的整数;所述从每个所述k-1个任务类序对中选择包含所述子任务集合的信息量从最大值依次降序排列的Nk/k个子任务,得到Nk(k-1)/k个子任务,并从所述k-1个任务类序对中选择包含所述子任务集合的信息量从最小值依次升序排列的Nk/k个子任务,将所述Nk个子任务作为测试任务,包括:从每个所述k-1个任务类序对中选择包含信息量最大的子任务的集合为:T'ij={argmax({Iij(tl)|tl∈(Ti/T'ij))}∪T'ij;其中,tl∈(Ti/T'ij)表示子任务tl属于所述Ti,但不属于所述T'ij;所述T'ij的初始值为空集,所述T'ij的元素个数为Nk/k;根据所述T'ij得到所述k-1个任务类序对中包含Nk(k-1)/k个子任务的集合为:其中,T为所述众包任务集合;argmax(·)函数用于求出使信息量最大的子任务;从所述k-1个任务类序对中选择包含所述子任务集合的信息量从最小值依次升序排列的Nk/k个子任务的集合为:其中,tl∈(Ti/Ti”)表示子任务tl属于所述Ti,但不属于所述Ti”;所述Ti”的初始值为空集,所述Ti”的元素个数为Nk/k;表示所述k-1个任务类序对中tl包含所述Ti的信息量之和;argmin(·)函数用于求出使信息量最小的子任务;将所述Ti”集合中的Nk/k个子任务和所述Ti'集合中的Nk(k-1)/k个子任务作为Nk个测试任务;所述根据所述测试任务的难度系数和准确答案评估工人的能力系数,包括:设工人的能力系数为a,测试任务为所述测试任务的难度系数为所述测试任务的准确答案为将所述测试任务的完成结果表示为根据先验概率分布,工人提供的所述测试任务的完成结果om为正确答案的概率服从如下公式(1)的分布:所述om为错误答案的概率服从如下公式(2)的分布:其中,θ(x)为赫维赛德阶跃函数;m为1到Nk的整数;利用最大化后验分布可求得下述公式(3):对所述公式(3)采用极大似然估计方法,获取所述能力系数a。2.根据权利要求1所述的方法,其特征在于,所述将待处理的众包任务集合划分成多个任务类别的子任务集合,包括:利用谱聚类的聚类方法将所述待处理的众包任务集合划分成多个所述子任务集合。3.根据权利要求1所述的方法,其特征在于,所述计算所述子任务集合与其他任意子任务集合组成的k-1个任务类序对中子任务包含所述子任务集合的信息量,包括:将所述子任务集合Ti及其他任意子任务集合Tj组成任务类序对<Ti,Tj>,所述Ti中的子任务t不属于Tj类的概率pij(t)=dis(t-uj)/(dis(t-ui)+dis(t-uj));其中,dis(·)为计算欧式距离的函数;ui表示所述Ti的特征值的均值;uj表示所述Tj的特征值的均值;i为1到k的整数;j为1到k的整数;i不等于j;则所述Ti中的所述子任务t包含所述Tj的信息量为:Iij(t)=-logpij(t)。4.根据权利要求3所述的方法,其特征在于,所述根据所述测试任务的难度系数确...
【专利技术属性】
技术研发人员:孙海龙,刘旭东,方毅立,张日崇,怀进鹏,
申请(专利权)人:北京航空航天大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。