一种群体计算的质量控制方法及装置制造方法及图纸

技术编号:11414234 阅读:106 留言:0更新日期:2015-05-06 13:51
本发明专利技术提供一种群体计算的质量控制方法及装置。本发明专利技术一种群体计算的质量控制方法,包括:将待处理的众包任务集合划分成多个子任务集合;从子任务集合中选择测试任务,并确定测试任务的难度系数和准确答案;确定第一子任务集合和第二子任务集合;根据测试任务的难度系数确定第一子任务集合中子任务的难度系数;根据测试任务评估工人的能力系数,并根据工人的能力系数以及第一子任务集合中子任务的难度系数确定工人完成子任务的准确度;根据准确度获取第一子任务集合中子任务的完成结果,并获取第二子任务集合中子任务的完成结果。本发明专利技术提高了众包任务完成的准确率,也在一定程度上控制了花费。

【技术实现步骤摘要】
一种群体计算的质量控制方法及装置
本专利技术涉及计算机技术,尤其涉及一种群体计算的质量控制方法及装置。
技术介绍
众包(crowdsourcing)指的是一个公司或机构把过去由员工执行的工作任务,以自由自愿的形式外包给非特定的(而且通常是大型的)大众网络的做法。近年来,众包在很多领域获得了广泛的应用,众包任务发布者将任务发布在众包平台,通过众包平台,收集大量的数据或者任务完成的结果,这些数据质量越高越好,即主要指收集的数据的广泛性或者完成任务结果的准确性,目前群体计算研究的主要问题集中在控制众包平台的发布任务的花费、控制结果收集和最终答案汇聚的质量。目前对于众包技术质量控制研究主要基于以下几点:(1)参与者能力分析与选择:由于众包平台参与者来自大众群体,良莠不齐,为了能使得众包任务得以正常完成,怎样判断参与者能力和怎样选用参与者以及如何有效地结合工人因素、请求人的任务优化目标进行在线任务分配是个问题;(2)任务分割与结果汇聚:由于很多任务单个人难于完成,并且众包参与者之间的合作关系较弱。所以如何将一个任务数目庞大的任务集分割成单个参与者能够单独完成的量也是一个很大的挑战。由于众包系统更适合于微观任务,因此为了支持复杂任务,需要把复杂的任务集划分为数目较少的微观任务系列,然后把微观任务系列分发给任务完成者(也称作工人),并收集工人对微观任务的答案,最后整合工人答案来完成初始的复杂任务。目前群体计算的研究主要集中在“实名制平台”(所谓实名制即为:平台或者发包者可以根据工人的基本资料获得用户的资料或者工人的信息),主要通过建立任务和工人的映射关系,从而提高任务完成的质量,然而对于一些平台,参与者的能力良莠不齐及平台本身存在一些恶意的用户,发包方难于获得用户的信息和用户完成历史信息,难于估计参与完成任务的工人的能力,从而较难控制结果收集和最终答案汇聚的质量。
技术实现思路
本专利技术提供一种群体计算的质量控制方法及装置,解决了现有技术中较难控制结果收集和最终答案汇聚的质量的问题。第一方面,本专利技术提供一种群体计算的质量控制方法,包括:将待处理的众包任务集合划分成多个任务类别的子任务集合;从所述子任务集合中选择测试任务,并确定所述测试任务的难度系数和准确答案;确定第一子任务集合和第二子任务集合;其中,所述第一子任务集合为加入所述测试任务的子任务集合,所述第二子任务集合为未加入所述测试任务的子任务集合;根据所述测试任务的难度系数确定所述第一子任务集合中子任务的难度系数;根据所述测试任务的难度系数和准确答案评估工人的能力系数,并根据所述工人的能力系数以及所述第一子任务集合中子任务的难度系数确定工人完成所述子任务的准确度;根据所述准确度获取所述第一子任务集合中子任务的完成结果,并获取所述第二子任务集合中子任务的完成结果。可选地,所述将待处理的众包任务集合划分成多个任务类别的子任务集合,包括:利用谱聚类的聚类方法将所述待处理的众包任务集合划分成多个所述子任务集合。可选地,所述从所述子任务集合中选择测试任务,包括:计算所述子任务集合与其他任意子任务集合组成的k-1个任务类序对中子任务包含所述子任务集合的信息量;其中,所述子任务集合的个数为k;所述k为大于1的整数;从每个所述k-1个任务类序对中选择包含所述子任务集合的信息量从最大值依次降序排列的Nk/k个子任务,得到Nk(k-1)/k个子任务,并从所述k-1个任务类序对中选择包含所述子任务集合的信息量从最小值依次升序排列的Nk/k个子任务,将所述Nk个子任务作为测试任务;其中,所述Nk为预设的测试任务的个数,且为大于1的整数。可选地,所述计算所述子任务集合与其他任意子任务集合组成的k-1个任务类序对中子任务包含所述子任务集合的信息量,包括:将所述子任务集合Ti及其他任意子任务集合Tj组成任务类序对<Ti,Tj>,所述Ti中的子任务t不属于Ti类的概率pij(t)=dis(t-uj)/(dis(t-ui)+dis(t-uj));其中,dis(·)为计算欧式距离的函数;ui表示所述Ti的特征值的均值;uj表示所述Tj的特征值的均值;i为1到k的整数;j为1到k的整数;i不等于j;则所述Ti中的所述子任务t包含所述Ti的信息量为:Iij(t)=-logpij(t)。可选地,所述从每个所述k-1个任务类序对中选择包含所述子任务集合的信息量从最大值依次降序排列的Nk/k个子任务,得到Nk(k-1)/k个子任务,并从所述k-1个任务类序对中选择包含所述子任务集合的信息量从最小值依次升序排列的Nk/k个子任务,将所述Nk个子任务作为测试任务,包括:从每个所述k-1个任务类序对中选择包含信息量最大的子任务的集合为:T'ij={argmax({Iij(tl)|tl∈(Ti/T'ij))}∪T'ij;其中,tl∈(Ti/T'ij)表示子任务tl属于所述Ti,但不属于所述T'ij;所述T'ij的初始值为空集,所述T'ij的元素个数为Nk/k;根据所述T'ij得到所述k-1个任务类序对中包含Nk(k-1)/k个子任务的集合为:其中,T为所述众包任务集合;argmax(·)函数用于求出使信息量最大的子任务;从所述k-1个任务类序对中选择包含所述子任务集合的信息量从最小值依次升序排列的Nk/k个子任务的集合为:其中,tl∈(Ti/Ti″)表示子任务tl属于所述Ti,但不属于所述Ti″;所述Ti″的初始值为空集,所述Ti″的元素个数为Nk/k;表示所述k-1个任务类序对中tl包含所述Ti的信息量之和;argmin(·)函数用于求出使信息量最小的子任务;将所述Ti″集合中的Nk/k个子任务和所述Ti'集合中的Nk(k-1)/k个子任务作为Nk个测试任务。可选地,所述根据所述测试任务的难度系数确定所述第一子任务集合中子任务的难度系数,包括:根据所述测试任务tm的特征向量为e=(x1,x2,…,xN),建立多元线性回归模型如下:dm=β0+β1x1+β2x2+…+βNxN+ε;其中,ε~N(0,σ2);根据所述多元线性回归模型计算得到β0,β1,β2,…,βN;其中,N为所述特征向量的维数;m为1到Nk的整数。确定所述子任务的特征向量W=(w1,w2,…,wN),并根据所述特征向量和所述β0,β1,β2,…,βN计算所述子任务的难度系数d'。可选地,所述根据所述测试任务的难度系数和准确答案评估工人的能力系数,包括:设工人的能力系数为a,测试任务为所述测试任务的难度系数为所述测试任务的准确答案为将所述测试任务的完成结果表示为根据先验概率分布,工人提供的所述测试任务的完成结果om为正确答案的概率服从如下公式(1)的分布:所述om为错误答案的概率服从如下公式(2)的分布:其中,θ(x)为赫维赛德阶跃函数;m为1到Nk的整数;利用最大化后验分布可求得下述公式(3):对所述公式(3)采用极大似然估计方法,获取所述能力系数a。可选地,所述根据所述工人的能力系数以及所述第一子任务集合中子任务的难度系数确定工人完成所述子任务的准确度,包括:根据所述能力系数a和所述子任务的难度系数d',利用如下公式计算所述工人完成所述子任务的准确度:其中,f为所述子任务的完成结果。可选地,所述根据所述准确度获取所述第一子任务集合中子任务的完本文档来自技高网
...
一种群体计算的质量控制方法及装置

【技术保护点】
一种群体计算的质量控制方法,其特征在于,包括:将待处理的众包任务集合划分成多个任务类别的子任务集合;从所述子任务集合中选择测试任务,并确定所述测试任务的难度系数和准确答案;确定第一子任务集合和第二子任务集合;其中,所述第一子任务集合为加入所述测试任务的子任务集合,所述第二子任务集合为未加入所述测试任务的子任务集合;根据所述测试任务的难度系数确定所述第一子任务集合中子任务的难度系数;根据所述测试任务的难度系数和准确答案评估工人的能力系数,并根据所述工人的能力系数以及所述第一子任务集合中子任务的难度系数确定工人完成所述子任务的准确度;根据所述准确度获取所述第一子任务集合中子任务的完成结果,并获取所述第二子任务集合中子任务的完成结果。

【技术特征摘要】
1.一种群体计算的质量控制方法,其特征在于,包括:将待处理的众包任务集合划分成多个任务类别的子任务集合;从所述子任务集合中选择测试任务,并确定所述测试任务的难度系数和准确答案;确定第一子任务集合和第二子任务集合;其中,所述第一子任务集合为加入所述测试任务的子任务集合,所述第二子任务集合为未加入所述测试任务的子任务集合;根据所述测试任务的难度系数确定所述第一子任务集合中子任务的难度系数;根据所述测试任务的难度系数和准确答案评估工人的能力系数,并根据所述工人的能力系数以及所述第一子任务集合中子任务的难度系数确定工人完成所述子任务的准确度;根据所述准确度获取所述第一子任务集合中子任务的完成结果,并获取所述第二子任务集合中子任务的完成结果;其中,所述从所述子任务集合中选择测试任务,包括:计算所述子任务集合与其他任意子任务集合组成的k-1个任务类序对中子任务包含所述子任务集合的信息量;其中,所述子任务集合的个数为k;所述k为大于1的整数;从每个所述k-1个任务类序对中选择包含所述子任务集合的信息量从最大值依次降序排列的Nk/k个子任务,得到Nk(k-1)/k个子任务,并从所述k-1个任务类序对中选择包含所述子任务集合的信息量从最小值依次升序排列的Nk/k个子任务,将所述Nk个子任务作为测试任务;其中,所述Nk为预设的测试任务的个数,且为大于1的整数;所述从每个所述k-1个任务类序对中选择包含所述子任务集合的信息量从最大值依次降序排列的Nk/k个子任务,得到Nk(k-1)/k个子任务,并从所述k-1个任务类序对中选择包含所述子任务集合的信息量从最小值依次升序排列的Nk/k个子任务,将所述Nk个子任务作为测试任务,包括:从每个所述k-1个任务类序对中选择包含信息量最大的子任务的集合为:T'ij={argmax({Iij(tl)|tl∈(Ti/T'ij))}∪T'ij;其中,tl∈(Ti/T'ij)表示子任务tl属于所述Ti,但不属于所述T'ij;所述T'ij的初始值为空集,所述T'ij的元素个数为Nk/k;根据所述T'ij得到所述k-1个任务类序对中包含Nk(k-1)/k个子任务的集合为:其中,T为所述众包任务集合;argmax(·)函数用于求出使信息量最大的子任务;从所述k-1个任务类序对中选择包含所述子任务集合的信息量从最小值依次升序排列的Nk/k个子任务的集合为:其中,tl∈(Ti/Ti”)表示子任务tl属于所述Ti,但不属于所述Ti”;所述Ti”的初始值为空集,所述Ti”的元素个数为Nk/k;表示所述k-1个任务类序对中tl包含所述Ti的信息量之和;argmin(·)函数用于求出使信息量最小的子任务;将所述Ti”集合中的Nk/k个子任务和所述Ti'集合中的Nk(k-1)/k个子任务作为Nk个测试任务;所述根据所述测试任务的难度系数和准确答案评估工人的能力系数,包括:设工人的能力系数为a,测试任务为所述测试任务的难度系数为所述测试任务的准确答案为将所述测试任务的完成结果表示为根据先验概率分布,工人提供的所述测试任务的完成结果om为正确答案的概率服从如下公式(1)的分布:所述om为错误答案的概率服从如下公式(2)的分布:其中,θ(x)为赫维赛德阶跃函数;m为1到Nk的整数;利用最大化后验分布可求得下述公式(3):对所述公式(3)采用极大似然估计方法,获取所述能力系数a。2.根据权利要求1所述的方法,其特征在于,所述将待处理的众包任务集合划分成多个任务类别的子任务集合,包括:利用谱聚类的聚类方法将所述待处理的众包任务集合划分成多个所述子任务集合。3.根据权利要求1所述的方法,其特征在于,所述计算所述子任务集合与其他任意子任务集合组成的k-1个任务类序对中子任务包含所述子任务集合的信息量,包括:将所述子任务集合Ti及其他任意子任务集合Tj组成任务类序对<Ti,Tj>,所述Ti中的子任务t不属于Tj类的概率pij(t)=dis(t-uj)/(dis(t-ui)+dis(t-uj));其中,dis(·)为计算欧式距离的函数;ui表示所述Ti的特征值的均值;uj表示所述Tj的特征值的均值;i为1到k的整数;j为1到k的整数;i不等于j;则所述Ti中的所述子任务t包含所述Tj的信息量为:Iij(t)=-logpij(t)。4.根据权利要求3所述的方法,其特征在于,所述根据所述测试任务的难度系数确...

【专利技术属性】
技术研发人员:孙海龙刘旭东方毅立张日崇怀进鹏
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1