【技术实现步骤摘要】
样本数据的处理方法、装置、服务器和存储介质
本说明书属于互联网
,尤其涉及一种样本数据的处理方法、装置、服务器和存储介质。
技术介绍
在利用样本数据进行模型训练时,通常需要先对所使用的样本数据进行标注。例如,通常会由负责标注的打标员根据事先确定好的标注规则对每个样本数据的属性情况进行分析判断,再根据判断结果给每个样本数据设置对应的标注信息以指示样本数据的属性特征(例如样本数据所对应的类型或级别等),完成对样本数据的标注。进而后续可以根据上述标注后的样本数据,进行具体的模型训练。在根据标注规则对样本数据进行标注时,打标员可能受到个人的主观影响,导致单个打标员在标注时容易出现误差,使得其由单个打标员设置的标注信息往往不够准确,标注质量相对较低。因此,通常会调用多个不同的打标员同时对同一批样本数据进行标注。但是不同的打标员对于标注规则以及样本数据的理解和把握程度往往会存在差异,导致同一个样本数据被不同的打标员标注后,可能会存在多个不同的标注信息,使得在后续使用上述标注后的样本数据时会出现混乱或误差,影响样本数据的标注质量。因此,亟需一种能够高效、准确地从被多个打标员标注过的样本数据中筛选出标注质量较高的样本数据的处理方法。
技术实现思路
本说明书目的在于提供一种样本数据的处理方法、装置、服务器和存储介质,以高效、准确地从多个标注过的目标样本数据中筛选出标注质量较高的目标样本数据。本说明书提供的一种样本数据的处理方法、装置、服务器和存储介质是这样实现的:一种样本数据的处理方法,包括:获取多个目标样本数据,其中,所述目标样本数据携带有标注信息;根据所述目标样本数据 ...
【技术保护点】
1.一种样本数据的处理方法,包括:获取多个目标样本数据,其中,所述目标样本数据携带有标注信息;根据所述目标样本数据所携带的标注信息,确定目标样本数据的标注信息熵;根据所述目标样本数据的标注信息熵,从所述多个目标样本数据中确定出标注质量符合预设的质量要求的目标样本数据作为第一目标数据。
【技术特征摘要】
1.一种样本数据的处理方法,包括:获取多个目标样本数据,其中,所述目标样本数据携带有标注信息;根据所述目标样本数据所携带的标注信息,确定目标样本数据的标注信息熵;根据所述目标样本数据的标注信息熵,从所述多个目标样本数据中确定出标注质量符合预设的质量要求的目标样本数据作为第一目标数据。2.根据权利要求1所述的方法,在根据所述目标样本数据的标注信息熵,从所述多个目标样本数据中确定出标注质量符合预设的质量要求的目标样本数据作为第一目标数据后,所述方法还包括:利用所述第一目标数据,进行风险识别模型的训练。3.根据权利要求1所述的方法,获取多个目标样本数据,包括:获取多个标注后的样本数据;确定标注后的样本数据的标注源的数量;从所述多个标注后的样本数据中筛选出标注源的数量大于等于2的标注后的样本数据作为所述目标样本数据。4.根据权利要求3所述的方法,从所述多个标注后的样本数据中筛选出标注源的数量大于等于2的标注后的样本数据作为所述目标样本数据后,所述方法还包括:从所述多个标注后的样本数据中筛选出标注源的数量等于1的标注后的样本数据作为第二目标数据。5.根据权利要求3所述的方法,根据所述目标样本数据所携带的标注信息,确定目标样本数据的标注信息熵,包括:统计所述目标样本数据所携带的标注信息所对应的标注源的数量;根据所述目标样本数据所携带的标注信息所对应的标注源的数量,按照预设规则计算出所述目标样本数据的标注信息熵。6.根据权利要求1所述的方法,根据所述目标样本数据的标注信息熵,从所述多个目标样本数据中确定出标注质量符合预设的质量要求的目标样本数据作为第一目标数据,包括:将所述多个目标样本数据的标注信息熵分别与预设的信息熵阈值进行数值比较,得到比较结果;根据所述比较结果,将标注信息熵小于等于所述预设的信息熵阈值的目标样本数据确定为所述第一目标数据。7.根据权利要求6所述的方法,在将所述多个目标样本数据的标注信息熵分别与预设的信息熵阈值进行数值比较,得到比较结果后,所述方法还包括:根据所述比较结果,将标注信息熵大于所述预设的信息熵阈值的目标样本数据确定为第二目标数据;重新标注所述第二目标数据所对应的样本数据。8.根据权利要求7所述的方法,重新标注所述第二目标数据所对应的样本数据,包括:调用多个预设标注源按照预设的标注规则分别对所述第二目标数据所对应的样本数据进行标注,得到重新标注后的样本数据;检测所述重新标注后的样本数据的标注质量是否符合预设的质量要求;在确定所述重新标注后的样本数据的标注质量符合预设的质量要求的情况下,将所述重新标注后的样本数据确定为第一目标数据。9.根据权利要求8所述的方法,在检测所述重新标注后的样本数据的标注质量是否符合预设的质量要求后,所述方法还包括:在确定所述重新标注后的样本数据的标注质量不符合预设的质量要求的情况下,调用多个预设标注源按照预设的标注规则对所述第二目标数据所对应的样本数据进行多轮标注,得到多轮标注后的样本数据作为第三目标数据;确定所述第三目标数据的标注信息熵;检测所述第三目标数据的标注信息熵的变化趋势是否符合预设的变化要求;在确定所述第三目标数据的标注信息熵的变化趋势不符合预设的变化要求的情况下,对以下至少之一进行检查和调整:标注源、预设的标注规则和第三目标数据所对应的样本数据。10.一种样本数据的处理装置,...
【专利技术属性】
技术研发人员:郭亚,赵智源,周书恒,祝慧佳,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。