样本数据的处理方法、装置、服务器和存储介质制造方法及图纸

技术编号:22168248 阅读:26 留言:0更新日期:2019-09-21 11:09
本说明书提供了一种样本数据的处理方法、装置、服务器和存储介质。其中,方法包括:获取多个目标样本数据,目标样本数据携带有标注信息;根据目标样本数据所携带的标注信息,确定目标样本数据的标注信息熵;根据目标样本数据的标注信息熵,从多个目标样本数据中确定出标注质量符合预设的质量要求的第一目标数据。在本说明书实施例中,由于通过先确定出能够反映目标样本数据的标注信息的不确定度的标注信息熵来量化不同标注源针对同一样本数据标注时的一致性程度;进而可以根据上述标注信息熵筛选出标注质量相对校高的目标样本数据作为第一目标数据来使用,从而能够高效、准确地从多个目标样本数据中筛选出标注质量较高的数据,减少数据误差。

Sample data processing methods, devices, servers and storage media

【技术实现步骤摘要】
样本数据的处理方法、装置、服务器和存储介质
本说明书属于互联网
,尤其涉及一种样本数据的处理方法、装置、服务器和存储介质。
技术介绍
在利用样本数据进行模型训练时,通常需要先对所使用的样本数据进行标注。例如,通常会由负责标注的打标员根据事先确定好的标注规则对每个样本数据的属性情况进行分析判断,再根据判断结果给每个样本数据设置对应的标注信息以指示样本数据的属性特征(例如样本数据所对应的类型或级别等),完成对样本数据的标注。进而后续可以根据上述标注后的样本数据,进行具体的模型训练。在根据标注规则对样本数据进行标注时,打标员可能受到个人的主观影响,导致单个打标员在标注时容易出现误差,使得其由单个打标员设置的标注信息往往不够准确,标注质量相对较低。因此,通常会调用多个不同的打标员同时对同一批样本数据进行标注。但是不同的打标员对于标注规则以及样本数据的理解和把握程度往往会存在差异,导致同一个样本数据被不同的打标员标注后,可能会存在多个不同的标注信息,使得在后续使用上述标注后的样本数据时会出现混乱或误差,影响样本数据的标注质量。因此,亟需一种能够高效、准确地从被多个打标员标注过的样本数据中筛选出标注质量较高的样本数据的处理方法。
技术实现思路
本说明书目的在于提供一种样本数据的处理方法、装置、服务器和存储介质,以高效、准确地从多个标注过的目标样本数据中筛选出标注质量较高的目标样本数据。本说明书提供的一种样本数据的处理方法、装置、服务器和存储介质是这样实现的:一种样本数据的处理方法,包括:获取多个目标样本数据,其中,所述目标样本数据携带有标注信息;根据所述目标样本数据所携带的标注信息,确定目标样本数据的标注信息熵;根据所述目标样本数据的标注信息熵,从所述多个目标样本数据中确定出标注质量符合预设的质量要求的目标样本数据作为第一目标数据。一种样本数据的处理装置,包括:获取模块,用于获取多个目标样本数据,其中,所述目标样本数据携带有标注信息;第一确定模块,用于根据所述目标样本数据所携带的标注信息,确定目标样本数据的标注信息熵;第二确定模块,用于根据所述目标样本数据的标注信息熵,从所述多个目标样本数据中确定出标注质量符合预设的质量要求的目标样本数据作为第一目标数据。一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现获取多个目标样本数据,其中,所述目标样本数据携带有标注信息;根据所述目标样本数据所携带的标注信息,确定目标样本数据的标注信息熵;根据所述目标样本数据的标注信息熵,从所述多个目标样本数据中确定出标注质量符合预设的质量要求的目标样本数据作为第一目标数据。一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现获取多个目标样本数据,其中,所述目标样本数据携带有标注信息;根据所述目标样本数据所携带的标注信息,确定目标样本数据的标注信息熵;根据所述目标样本数据的标注信息熵,从所述多个目标样本数据中确定出标注质量符合预设的质量要求的目标样本数据作为第一目标数据。本说明书提供的一种样本数据的处理方法、装置、服务器和存储介质,由于通过先根据已经被标注源标注过的目标样本数据所携带的标注信息,确定出能够有效反映目标样本数据的标注信息的不确定度的标注信息熵来量化不同标注源针对同一样本数据标注时的一致性程度;再根据上述标注信息熵,从多个已经被标注源标注过的目标样本数据中筛选出不同标注源标注时一致性程度相对性好、标注质量相对较高的目标样本数据作为第一目标数据用于后续使用,从而能够高效、准确地从多个目标样本数据中筛选出标注质量相对较高的目标样本数据,解决了现有方法在实施时存在的无法高效、准确地确定出标注质量较高的标注后的样本数据的技术问题。附图说明为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是应用本说明书实施例提供的样本数据的处理方法的系统的结构组成的一种实施例的示意图;图2是在一个场景示例中,应用本说明书实施例提供的样本数据的处理方法的一种实施例的示意图;图3是在一个场景示例中,应用本说明书实施例提供的样本数据的处理方法的一种实施例的示意图;图4是本说明书实施例提供的样本数据的处理方法的流程的一种实施例的示意图;图5是本说明书实施例提供的服务器的结构的一种实施例的示意图;图6是本说明书实施例提供的样本数据的处理装置的结构的一种实施例的示意图。具体实施方式为了使本
的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。考虑到基于现有的样本数据的标注方法,打标员在打标时容易受到个人的主观影响,导致标注质量无法保证。同时,如果调用多个打标员同时对同一批的样本数据进行打标,又会由于不同打标员对标注规则和样本数据得理解、把握不同,导致一个样本数据可能会有多个不同标注信息,在使用时会引起混乱,影响样本数据的标注质量。这时,基于现有方法往往无法高效、客观的地从上述标注过的样本数据筛选出标注质量较高的样本数据。尤其在需要处理的样本数据的数据量较大的情况下,如果要从大量的样本数据中准确地筛选出标注质量较高的样本数据势必会耗费掉大量时间和资源,成本相对较高,同时在筛选过程中由于没有一个能有效量化、客观的筛选依据,也容易出现错误,影响样本数据的标注质量。可见现有方法具体实施时,往往会存在无法高效、准确地筛选出标注质量高的样本数据,处理成本相对较高的技术问题。针对上述问题以及产生上述问题的根本原因,本说明书考虑从引入一种能够反映不同打标员对同一样本数据打标时的不确定度的标注信息熵来量化不同打标员打标时的一致性程度,进而可以利用该标注信息熵作为筛选依据,从大量标注过的样本数据中筛选出质量相对较高的,例如符合预设的质量要求的样本数据作为第一目标数据以便后续使用。从而可以避免耗费大量的资源、时间对标注后的样本数据进行筛选,降低筛选时可能出现的误差,以便能高效、准确地从多个目标样本数据中筛选出标注质量较高的目标样本数据,解决了现有方法中存在的无法高效、准确地筛选出标注质量较高的标注后的样本数据,处理成本相对较高的技术问题。本说明书实施例提供了一种样本数据的处理方法,所述样本数据的处理方法具体可以应用于包含有服务器和客户端的系统架构中。具体可以参阅图1所示,多个客户端分别用于对同一样本数据进行标注,并将标注后的样本数据发送给服务器。服务器用于接收来自不同客户端的标注后样本数据,先进行汇总,得到携带有一个或多个标注信息目标样本数据;再根据所述目标样本数据所携带的标注信息,确定目标样本数据的标注信息熵;最后根据所述目标样本数据的标注信息熵,从所述多个目标样本数据中确定出标注质量符合预设的质量要求的目标样本数据作为第一目标数据。在本本文档来自技高网
...

【技术保护点】
1.一种样本数据的处理方法,包括:获取多个目标样本数据,其中,所述目标样本数据携带有标注信息;根据所述目标样本数据所携带的标注信息,确定目标样本数据的标注信息熵;根据所述目标样本数据的标注信息熵,从所述多个目标样本数据中确定出标注质量符合预设的质量要求的目标样本数据作为第一目标数据。

【技术特征摘要】
1.一种样本数据的处理方法,包括:获取多个目标样本数据,其中,所述目标样本数据携带有标注信息;根据所述目标样本数据所携带的标注信息,确定目标样本数据的标注信息熵;根据所述目标样本数据的标注信息熵,从所述多个目标样本数据中确定出标注质量符合预设的质量要求的目标样本数据作为第一目标数据。2.根据权利要求1所述的方法,在根据所述目标样本数据的标注信息熵,从所述多个目标样本数据中确定出标注质量符合预设的质量要求的目标样本数据作为第一目标数据后,所述方法还包括:利用所述第一目标数据,进行风险识别模型的训练。3.根据权利要求1所述的方法,获取多个目标样本数据,包括:获取多个标注后的样本数据;确定标注后的样本数据的标注源的数量;从所述多个标注后的样本数据中筛选出标注源的数量大于等于2的标注后的样本数据作为所述目标样本数据。4.根据权利要求3所述的方法,从所述多个标注后的样本数据中筛选出标注源的数量大于等于2的标注后的样本数据作为所述目标样本数据后,所述方法还包括:从所述多个标注后的样本数据中筛选出标注源的数量等于1的标注后的样本数据作为第二目标数据。5.根据权利要求3所述的方法,根据所述目标样本数据所携带的标注信息,确定目标样本数据的标注信息熵,包括:统计所述目标样本数据所携带的标注信息所对应的标注源的数量;根据所述目标样本数据所携带的标注信息所对应的标注源的数量,按照预设规则计算出所述目标样本数据的标注信息熵。6.根据权利要求1所述的方法,根据所述目标样本数据的标注信息熵,从所述多个目标样本数据中确定出标注质量符合预设的质量要求的目标样本数据作为第一目标数据,包括:将所述多个目标样本数据的标注信息熵分别与预设的信息熵阈值进行数值比较,得到比较结果;根据所述比较结果,将标注信息熵小于等于所述预设的信息熵阈值的目标样本数据确定为所述第一目标数据。7.根据权利要求6所述的方法,在将所述多个目标样本数据的标注信息熵分别与预设的信息熵阈值进行数值比较,得到比较结果后,所述方法还包括:根据所述比较结果,将标注信息熵大于所述预设的信息熵阈值的目标样本数据确定为第二目标数据;重新标注所述第二目标数据所对应的样本数据。8.根据权利要求7所述的方法,重新标注所述第二目标数据所对应的样本数据,包括:调用多个预设标注源按照预设的标注规则分别对所述第二目标数据所对应的样本数据进行标注,得到重新标注后的样本数据;检测所述重新标注后的样本数据的标注质量是否符合预设的质量要求;在确定所述重新标注后的样本数据的标注质量符合预设的质量要求的情况下,将所述重新标注后的样本数据确定为第一目标数据。9.根据权利要求8所述的方法,在检测所述重新标注后的样本数据的标注质量是否符合预设的质量要求后,所述方法还包括:在确定所述重新标注后的样本数据的标注质量不符合预设的质量要求的情况下,调用多个预设标注源按照预设的标注规则对所述第二目标数据所对应的样本数据进行多轮标注,得到多轮标注后的样本数据作为第三目标数据;确定所述第三目标数据的标注信息熵;检测所述第三目标数据的标注信息熵的变化趋势是否符合预设的变化要求;在确定所述第三目标数据的标注信息熵的变化趋势不符合预设的变化要求的情况下,对以下至少之一进行检查和调整:标注源、预设的标注规则和第三目标数据所对应的样本数据。10.一种样本数据的处理装置,...

【专利技术属性】
技术研发人员:郭亚赵智源周书恒祝慧佳
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1