一种样本选择方法、装置、设备及存储介质制造方法及图纸

技术编号:23934046 阅读:37 留言:0更新日期:2020-04-25 02:29
本申请实施例公开了一种样本选择方法、装置、设备及存储介质,其中,该方法包括:针对待审核的多个样本数据,提取这多个样本数据各自对应的特征向量;对这多个样本数据各自对应的特征向量进行聚类处理,得到至少一个聚类类别,并确定这至少一个聚类类别的聚类中心;根据这至少一个聚类类别的聚类中心以及多个样本数据各自对应的特征向量,确定这多个样本数据各自对应的采样概率;根据这多个样本数据各自对应的采样概率,从这多个样本数据中选出预设数目个样本数据,作为需要审核的目标样本数据。如此,节约审核样本数据所需耗费的时间成本和经济成本,同时兼顾样本数据审核的可靠性。

A sample selection method, device, equipment and storage medium

【技术实现步骤摘要】
一种样本选择方法、装置、设备及存储介质
本申请涉及人工智能(ArtificialIntelligence,AI)
,具体涉及一种基于人工智能的样本选择方法、装置、设备及存储介质。
技术介绍
在人工智能的大环境下,各类与机器学习相关的需求应运而生。目前基于机器学习算法训练模型时通常需要获取大量的标注样本数据,而获取大量标注样本数据的主要方法是通过团队进行人工标注,团队内通常包括标注人员和审核人员,标注人员负责样本数据的标注,审核人员负责审核样本数据的标注质量。目前,审核人员主要通过以下两种方式实现对于标注样本数据的审核:第一种方式,对所有标注样本数据进行全量审核,即对所有标注样本数据的质量均进行审核;第二种方式,从所有标注样本数据中随机抽取部分标注样本数据,对所抽取的标注样本数据的质量进行审核。对于上述第一种方式来说,目前基于机器学习算法训练模型时所需的标注样本数据量是巨大的,相应地,对所有标注样本数据均进行审核所需耗费时间成本和经济成本也是巨大的。对于第二种方式来说,随机抽取的标注样本数据通常难以准确地反映所有标注样本数据的分布情况,在确定标注样本数据的准确性上浮动很大,可靠性较差。综上,如何节省样本数据审核过程中耗费的时间成本和经济成本,并且兼顾样本数据审核的可靠度,已成为目前亟待解决的问题。
技术实现思路
本申请实施例提供了一种样本选择方法、装置、设备及存储介质,能够节约审核样本数据所需耗费的时间成本和经济成本,同时兼顾样本数据审核的可靠性。有鉴于此,本申请第一方面提供了一种样本选择方法,所述方法包括:针对待审核的多个样本数据,提取所述多个样本数据各自对应的特征向量;对所述多个样本数据各自对应的特征向量进行聚类处理,得到至少一个聚类类别,并确定所述至少一个聚类类别的聚类中心;根据所述至少一个聚类类别的聚类中心以及所述多个样本数据各自对应的特征向量,确定所述多个样本数据各自对应的采样概率;根据所述多个样本数据各自对应的采样概率,从所述多个样本数据中选出预设数目个样本数据,作为需要审核的目标样本数据。本申请第二方面提供了一种样本选择装置,所述装置包括:特征向量提取模块,用于针对待审核的多个样本数据,提取所述多个样本数据各自对应的特征向量;聚类模块,用于对所述多个样本数据各自对应的特征向量进行聚类处理,得到至少一个聚类类别,并确定所述至少一个聚类类别的聚类中心;采样概率确定模块,用于根据所述至少一个聚类类别的聚类中心以及所述多个样本数据各自对应的特征向量,确定所述多个样本数据各自对应的采样概率;选择模块,用于根据所述多个样本数据各自对应的采样概率,从所述多个样本数据中选出预设数目个样本数据,作为需要审核的目标样本数据。本申请第三方面提供了一种电子设备,所述设备包括处理器以及存储器:所述存储器用于存储计算机程序;所述处理器用于根据所述计算机程序,执行如上述第一方面所述的样本选择方法的步骤。本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述第一方面所述的样本选择方法的步骤。本申请第五方面提供了一种包括指令的计算机程序产品,当其在计算机上运行时,使得所述计算机执行上述第一方面所述的样本选择方法的步骤。从以上技术方案可以看出,本申请实施例具有以下优点:在本申请实施例提供的样本选择方法中,先针对待审核的多个样本数据,分别提取每个样本数据对应的特征向量;然后,对这多个样本数据各自对应的特征向量进行聚类处理得到至少一个聚类类别,并确定所获得的至少一个聚类类别的聚类中心;进而,采用coreset核心集构建算法,根据至少一个聚类类别的聚类中心以及待审核的多个样本数据各自对应的特征向量,确定每个样本数据对应的采样概率,并根据每个样本数据对应的采样概率,从待审核的多个样本数据中选出若干个样本数据,作为需要审核的目标样本数据。上述方法将聚类算法与coreset核心集构建算法结合起来,从待审核的全量样本数据中抽取出部分样本数据作为需要审核的目标样本数据,即从全量样本数据中抽取出coreset核心集,由于coreset核心集具有能够反映全量数据分布特征的特性,因此保证了经上述方法选出的多个目标样本数据能够反映待审核的全量样本数据的分布特征;如此,既无需对全量样本数据均进行审核,大大节约了审核样本数据所耗费的时间成本和经济成本,又在保证了目标样本数据能够反映待审核的全量样本数据的分布特征的前提下,保证了样本数据审核的可靠性。附图说明图1为本申请实施例提供的样本选择方法的应用场景示意图;图2为本申请实施例提供的样本选择方法的流程示意图;图3为本申请实施例提供的样本选择方法的实现过程示意图;图4为本申请实施例提供的第一种样本选择装置的结构示意图;图5为本申请实施例提供的第二种样本选择装置的结构示意图;图6为本申请实施例提供的第三种样本选择装置的结构示意图;图7为本申请实施例提供的终端设备的结构示意图;图8为本申请实施例提供的服务器的结构示意图。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。采用现有技术对已标注的样本数据进行审核时,主要存在以下两个技术问题:第一,对所有已标注的样本数据进行全量审核,虽然能够保证样本数据审核的可靠性,但是所需耗费的时间成本和经济成本都极高;第二,对从所有已标注的样本数据中随机抽取出的样本数据进行审核,虽然能够节约样本数据审核所需耗费的时间成本和经济成本,但是由于随机抽取出的样本数据通常难以准确反映全量样本数据的分布情况,因此将导致样本数据审核的可靠性下降。针对上述技术问题,本申请实施例提供了一种样本选择方法,该方法考虑到coreset核心集具有能够反映全量数据整体分布特征的特性,将聚类算法与coreset核心集构建算法结合起来,基于此从待审核的全量样本数据中抽取出部分样本数据作为需要审核的目标样本数据,既节省了本文档来自技高网
...

【技术保护点】
1.一种样本选择方法,其特征在于,所述方法包括:/n针对待审核的多个样本数据,提取所述多个样本数据各自对应的特征向量;/n对所述多个样本数据各自对应的特征向量进行聚类处理,得到至少一个聚类类别,并确定所述至少一个聚类类别的聚类中心;/n根据所述至少一个聚类类别的聚类中心以及所述多个样本数据各自对应的特征向量,确定所述多个样本数据各自对应的采样概率;/n根据所述多个样本数据各自对应的采样概率,从所述多个样本数据中选出预设数目个样本数据,作为需要审核的目标样本数据。/n

【技术特征摘要】
1.一种样本选择方法,其特征在于,所述方法包括:
针对待审核的多个样本数据,提取所述多个样本数据各自对应的特征向量;
对所述多个样本数据各自对应的特征向量进行聚类处理,得到至少一个聚类类别,并确定所述至少一个聚类类别的聚类中心;
根据所述至少一个聚类类别的聚类中心以及所述多个样本数据各自对应的特征向量,确定所述多个样本数据各自对应的采样概率;
根据所述多个样本数据各自对应的采样概率,从所述多个样本数据中选出预设数目个样本数据,作为需要审核的目标样本数据。


2.根据权利要求1所述的方法,其特征在于,针对所述多个样本数据中的每个样本数据,通过以下方式确定该样本数据对应的采样概率:
根据该样本数据对应的距离、该样本数据所属的聚类类别中其他样本样本数据各自对应的距离、该样本数据所属的聚类类别中包括的样本数据的数目以及所述多个样本数据的数目,确定该样本数据对应的敏感度;所述样本数据对应的距离用于表征该样本数据与其所属的聚类类别的聚类中心之间的距离;
根据该样本数据对应的敏感度和所述多个样本数据各自对应的敏感度,确定该样本数据对应的采样概率。


3.根据权利要求2所述的方法,其特征在于,所述根据该样本数据对应的距离、该样本数据所属的聚类类别中其他样本样本数据各自对应的距离、该样本数据所属的聚类类别中包括的样本数据的数目以及所述多个样本数据的数目,确定该样本数据对应的敏感度,包括:
根据所述多个样本数据各自对应的距离,计算距离归一值;
根据类别权重、所述距离归一值、该样本数据对应的距离、该样本数据所属的聚类类别中其他样本数据各自对应的距离、该样本数据所属类别中包括的样本数据的数目以及所述多个样本数据的数目,计算该样本数据对应的敏感度;所述类别权重是根据所述聚类类别的数目确定的。


4.根据权利要求1所述的方法,其特征在于,所述根据所述多个样本数据各自对应的采样概率,从所述多个样本数据中选出预设数目个样本数据,作为需要审核的目标样本数据,包括:
根据所述多个样本数据各自对应的采样概率,基于随机加权算法从所述多个样本数据中选出所述预设数目个样本数据,作为所述目标...

【专利技术属性】
技术研发人员:文心杰王晓利
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1