一种样本选择方法、装置、设备及存储介质制造方法及图纸

技术编号：23934046 阅读：37 留言：0更新日期：2020-04-25 02:29

本申请实施例公开了一种样本选择方法、装置、设备及存储介质，其中，该方法包括：针对待审核的多个样本数据，提取这多个样本数据各自对应的特征向量；对这多个样本数据各自对应的特征向量进行聚类处理，得到至少一个聚类类别，并确定这至少一个聚类类别的聚类中心；根据这至少一个聚类类别的聚类中心以及多个样本数据各自对应的特征向量，确定这多个样本数据各自对应的采样概率；根据这多个样本数据各自对应的采样概率，从这多个样本数据中选出预设数目个样本数据，作为需要审核的目标样本数据。如此，节约审核样本数据所需耗费的时间成本和经济成本，同时兼顾样本数据审核的可靠性。

A sample selection method, device, equipment and storage medium

全部详细技术资料下载

【技术实现步骤摘要】
一种样本选择方法、装置、设备及存储介质
本申请涉及人工智能(ArtificialIntelligence，AI)
，具体涉及一种基于人工智能的样本选择方法、装置、设备及存储介质。
技术介绍
在人工智能的大环境下，各类与机器学习相关的需求应运而生。目前基于机器学习算法训练模型时通常需要获取大量的标注样本数据，而获取大量标注样本数据的主要方法是通过团队进行人工标注，团队内通常包括标注人员和审核人员，标注人员负责样本数据的标注，审核人员负责审核样本数据的标注质量。目前，审核人员主要通过以下两种方式实现对于标注样本数据的审核：第一种方式，对所有标注样本数据进行全量审核，即对所有标注样本数据的质量均进行审核；第二种方式，从所有标注样本数据中随机抽取部分标注样本数据，对所抽取的标注样本数据的质量进行审核。对于上述第一种方式来说，目前基于机器学习算法训练模型时所需的标注样本数据量是巨大的，相应地，对所有标注样本数据均进行审核所需耗费时间成本和经济成本也是巨大的。对于第二种方式来说，随机抽取的标注样本数据通常难以准确地反映所有标注样本数据的分布情况，在确定标注样本数据的准确性上浮动很大，可靠性较差。综上，如何节省样本数据审核过程中耗费的时间成本和经济成本，并且兼顾样本数据审核的可靠度，已成为目前亟待解决的问题。
技术实现思路
本申请实施例提供了一种样本选择方法、装置、设备及存储介质，能够节约审核样本数据所需耗费的时间成本和经济成本，同时兼顾样本数据审核的可靠性。有鉴于此，本申...

【技术保护点】
1.一种样本选择方法，其特征在于，所述方法包括：/n针对待审核的多个样本数据，提取所述多个样本数据各自对应的特征向量；/n对所述多个样本数据各自对应的特征向量进行聚类处理，得到至少一个聚类类别，并确定所述至少一个聚类类别的聚类中心；/n根据所述至少一个聚类类别的聚类中心以及所述多个样本数据各自对应的特征向量，确定所述多个样本数据各自对应的采样概率；/n根据所述多个样本数据各自对应的采样概率，从所述多个样本数据中选出预设数目个样本数据，作为需要审核的目标样本数据。/n

【技术特征摘要】
1.一种样本选择方法，其特征在于，所述方法包括：
针对待审核的多个样本数据，提取所述多个样本数据各自对应的特征向量；
对所述多个样本数据各自对应的特征向量进行聚类处理，得到至少一个聚类类别，并确定所述至少一个聚类类别的聚类中心；
根据所述至少一个聚类类别的聚类中心以及所述多个样本数据各自对应的特征向量，确定所述多个样本数据各自对应的采样概率；
根据所述多个样本数据各自对应的采样概率，从所述多个样本数据中选出预设数目个样本数据，作为需要审核的目标样本数据。

2.根据权利要求1所述的方法，其特征在于，针对所述多个样本数据中的每个样本数据，通过以下方式确定该样本数据对应的采样概率：
根据该样本数据对应的距离、该样本数据所属的聚类类别中其他样本样本数据各自对应的距离、该样本数据所属的聚类类别中包括的样本数据的数目以及所述多个样本数据的数目，确定该样本数据对应的敏感度；所述样本数据对应的距离用于表征该样本数据与其所属的聚类类别的聚类中心之间的距离；
根据该样本数据对应的敏感度和所述多个样本数据各自对应的敏感度，确定该样本数据对应的采样概率。

3.根据权利要求2所述的方法，其特征在于，所述根据该样本数据对应的距离、该样本数据所属的聚类类别中其他样本样本数据各自对应的距离、该样本数据所属的聚类类别中包括的样本数据的数目以及所述多个样本数据的数目，确定该样本数据对应的敏感度，包括：
根据所述多个样本数据各自对应的距离，计算距离归一值；
根据类别权重、所述距离归一值、该样本数据对应的距离、该样本数据所属的聚类类别中其他样本数据各自对应的距离、该样本数据所属类别中包括的样本数据的数目以及所述多个样本数据的数目，计算该样本数据对应的敏感度；所述类别权重是根据所述聚类类别的数目确定的。

4.根据权利要求1所述的方法，其特征在于，所述根据所述多个样本数据各自对应的采样概率，从所述多个样本数据中选出预设数目个样本数据，作为需要审核的目标样本数据，包括：
根据所述多个样本数据各自对应的采样概率，基于随机加权算法从所述多个样本数据中选出所述预设数目个样本数据，作为所述目标...

【专利技术属性】
技术研发人员：文心杰，王晓利，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人