一种关键样本采样方法、系统、电子设备及存储介质技术方案

技术编号：36862384 阅读：20 留言：0更新日期：2023-03-15 18:39

本申请公开了一种关键样本采样方法、系统、电子设备及存储介质，所属的技术领域为人工智能技术领域。所述关键样本采样方法包括：获取分布式训练系统的全体样本集合；根据多个属性的信息熵计算每一样本的评估得分，并根据评估得分剔除异常样本得到优选样本集合；根据优选样本集合构建目标矩阵；确定目标矩阵的特征值和特征向量，将数值最大的m个特征值对应的特征向量设置为主成分特征向量；将所述优选样本集合中的Q个样本设置为关键样本，以便所述分布式训练系统的计算节点利用所述关键样本进行模型训练；其中，每一所述关键样本包含所有所述主成分特征向量。本申请能够降低参与训练的样本数量和样本属性，提高分布式训练系统的训练效率。统的训练效率。统的训练效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种关键样本采样方法、系统、电子设备及存储介质

[0001]本申请涉及人工智能
，特别涉及一种关键样本采样方法、系统、电子设备及存储介质。

技术介绍

[0002]随着大数据、人工智能、高性能计算以及互联网技术的迅猛发展，催生了各类海量的且复杂结构的数据集与模型，进而推动机器学习、深度学习模型训练与推理任务逐步朝着分布式计算架构领域不断迈进，并使其成为实现人工智能技术在计算机视觉、自然语言处理、语言识别、自动驾驶等领域取得突破性进展的关键举措。
[0003]与以往传统的单机训练方式相比，分布式训练技术有以下两方面的显著优势：一是分布式系统依赖于其众多计算节点的存储容量，解决了数据与模型的有效存储与加载问题；二是分布式系统众多计算节点的协同并行计算能力，大大缩短了单机训练时长。综上所述，分布式训练系统以其存储、并行计算等显著优势已成为人工智能研究领域的基础。
[0004]数学优化算法是训练大规模机器/深度学习系统的核心，在有足够数据资源的情况下，优化算法已被广泛应用于大规模数据集，并取得了巨大的成功。然而，实现这一成功也需要大量计算的资源(通常是GPU)，以及随之而来的成本开销和能源消耗。在不降低已学习系统训练精度的前提下，显著降低这些成本是分布式训练系统的一大挑战。
[0005]因此，如何降低参与训练的样本数量与样本属性，提高分布式训练系统的训练效率是本领域技术人员目前需要解决的技术问题。

技术实现思路

[0006]本申请的目的是提供一种关键样本采样方法、一种模型训练方法、...

【技术保护点】

【技术特征摘要】
1.一种关键样本采样方法，其特征在于，包括：获取分布式训练系统的全体样本集合；其中，所述全体样本集合包括多个样本，每一样本包括多个属性；根据多个属性的信息熵计算每一所述样本的评估得分，并根据所述评估得分剔除所述全体样本集合中的异常样本，得到优选样本集合；根据所述优选样本集合中的所有样本构建目标矩阵；其中，所述目标矩阵为协方差矩阵或相关系数矩阵；确定所述目标矩阵的特征值和特征向量，并将数值最大的m个特征值对应的特征向量设置为主成分特征向量；将所述优选样本集合中的Q个样本设置为关键样本，以便所述分布式训练系统的计算节点利用所述关键样本进行模型训练；其中，每一所述关键样本包含所有所述主成分特征向量。2.根据权利要求1所述关键样本采样方法，其特征在于，根据多个属性的信息熵计算每一所述样本的评估得分，包括：利用信息熵计算公式计算每一所述样本包括的每一属性的信息熵；将每一所述样本包括的所有属性的信息熵之和设置为所述评估得分。3.根据权利要求1所述关键样本采样方法，其特征在于，根据所述评估得分剔除所述全体样本集合中的异常样本，得到优选样本集合，包括：计算所有所述样本的评估得分的平均值，根据所述平均值确定参考得分；将评估得分小于所述参考得分的样本设置为所述异常样本，并剔除所述全体样本集合中的所述异常样本，得到所述优选样本集合。4.根据权利要求1所述关键样本采样方法，其特征在于，根据所述优选样本集合中的所有样本构建目标矩阵，包括：提取所述优选样本集合中每一样本的样本特征，根据所述样本特征构建所述目标矩阵。5.根据权利要求4所述关键样本采样方法，其特征在于，根据所述样本特征构建所述目标矩阵，包括：根据所述样本特征构建p
×
n的样本特征矩阵；其中，n为所述优选样本集合包含的样本数量，p为样本包含的属性数量；计算所述样本特征矩阵对应的所述目标矩阵。6.根据权利要求5所述关键样本采样方法，其特征在于，计算所述样本特征矩阵对应的所述目标矩阵，包括：利用正交矩阵对所述样本特征矩阵进行线性变换，得到所述目标矩阵。7.根据权利要求6所述关键样本采样方法，其特征在于，在利用正交矩阵对所述样本特征矩阵进行线性变换之前，还包括：确定符合第一约束条件的正交矩阵；其中，所述第一约束条件为T
i
′
T
i
= 1，T
i
表示所述正交矩阵的第i行元素，T
i
′
表示所述正交矩阵对应的转置矩阵的第i行元素。8.根据权利要求6所述关键样本采样方法，其特征在于，在利用正交矩阵对所述样本特
征矩阵进行线性变换之前，还包括：确定符合第二约束条件的正交矩阵；其中，所述第二约束条件为|T
i
|=1，T
i
表示正交矩阵的第i行元素。9.根据权利要求1所述关键样本采样方法，其特征在于，确定所述目标矩阵的特征值和特征向量，包括：将所述目标矩阵的特征根设置为目标矩阵的特征值，并确定每一所述特征值对应的单位化的特征向量。10.根据权利要求1所述关键样本采样方法，其特征在于，在将数值最大的m个特征值对应的特征向量设置为主成分特征向量之前，还包括：按照从大到小的顺序对所有所述特征值进行排序；确定符合预设规则的主成分特征向量数量m；其中，所述预设规则为排序前m位的特征值对应的特征向量的累计方差贡献率大于预设值。11.根据权利要求10所述关键样本采样方法，其特征在于，确定符合预设规则的主成分特征向量数量m，包括：将k的值设置为1；判断排序前k位的特征值对应的特征向量的累计方差贡献率是否大于所述预设值；若是，则将k的值设置为所述主成分特征向量数量m；若否，则将k的值加1，并进入判断排序前k位的特征值对应的特征向量的累计方差贡献率是否大于所述预设值的步骤。12.根据权利要求1所述关键样本采样方法，其特征在于，在将所述优选样本集合中的Q个样本设置为关键样本之后，还包括：将Q个所述关键样本划分为多个关键样本子集合；将所述关键样本子集合发送至所述分布式训练系统的计算节点，以便所述计算节点利用所述关键样本子集合对子模型进行训练；其中，所述计算节点中的子模型由通过对待训练模型拆分得到。13.根据权利要求1所述关键样本采样方法，其特征在于，在将所述优选样本集合中的Q个样本设置为关键样本之后，还包括：将Q个所述关键样本发送至所述分布式训练系统的计算节点，以便所述计算节点利用Q个所述关键样本对子模型进行训练；其中，所述计算节点中的子模型由通过对待训练模型拆分得到。14.根据权利要求13所述关键样本采样方法，其特征在于，所述待训练模型为图像处理模型，所述全体样本集合中的样本为样本图像。15.根据权利要求13所述关键样本采样方法，其特征在于，所述...

【专利技术属性】
技术研发人员：闫瑞栋，郭振华，赵雅倩，
申请(专利权)人：山东海量信息技术研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人