适合大数据机器学习算法的超参数调优方法、系统与介质技术方案

技术编号：35359666 阅读：29 留言：0更新日期：2022-10-26 12:43

本发明专利技术公开了一种适合大数据机器学习算法的超参数调优方法、系统与介质，该方法包括：获取大数据集，根据大数据集中基于聚类的统计特征，自动估计出所需的RSP块的数量和每个RSP块的记录数，以得到由所述数量的RSP块组成的近似大数据集的小样本数据集；接收待调参的机器学习算法及其超参数集合，根据小样本数据集中的RSP块和待调参的机器学习算法，对超参数集合进行调优操作，以确定每个超参数的最佳取值。根据每个RSP块的记录数和RSP块的数量，将大数据集划分为RSP块的集合，使用少量RSP块完成超参数调优，本发明专利技术避免了因大数据集采样不能满足数据独立同分布和采样充分性所导致的超参调优偏差和误差，提高了超参调优的无偏性、精确度、可靠性和执行效率。可靠性和执行效率。可靠性和执行效率。

全部详细技术资料下载

【技术实现步骤摘要】
适合大数据机器学习算法的超参数调优方法、系统与介质

[0001]本专利技术涉及机器学习
，尤其涉及适合大数据机器学习算法的超参数调优方法、系统与介质。

技术介绍

[0002]随着数据规模的不断增加，如何使用大数据对算法模型中的超参数进行调优越来越被重视，但是大数据集一般都是包含PB级以上的巨量数据记录，因此直接使用大数据进行超参数调优是一件非常消耗计算资源和通信资源的工作。对于使用大数据的机器学习算法的计算成本过高的问题，一般解决方案是随机抽取一部分样本来进行训练和测试，但是随机抽取的样本大数据集并不能保证与原始大数据集是同分布的样本，这必将导致算法模型的超参数的调优的质量不高，包括无偏性、可靠性和执行效率等方面存在问题。因此，如何提高超参调优的无偏性、可靠性和执行效率，是急需解决的问题。

技术实现思路

[0003]本专利技术的主要目的在于提出一种适合大数据机器学习算法的超参数调优方法、系统与介质，旨在解决如何提高了超参调优的无偏性、可靠性和执行效率的问题。
[0004]为实现上述目的，本专利技术提供一种适合大数据机器学习算法的超参数调优方法，所述适合大数据机器学习算法的超参数调优方法包括如下步骤：获取大数据集，根据所述大数据集中基于聚类的统计特征，自动估计出所需的RSP块的数量和每个RSP块的记录数，以得到由所述数量的RSP块组成的近似所述大数据集的小样本数据集；接收待调参的机器学习算法及其超参数集合，根据所述小样本数据集中的RSP块和所述待调参的机器学习算法，对所述超参数集合进行调优...

【技术保护点】

【技术特征摘要】
1.一种适合大数据机器学习算法的超参数调优方法，其特征在于，所述适合大数据机器学习算法的超参数调优方法包括如下步骤：获取大数据集，根据所述大数据集中基于聚类的统计特征，自动估计出所需的RSP块的数量和每个RSP块的记录数，以得到由所述数量的RSP块组成的近似所述大数据集的小样本数据集；接收待调参的机器学习算法及其超参数集合，根据所述小样本数据集中的RSP块和所述待调参的机器学习算法，对所述超参数集合进行调优操作，以确定每个超参数的最佳取值。2.如权利要求1所述的适合大数据机器学习算法的超参数调优方法，其特征在于，所述根据所述大数据集中基于聚类的统计特征，自动估计出所需的RSP块的数量和每个RSP块的记录数的步骤包括：根据所述大数据集中基于聚类的统计特征，计算出RSP块的记录数的下界值和上界值，根据所述下界值和所述上界值，自动估计出每个RSP块的记录数；根据所述大数据集中基于聚类的统计特征，计算出RSP块的数量的误差下界和误差上界，根据所述误差下界和所述误差上界，自动估计出所需的RSP块的数量。3.如权利要求2所述的适合大数据机器学习算法的超参数调优方法，其特征在于，所述大数据集中基于聚类的统计特征包括：数据类别数量、数据维度、量化误差和置信概率，所述根据所述大数据集中基于聚类的统计特征，计算出RSP块的记录数的下界值和上界值的步骤包括：获取并根据大数据集中的所述数据类别数量、所述数据维度、所述量化误差和所述置信概率，计算出RSP块的记录数的下界值；在所述大数据集中随机抽取预设数量的数据，得到第一数据子集，并根据对称化原理，在所述大数据集中抽取与所述大数据集对称的第二数据子集；确定所述第一数据子集和所述第二数据子集的相似度，并根据所述相似度和所述下界值确定上界值。4.如权利要求3中所述的适合大数据机器学习算法的超参数调优方法，其特征在于，所述根据所述相似度和所述下界值确定上界值的步骤包括：将所述相似度与相似度阈值进行对比，得到第一对比结果；若所述第一对比结果为所述相似度不小于所述相似度阈值，则获取所述第一数据子集中的样本数量，并将所述样本数量与所述下界值进行对比，得到第二对比结果；若所述第二对比结果为所述样本数量大于所述下界值，则根据所述样本数量确定上界值。5.如权利要求1所述的适合大数据机器学习算法的超参数调优方法，其特征在于，所述根据所述小样本数据集中的RSP块和所述待调参的机器学习算法，对所述超参数集合进行调优操作，以确定每个超参数的最佳取值的步骤包括：根据预设规则，在所述小样本数据集中选取对应的RSP块集合和在所述超参数集合中选取对应的超参数，并通过主控节点并将所述RSP块集合、...

【专利技术属性】
技术研发人员：尹剑飞，陈海彬，黄哲学，胡牧洲，
申请(专利权)人：深圳大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人