当前位置: 首页 > 专利查询>深圳大学专利>正文

适合大数据机器学习算法的超参数调优方法、系统与介质技术方案

技术编号:35359666 阅读:15 留言:0更新日期:2022-10-26 12:43
本发明专利技术公开了一种适合大数据机器学习算法的超参数调优方法、系统与介质,该方法包括:获取大数据集,根据大数据集中基于聚类的统计特征,自动估计出所需的RSP块的数量和每个RSP块的记录数,以得到由所述数量的RSP块组成的近似大数据集的小样本数据集;接收待调参的机器学习算法及其超参数集合,根据小样本数据集中的RSP块和待调参的机器学习算法,对超参数集合进行调优操作,以确定每个超参数的最佳取值。根据每个RSP块的记录数和RSP块的数量,将大数据集划分为RSP块的集合,使用少量RSP块完成超参数调优,本发明专利技术避免了因大数据集采样不能满足数据独立同分布和采样充分性所导致的超参调优偏差和误差,提高了超参调优的无偏性、精确度、可靠性和执行效率。可靠性和执行效率。可靠性和执行效率。

【技术实现步骤摘要】
适合大数据机器学习算法的超参数调优方法、系统与介质


[0001]本专利技术涉及机器学习
,尤其涉及适合大数据机器学习算法的超参数调优方法、系统与介质。

技术介绍

[0002]随着数据规模的不断增加,如何使用大数据对算法模型中的超参数进行调优越来越被重视,但是大数据集一般都是包含PB级以上的巨量数据记录,因此直接使用大数据进行超参数调优是一件非常消耗计算资源和通信资源的工作。对于使用大数据的机器学习算法的计算成本过高的问题,一般解决方案是随机抽取一部分样本来进行训练和测试,但是随机抽取的样本大数据集并不能保证与原始大数据集是同分布的样本,这必将导致算法模型的超参数的调优的质量不高,包括无偏性、可靠性和执行效率等方面存在问题。因此,如何提高超参调优的无偏性、可靠性和执行效率,是急需解决的问题。

技术实现思路

[0003]本专利技术的主要目的在于提出一种适合大数据机器学习算法的超参数调优方法、系统与介质,旨在解决如何提高了超参调优的无偏性、可靠性和执行效率的问题。
[0004]为实现上述目的,本专利技术提供一种适合大数据机器学习算法的超参数调优方法,所述适合大数据机器学习算法的超参数调优方法包括如下步骤:获取大数据集,根据所述大数据集中基于聚类的统计特征,自动估计出所需的RSP块的数量和每个RSP块的记录数,以得到由所述数量的RSP块组成的近似所述大数据集的小样本数据集;接收待调参的机器学习算法及其超参数集合,根据所述小样本数据集中的RSP块和所述待调参的机器学习算法,对所述超参数集合进行调优操作,以确定每个超参数的最佳取值。
[0005]可选地,根据所述大数据集中基于聚类的统计特征,自动估计出所需的RSP块的数量和每个RSP块的记录数的步骤包括:根据所述大数据集中基于聚类的统计特征,计算出RSP块的记录数的下界值和上界值,根据所述下界值和所述上界值,自动估计出每个RSP块的记录数;根据所述大数据集中基于聚类的统计特征,计算出RSP块的数量的误差下界和误差上界,根据所述误差下界和所述误差上界,自动估计出所需的RSP块的数量。
[0006]可选地,大数据集中基于聚类的统计特征包括:数据类别数量、数据维度、量化误差和置信概率,所述根据所述大数据集中基于聚类的统计特征,计算出RSP块的记录数的下界值和上界值的步骤包括:获取并根据大数据集中的所述数据类别数量、所述数据维度、所述量化误差和所述置信概率,计算出RSP块的记录数的下界值;在所述大数据集中随机抽取预设数量的数据,得到第一数据子集,并根据对称化
原理,在所述大数据集中抽取与所述大数据集对称的第二数据子集;确定所述第一数据子集和所述第二数据子集的相似度,并根据所述相似度和所述下界值确定上界值。
[0007]可选地,根据所述相似度和所述下界值确定上界值的步骤包括:将所述相似度与相似度阈值进行对比,得到第一对比结果;若所述第一对比结果为所述相似度不小于所述相似度阈值,则获取所述第一数据子集中的样本数量,并将所述样本数量与所述下界值进行对比,得到第二对比结果;若所述第二对比结果为所述样本数量大于所述下界值,则根据所述样本数量确定上界值。
[0008]可选地,根据所述小样本数据集中的RSP块和所述待调参的机器学习算法,对所述超参数集合进行调优操作,以确定每个超参数的最佳取值的步骤包括:根据预设规则,在所述小样本数据集中选取对应的RSP块集合和在所述超参数集合中选取对应的超参数,并通过主控节点并将所述RSP块集合、所述超参数和所述待调参的机器学习算法下发到对应的工作节点中;通过所述工作节点根据所述RSP块集合、所述超参数和所述待调参的机器学习算法对所述超参数集合进行调优操作,得到调优结果,并通过所述主控节点根据所述调优结果,确定所述超参数集合中每个超参数的最佳取值。
[0009]可选地,通过所述主控节点根据所述调优结果,确定所述超参数集合中每个超参数的最佳取值的步骤包括:通过所述主控节点根据所述调优结果,确定所述超参数集合中每个超参数对应的得分值,根据所述得分值对所述超参数集合中每个超参数进行排序,得到排序结果;根据所述排序结果,确定待确定目标超参数集合,并确定所述待确定目标超参数集合对应的密度峰值,根据所述密度峰值,确定每个超参数的最佳取值。
[0010]可选地,接收待调参的机器学习算法及其超参数集合,根据所述小样本数据集中的RSP块和所述待调参的机器学习算法,对所述超参数集合进行调优操作,以确定每个超参数的最佳取值的步骤之后,所述适合大数据机器学习算法的超参数调优方法包括:根据每个超参数的最佳取值对所述待调参的机器学习算法进行调参操作,得到目标机器学习算法。
[0011]此外,为实现上述目的,本专利技术还提供适合大数据机器学习算法的超参数调优系统,其特征在于,所述适合大数据机器学习算法的超参数调优系统包括:数据服务层;工作层;调度层;所述数据服务层用于获取大数据集和接收待调参的机器学习算法及其超参数集合,并将所述大数据集、所述待调参的机器学习算法和所述超参数集合进行储存;所述工作层中包括工作节点,所述工作节点用于根据大数据集中基于聚类的统计特征,自动估计出所需的RSP块的数量和每个RSP块的记录数,以得到由所述数量的RSP块组成的近似大数据集的小样本数据集,以及根据小样本数据集中的RSP块和待调参的机器学习算法,对超参数集合进行调优操作,以确定每个超参数的最佳取值;
所述调度层包括主控节点,所述主控节点用于将所述大数据集、所述待调参的机器学习算法和所述超参数集合发送到所述工作层对应的所述工作节点中。
[0012]可选地,所述数据服务层,还用于存储所述小样本数据集中的RSP块,和/或将所述小样本数据集中的RSP块分别存储在所述工作节点中。
[0013]此外,为实现上述目的,本专利技术还提供一种介质,所述介质为计算机可读存储介质,所述计算机可读存储介质上存储有超参数调优程序,所述超参数调优程序被处理器执行时实现如上所述的适合大数据机器学习算法的超参数调优方法的步骤。
[0014]本专利技术提出的适合大数据机器学习算法的适合大数据机器学习算法的超参数调优方法,获取大数据集,根据大数据集中基于聚类的统计特征,自动估计出所需的RSP块的数量和每个RSP块的记录数,以得到由所述数量的RSP块组成的近似大数据集的小样本数据集;接收待调参的机器学习算法及其超参数集合,根据小样本数据集中的RSP块和待调参的机器学习算法,对超参数集合进行调优操作,以确定每个超参数的最佳取值。根据每个RSP块的记录数和RSP块的数量,将大数据集划分为RSP块的集合,使用少量RSP块完成超参数调优,相比现有的机器学习超参调优方法,本专利技术避免了因大数据集采样不能满足数据独立同分布和采样充分性所导致的超参调优偏差和误差,提高了超参调优的无偏性、精确度、可靠性和执行效率。
附图说明
[0015]图1是本专利技术实施例方案涉及的硬件运行环境的设备结构示意图;图2为本专利技术适合大数据机器学习算法的超参数调优方法第一实施例的流程示意图;图3为本专利技术适合大本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种适合大数据机器学习算法的超参数调优方法,其特征在于,所述适合大数据机器学习算法的超参数调优方法包括如下步骤:获取大数据集,根据所述大数据集中基于聚类的统计特征,自动估计出所需的RSP块的数量和每个RSP块的记录数,以得到由所述数量的RSP块组成的近似所述大数据集的小样本数据集;接收待调参的机器学习算法及其超参数集合,根据所述小样本数据集中的RSP块和所述待调参的机器学习算法,对所述超参数集合进行调优操作,以确定每个超参数的最佳取值。2.如权利要求1所述的适合大数据机器学习算法的超参数调优方法,其特征在于,所述根据所述大数据集中基于聚类的统计特征,自动估计出所需的RSP块的数量和每个RSP块的记录数的步骤包括:根据所述大数据集中基于聚类的统计特征,计算出RSP块的记录数的下界值和上界值,根据所述下界值和所述上界值,自动估计出每个RSP块的记录数;根据所述大数据集中基于聚类的统计特征,计算出RSP块的数量的误差下界和误差上界,根据所述误差下界和所述误差上界,自动估计出所需的RSP块的数量。3.如权利要求2所述的适合大数据机器学习算法的超参数调优方法,其特征在于,所述大数据集中基于聚类的统计特征包括:数据类别数量、数据维度、量化误差和置信概率,所述根据所述大数据集中基于聚类的统计特征,计算出RSP块的记录数的下界值和上界值的步骤包括:获取并根据大数据集中的所述数据类别数量、所述数据维度、所述量化误差和所述置信概率,计算出RSP块的记录数的下界值;在所述大数据集中随机抽取预设数量的数据,得到第一数据子集,并根据对称化原理,在所述大数据集中抽取与所述大数据集对称的第二数据子集;确定所述第一数据子集和所述第二数据子集的相似度,并根据所述相似度和所述下界值确定上界值。4.如权利要求3中所述的适合大数据机器学习算法的超参数调优方法,其特征在于,所述根据所述相似度和所述下界值确定上界值的步骤包括:将所述相似度与相似度阈值进行对比,得到第一对比结果;若所述第一对比结果为所述相似度不小于所述相似度阈值,则获取所述第一数据子集中的样本数量,并将所述样本数量与所述下界值进行对比,得到第二对比结果;若所述第二对比结果为所述样本数量大于所述下界值,则根据所述样本数量确定上界值。5.如权利要求1所述的适合大数据机器学习算法的超参数调优方法,其特征在于,所述根据所述小样本数据集中的RSP块和所述待调参的机器学习算法,对所述超参数集合进行调优操作,以确定每个超参数的最佳取值的步骤包括:根据预设规则,在所述小样本数据集中选取对应的RSP块集合和在所述超参数集合中选取对应的超参数,并通过主控节点并将所述RSP块集合、...

【专利技术属性】
技术研发人员:尹剑飞陈海彬黄哲学胡牧洲
申请(专利权)人:深圳大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1