一种超参数确定的方法、相关装置、设备及存储介质制造方法及图纸

技术编号:24459103 阅读:21 留言:0更新日期:2020-06-10 16:27
本申请公开了一种超参数确定的方法,用于提升超参数的配置效率。本申请包括:获取目标数据集合;基于目标数据集合,通过编码器获取超参搜索特征集合;基于超参搜索特征集合以及至少一个待预测超参数配置,通过注意力机制模块获取至少一个特征表示结果;基于特征表示结果以及至少一个待预测超参数配置,通过解码器获取至少一个性能预测结果;根据至少一个性能预测结果,从至少一个待预测超参数配置中确定目标超参数配置。本申请中采用神经过程输出性能预测结果,将较优的性能预测结果所对应的待预测超参数配置作为最终的目标超参数配置,整个过程相较于高斯过程的复杂度更低,从而提升超参数的配置效率。

A method for determining super parameters, related devices, equipment and storage medium

【技术实现步骤摘要】
一种超参数确定的方法、相关装置、设备及存储介质
本申请涉及人工智能领域,尤其涉及一种超参数确定的方法、相关装置、设备及存储介质。
技术介绍
机器学习是人工智能领域热门的研究方向之一。在机器学习中,往往涉及到两类参数,即超参数和普通参数。其中,超参数是在开始学习过程之前设置值的运行参数,而不是通过训练得到的参数数据。超参数定义了关于机器学习模型的高层次的概念,如复杂性或学习能力。因此,超参数对于算法性能很大的影响。目前,提供一种超参优化算法,该方法的核心思想在于,从搜索过的超参数以及其对应的性能中学习一个替代函数,优化该替代函数的值所得到的超参数配置会输入到目标模型中,在目标数据集上进行训练和测试,这组超参数配置和真实观察得到的性能又会继续去改善该替代函数,循环往复,直到达到满意的性能为止。替代函数在建模的过程中普遍使用的是高斯过程,然而,由于高斯过程的时间复杂度与历史观察点的数目成立方,因此,而高斯过程的主要弊端在于其模型的时间复杂度很大,导致超参数的配置效率较低。
技术实现思路
本申请实施例提供了一种超参数确定的方法、相关装置、设备及存储介质,整个过程相较于高斯过程的复杂度更低,从而提升超参数的配置效率。有鉴于此,本申请第一方面提供一种超参数确定的方法,包括:获取目标数据集合,其中,目标数据集合包括至少一组超参搜索对,每组超参搜索对包括超参数配置以及性能参数;基于目标数据集合,通过编码器获取超参搜索特征集合,其中,超参搜索特征集合包括至少一个超参搜索特征,每个超参搜索特征对应一组超参搜索对;基于超参搜索特征集合以及至少一个待预测超参数配置,通过注意力机制模块获取至少一个特征表示结果;基于特征表示结果以及至少一个待预测超参数配置,通过解码器获取至少一个性能预测结果,其中,性能预测结果与待预测超参数配置具有对应关系;根据至少一个性能预测结果,从至少一个待预测超参数配置中确定目标超参数配置。本申请第二方面提供一种超参数确定装置,包括:获取模块,用于获取目标数据集合,其中,目标数据集合包括至少一组超参搜索对,每组超参搜索对包括超参数配置以及性能参数;获取模块,还用于基于目标数据集合,通过编码器获取超参搜索特征集合,其中,超参搜索特征集合包括至少一个超参搜索特征,每个超参搜索特征对应一组超参搜索对;获取模块,还用于基于超参搜索特征集合以及至少一个待预测超参数配置,通过注意力机制模块获取至少一个特征表示结果,其中,特征表示结果与待预测超参数配置具有一一对应的关系;获取模块,还用于基于特征表示结果以及至少一个待预测超参数配置,通过解码器获取至少一个性能预测结果,其中,性能预测结果与待预测超参数配置具有对应关系;确定模块,用于根据至少一个性能预测结果,从至少一个待预测超参数配置中确定目标超参数配置,其中,目标超参数配置包括已配置的超参数。在一种可能的设计中,在本申请实施例的第二方面的一种实现方式中,超参数确定装置还包括输出模块以及更新模块;获取模块,还用于获取M个历史数据集合,其中,M个历史数据集合包括目标历史数据集合,M为大于或等于1的整数,M个历史数据集合中的每个历史数据集合包括至少一组待训练超参搜索对,且目标历史数据集合包括至少一组待训练超参搜索对,待训练超参搜索对包括待训练超参数配置以及真实性能指标;输出模块,用于基于目标历史数据集合以及M个历史数据集合,通过待训练编码器输出待训练超参搜索特征集合,其中,待训练超参搜索特征集合包括多个待训练超参搜索特征,且待训练超参搜索特征与待训练超参搜索对具有对应关系;输出模块,还用于基于待训练超参搜索特征集合以及目标历史数据集合中所包含的待训练超参数配置,通过待训练注意力机制模块输出目标历史数据集合所对应的待训练特征表示结果;输出模块,还用于基于待训练特征表示结果以及目标历史数据集合中所包含的待训练超参数配置,通过待训练解码器输出预测性能指标;确定模块,还用于基于预测性能指标以及真实性能指标,采用第一损失函数确定模型参数;更新模块,用于根据模型参数更新待训练编码器、待训练注意力机制模块以及待训练解码器。在一种可能的设计中,在本申请实施例的第二方面的另一实现方式中,更新模块,具体用于采用模型参数更新待训练编码器,得到编码器;采用模型参数更新待训练注意力机制模块,得到注意力机制模块;采用模型参数更新待训练解码器,得到解码器。在一种可能的设计中,在本申请实施例的第二方面的另一实现方式中,输出模块,具体用于从目标历史数据集合中确定第一数据集合以及第二数据集合,其中,第一数据集合与第二数据集合用于构成目标历史数据集合,第一数据集合包括至少一组待训练超参搜索对,第二数据集合包括至少一组待训练超参搜索对,待训练超参搜索对包括待训练超参数配置以及真实性能指标;基于待训练超参搜索特征集合以及第一数据集合中所包含的待训练超参数配置,通过待训练注意力机制模块输出第一数据集合所对应的待训练特征表示结果;输出模块,具体用于基于第一数据集合所对应的待训练特征表示结果,以及第一数据集合中所包含的待训练超参数配置,通过待训练解码器输出第一数据集合所对应的预测性能指标;确定模块,具体用于基于第一数据集合所对应的预测性能指标,以及第二数据集合所对应的真实性能指标,采用第一损失函数确定模型参数。在一种可能的设计中,在本申请实施例的第二方面的另一实现方式中,确定模块,具体用于获取参数初始值;根据参数初始值以及第一损失函数,获取目标历史数据集合在神经过程的参数;根据目标历史数据集合在神经过程的参数以及参数初始值,更新参数初始值,得到模型参数。在一种可能的设计中,在本申请实施例的第二方面的另一实现方式中,第一损失函数表示为:其中,L1()表示第一损失函数,Hh表示第一数据集合所对应的预测性能指标,表示第二数据集合所对应的真实性能指标,E表示期望,θ表示神经过程参数,pθ表示基于θ,根据获取Hh的概率。在一种可能的设计中,在本申请实施例的第二方面的另一实现方式中,更新模块,具体用于采用如下方式更新得到模型参数:其中,表示模型参数,表示参数初始值,表示目标历史数据集合在神经过程的参数,ε表示第一学习速率,表示以θ为参数的神经网络在第k步的梯度,α表示第二学习速率。在一种可能的设计中,在本申请实施例的第二方面的另一实现方式中,输出模块,具体用于从目标历史数据集合中获取目标待训练超参数配置;根据目标待训练超参数配置,从M个历史数据集合中获取相似数据集;根据相似数据集获取相似度衡量向量;基于目标待训练超参数配置、相似数据集以及相似度衡量向量,通过待训练注意力机制模块所采用的多传感头函数,输出目标历史数据集合所对应的待训练特征表示结果。在一种可能的设计中,在本申请实施本文档来自技高网...

【技术保护点】
1.一种超参数确定的方法,其特征在于,包括:/n获取目标数据集合,其中,所述目标数据集合包括至少一组超参搜索对,每组超参搜索对包括超参数配置以及性能参数;/n基于所述目标数据集合,通过编码器获取超参搜索特征集合,其中,所述超参搜索特征集合包括至少一个超参搜索特征,每个超参搜索特征对应一组超参搜索对;/n基于所述超参搜索特征集合以及至少一个待预测超参数配置,通过注意力机制模块获取至少一个特征表示结果,其中,所述特征表示结果与所述待预测超参数配置具有一一对应的关系;/n基于所述特征表示结果以及所述至少一个待预测超参数配置,通过解码器获取至少一个性能预测结果,其中,所述性能预测结果与所述待预测超参数配置具有对应关系;/n根据所述至少一个性能预测结果,从所述至少一个待预测超参数配置中确定目标超参数配置,其中,所述目标超参数配置包括已配置的超参数。/n

【技术特征摘要】
1.一种超参数确定的方法,其特征在于,包括:
获取目标数据集合,其中,所述目标数据集合包括至少一组超参搜索对,每组超参搜索对包括超参数配置以及性能参数;
基于所述目标数据集合,通过编码器获取超参搜索特征集合,其中,所述超参搜索特征集合包括至少一个超参搜索特征,每个超参搜索特征对应一组超参搜索对;
基于所述超参搜索特征集合以及至少一个待预测超参数配置,通过注意力机制模块获取至少一个特征表示结果,其中,所述特征表示结果与所述待预测超参数配置具有一一对应的关系;
基于所述特征表示结果以及所述至少一个待预测超参数配置,通过解码器获取至少一个性能预测结果,其中,所述性能预测结果与所述待预测超参数配置具有对应关系;
根据所述至少一个性能预测结果,从所述至少一个待预测超参数配置中确定目标超参数配置,其中,所述目标超参数配置包括已配置的超参数。


2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取M个历史数据集合,其中,所述M个历史数据集合包括目标历史数据集合,所述M为大于或等于1的整数,所述M个历史数据集合中的每个历史数据集合包括至少一组待训练超参搜索对,且所述目标历史数据集合包括至少一组待训练超参搜索对,所述待训练超参搜索对包括待训练超参数配置以及真实性能指标;
基于所述目标历史数据集合以及所述M个历史数据集合,通过待训练编码器输出待训练超参搜索特征集合,其中,所述待训练超参搜索特征集合包括多个待训练超参搜索特征,且所述待训练超参搜索特征与所述待训练超参搜索对具有对应关系;
基于所述待训练超参搜索特征集合以及所述目标历史数据集合中所包含的待训练超参数配置,通过待训练注意力机制模块输出所述目标历史数据集合所对应的待训练特征表示结果;
基于所述待训练特征表示结果以及所述目标历史数据集合中所包含的待训练超参数配置,通过待训练解码器输出预测性能指标;
基于所述预测性能指标以及真实性能指标,采用第一损失函数确定模型参数;
根据所述模型参数更新所述待训练编码器、所述待训练注意力机制模块以及所述待训练解码器。


3.根据权利要求2所述的方法,其特征在于,所述根据所述模型参数更新所述待训练编码器、所述待训练注意力机制模块以及所述待训练解码器,包括:
采用所述模型参数更新所述待训练编码器,得到所述编码器;
采用所述模型参数更新所述待训练注意力机制模块,得到所述注意力机制模块;
采用所述模型参数更新所述待训练解码器,得到所述解码器。


4.根据权利要求2所述的方法,其特征在于,所述基于所述待训练超参搜索特征集合以及所述目标历史数据集合中所包含的待训练超参数配置,通过待训练注意力机制模块输出所述目标历史数据集合所对应的待训练特征表示结果,包括:
从所述目标历史数据集合中确定第一数据集合以及第二数据集合,其中,所述第一数据集合与所述第二数据集合用于构成所述目标历史数据集合,所述第一数据集合包括至少一组待训练超参搜索对,所述第二数据集合包括至少一组待训练超参搜索对,所述待训练超参搜索对包括待训练超参数配置以及真实性能指标;
基于所述待训练超参搜索特征集合以及所述第一数据集合中所包含的待训练超参数配置,通过所述待训练注意力机制模块输出所述第一数据集合所对应的待训练特征表示结果;
所述基于所述待训练特征表示结果以及所述目标历史数据集合中所包含的待训练超参数配置,通过待训练解码器输出预测性能指标,包括:
基于所述第一数据集合所对应的待训练特征表示结果,以及所述第一数据集合中所包含的待训练超参数配置,通过所述待训练解码器输出所述第一数据集合所对应的预测性能指标;
所述基于所述预测性能指标以及真实性能指标,采用第一损失函数确定模型参数,包括:
基于所述第一数据集合所对应的预测性能指标,以及所述第二数据集合所对应的真实性能指标,采用第一损失函数确定所述模型参数。


5.根据权利要求4所述的方法,其特征在于,所述采用第一损失函数确定所述模型参数,包括:
获取参数初始值;
根据所述参数初始值以及所述第一损失函数,获取所述目标历史数据集合在神经过程的参数;
根据所述目标历史数据集合在神经过程的参数以及所述参数初始值,更新所述参数初始值,得到所述模型参数。


6.根据权利要求4或5所述的方法,其特征在于,所述第一损失函数表示为:



其中,所述L1()表示第一损失函数,所述Hh表示所述第一数据集合所对应的预测性能指标,所述表示所述第二数据集合所对应的真实性能指标,所述E表示期望,所述θ表示神经过程参数,所述pθ表示基于所述θ,根据所述获取所述Hh的概率。


7.根据权利要求6所述的方法,其特征在于,所述根据所述目标历史数据集合在神经...

【专利技术属性】
技术研发人员:魏颖赵沛霖黄俊洲
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1