数据处理方法、装置和计算机可读存储介质制造方法及图纸

技术编号:24459100 阅读:44 留言:0更新日期:2020-06-10 16:27
本公开涉及一种数据处理方法、装置和计算机可读存储介质,涉及计算机技术领域。该方法包括:根据待处理数据,确定待训练机器学习模型及其相应的第一超参数搜索空间;在第一超参数搜索空间中,采样候选超参数;根据候选超参数,利用第一训练数据集对待训练机器学习模型进行训练;重新采样候选超参数,根据重新采样的候选超参数重复上述训练过程,直到训练后的待训练机器学习模型满足迭代停止条件,以获取训练完毕的机器学习模型;利用训练完毕的机器学习模型及其相应的候选超参数,对待处理数据进行处理。

Data processing method, device and computer readable storage medium

The invention relates to a data processing method, a device and a computer-readable storage medium, and relates to the field of computer technology. The method includes: according to the data to be processed, determining the machine learning model to be trained and its corresponding first super parameter search space; in the first super parameter search space, sampling the candidate super parameters; according to the candidate super parameters, using the first training data set to train the machine learning model; resampling the candidate super parameters, repeating according to the resampled candidate super parameters In the above training process, until the machine learning model to be trained meets the iterative stop condition, the trained machine learning model can be obtained; the trained machine learning model and its corresponding candidate super parameters can be used to process the data.

【技术实现步骤摘要】
数据处理方法、装置和计算机可读存储介质
本公开涉及计算机
,特别涉及一种数据处理方法、数据处理装置和计算机可读存储介质。
技术介绍
由于机器学习技术在金融、广告、推荐系统和用户行为分析等多个方面的应用不断取得成功,越来越多的企业期望借助机器学习技术来提升业务运行的效率和质量。但是,机器学习模型的构建是一个复杂而耗时的过程,需要尝试不同的算法。而且,每种算法都有多个超参数需要根据具体的数据和任务目标进行合理的设置。在相关技术中,主要是基于专家知识的模型选择和超参数调试。即,基于数据的探索分析和人类专家的超参数调试的经验,针对具体任务选择不同的算法模型,进行多次试验、对比分析;根据实验和分析结果,寻找在验证集上表现良好的模型和超参数设置。
技术实现思路
本公开的专利技术人发现上述相关技术中存在如下问题:超参数的确定过程依赖人工因素,导致得到的机器学习模型的数据处理性能较差。鉴于此,本公开提出了一种数据处理技术方案,能够提高机器学习模型的数据处理性能。根据本公开的一些实施例,提供了一种数据处理方法,包括:根据待处理数据,确定待训练机器学习模型及其相应的第一超参数搜索空间;在第一超参数搜索空间中,采样候选超参数;根据候选超参数,利用第一训练数据集对待训练机器学习模型进行训练;重新采样候选超参数,根据重新采样的候选超参数重复上述训练过程,直到训练后的待训练机器学习模型满足迭代停止条件,以获取训练完毕的机器学习模型;利用训练完毕的机器学习模型及其相应的候选超参数,对待处理数据进行处理。在一些实施例中,确定待训练机器学习模型及其相应的第一超参数搜索空间包括:确定多个待训练机器学习模型,以获取多个训练完毕的机器学习模型的及其相应的候选超参数。在一些实施例中,对待处理数据进行处理包括:根据各相应的候选超参数,确定融合超参数用于处理待处理数据。在一些实施例中,在第一超参数搜索空间中采样候选超参数包括:为每个待训练机器学习模型,分别确定相应的第一超参数搜索空间;在各相应的第一超参数搜索空间中确定候选超参数,分别用于训练相应的待训练机器学习模型。在一些实施例中,对待处理数据进行处理包括:将多个训练完毕的机器学习模型中性能指标最高的机器学习模型确定为候选机器学习模型;针对候选机器学习模型,重新采样候选超参数,重复上述训练过程,直到训练后的候选机器学习模型满足迭代停止条件,以获取训练完毕的候选机器学习模型;利用训练完毕的候选机器学习模型及其相应的候选超参数,对待处理数据进行处理。在一些实施例中,对待处理数据进行处理包括:根据训练完毕的机器学习模型的性能指标,对第一超参数搜索空间进行缩小或放大处理;利用处理后的第一超参数搜索空间,重新训练训练完毕的机器学习模型,用于处理待处理数据。在一些实施例中,对待处理数据进行处理包括:利用扩大后的第一训练数据集,对训练完毕的机器学习模型进行再次训练;利用再次训练完毕的机器学习模型及其相应的候选超参数,对待处理数据进行处理。在一些实施例中,待训练机器学习模型为根据第二超参数搜索空间训练完毕的机器学习模型,第一超参数搜索空间为进行缩小或放大处理后的第二超参数搜索空间。在一些实施例中,待训练机器学习模型为根据第二训练数据集训练完毕的机器学习模型,第一训练数据集为进行扩大后的第二训练数据集。在一些实施例中,确定待训练机器学习模型及其相应的第一超参数搜索空间包括:根据用户在提供的配置页面中的选择,确定待训练机器学习模型及其相应的第一超参数搜索空间。在一些实施例中,配置页面用于用户选择候选超参数的采样方法、训练用的容器镜像、训练用的硬件类型、训练用的硬件数量、并发执行数、第一训练数据集、迭代停止条件中的至少一个。根据本公开的另一些实施例,提供一种数据处理装置,包括:确定单元,用于根据待处理数据,确定待训练机器学习模型及其相应的第一超参数搜索空间;采样单元,用于在第一超参数搜索空间中采样候选超参数,重新采样候选超参数,直到训练后的待训练机器学习模型满足迭代停止条件;训练单元,用于根据候选超参数,利用第一训练数据集对待训练机器学习模型进行训练,根据重新采样的候选超参数重复上述训练过程,直到训练后的待训练机器学习模型满足迭代停止条件,以获取训练完毕的机器学习模型;处理单元,用于利用训练完毕的机器学习模型及其相应的候选超参数,对待处理数据进行处理。在一些实施例中,确定单元确定多个待训练机器学习模型,以获取多个训练完毕的机器学习模型的及其相应的候选超参数。在一些实施例中,确定单元根据各相应的候选超参数,确定融合超参数用于处理待处理数据。在一些实施例中,确定单元为每个待训练机器学习模型,分别确定相应的第一超参数搜索空间;采样单元在各相应的第一超参数搜索空间中确定候选超参数,分别用于训练相应的待训练机器学习模型。在一些实施例中,确定单元将多个训练完毕的机器学习模型中性能指标最高的机器学习模型确定为候选机器学习模型;针对候选机器学习模型,采样单元重新采样候选超参数,训练单元重复上述训练过程,直到训练后的候选机器学习模型满足迭代停止条件,以获取训练完毕的候选机器学习模型;处理单元利用训练完毕的候选机器学习模型及其相应的候选超参数,对待处理数据进行处理。在一些实施例中,处理单元根据训练完毕的机器学习模型的性能指标,对第一超参数搜索空间进行缩小或放大处理;采样单元利用处理后的第一超参数搜索空间重新确定候选超参数,训练单元重新训练训练完毕的机器学习模型,用于处理待处理数据。在一些实施例中,训练单元利用扩大后的第一训练数据集,对训练完毕的机器学习模型进行再次训练;处理单元利用再次训练完毕的机器学习模型及其相应的候选超参数,对待处理数据进行处理。在一些实施例中,待训练机器学习模型为根据第二超参数搜索空间训练完毕的机器学习模型,第一超参数搜索空间为进行缩小或放大处理后的第二超参数搜索空间。在一些实施例中,待训练机器学习模型为根据第二训练数据集训练完毕的机器学习模型,第一训练数据集为进行扩大后的第二训练数据集。在一些实施例中,确定单元根据用户在提供的配置页面中的选择,确定待训练机器学习模型及其相应的第一超参数搜索空间。在一些实施例中,配置页面用于用户选择候选超参数的采样方法、训练用的容器镜像、训练用的硬件类型、训练用的硬件数量、并发执行数、第一训练数据集、迭代停止条件中的至少一个。根据本公开的又一些实施例,提供一种数据处理装置,包括:存储器;和耦接至存储器的处理器,处理器被配置为基于存储在存储器装置中的指令,执行上述任一个实施例中的数据处理方法。根据本公开的再一些实施例,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一个实施例中的数据处理方法。在上述实施例中,能够根据待处理的任务,在一定的第一超参数搜索空间中对机器学习模型的超参进行自动搜索,从而完成机器学习模型的训练训练哦用于处理任务。这样,可以实现超参数的本文档来自技高网...

【技术保护点】
1.一种数据处理方法,包括:/n根据待处理数据,确定待训练机器学习模型及其相应的第一超参数搜索空间;/n在所述第一超参数搜索空间中,采样候选超参数;/n根据所述候选超参数,利用第一训练数据集对所述待训练机器学习模型进行训练;/n重新采样候选超参数,根据重新采样的候选超参数重复上述训练过程,直到训练后的所述待训练机器学习模型满足迭代停止条件,以获取训练完毕的机器学习模型;/n利用所述训练完毕的机器学习模型及其相应的候选超参数,对所述待处理数据进行处理。/n

【技术特征摘要】
1.一种数据处理方法,包括:
根据待处理数据,确定待训练机器学习模型及其相应的第一超参数搜索空间;
在所述第一超参数搜索空间中,采样候选超参数;
根据所述候选超参数,利用第一训练数据集对所述待训练机器学习模型进行训练;
重新采样候选超参数,根据重新采样的候选超参数重复上述训练过程,直到训练后的所述待训练机器学习模型满足迭代停止条件,以获取训练完毕的机器学习模型;
利用所述训练完毕的机器学习模型及其相应的候选超参数,对所述待处理数据进行处理。


2.根据权利要求1所述的数据处理方法,其中,所述确定待训练机器学习模型及其相应的第一超参数搜索空间包括:
确定多个待训练机器学习模型,以获取多个训练完毕的机器学习模型及其相应的候选超参数;
所述对所述待处理数据进行处理包括:
根据各相应的候选超参数,确定融合超参数用于处理所述待处理数据。


3.根据权利要求2所述的数据处理方法,其中,所述在所述第一超参数搜索空间中采样候选超参数包括:
为每个待训练机器学习模型,分别确定相应的第一超参数搜索空间;
在各相应的第一超参数搜索空间中确定候选超参数,分别用于训练相应的待训练机器学习模型。


4.根据权利要求2所述的数据处理方法,其中,所述利用所述训练完毕的机器学习模型及其相应的候选超参数,对所述待处理数据进行处理包括:
将所述多个训练完毕的机器学习模型中性能指标最高的机器学习模型确定为候选机器学习模型;
针对所述候选机器学习模型,重新采样候选超参数,重复上述训练过程,直到训练后的所述候选机器学习模型满足所述迭代停止条件,以获取训练完毕的候选机器学习模型;
利用所述训练完毕的候选机器学习模型及其相应的候选超参数,对所述待处理数据进行处理。


5.根据权利要求1所述的数据处理方法,其中,所述利用所述训练完毕的机器学习模型及其相应的候选超参数,对所述待处理数据进行处理包括:
根据所述训练完毕的机器学习模型的性能指标,对所述第一超参数搜索空间进行缩小或放大处理;
利用所述处理后的第一超参数搜索空间,重新采样候选超参数以便重新训练所述训练完毕的机器学习模型,用于处理所述待处理数据。


6.根据权利要求1所述的数据处理方法,其中,所述利用所述训练完毕的机器学习模...

【专利技术属性】
技术研发人员:黄绿君吴荣彬张旭
申请(专利权)人:京东数字科技控股有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1