数据处理方法、装置和计算机可读存储介质制造方法及图纸

技术编号：24459100 阅读：44 留言：0更新日期：2020-06-10 16:27

本公开涉及一种数据处理方法、装置和计算机可读存储介质，涉及计算机技术领域。该方法包括：根据待处理数据，确定待训练机器学习模型及其相应的第一超参数搜索空间；在第一超参数搜索空间中，采样候选超参数；根据候选超参数，利用第一训练数据集对待训练机器学习模型进行训练；重新采样候选超参数，根据重新采样的候选超参数重复上述训练过程，直到训练后的待训练机器学习模型满足迭代停止条件，以获取训练完毕的机器学习模型；利用训练完毕的机器学习模型及其相应的候选超参数，对待处理数据进行处理。

Data processing method, device and computer readable storage medium

The invention relates to a data processing method, a device and a computer-readable storage medium, and relates to the field of computer technology. The method includes: according to the data to be processed, determining the machine learning model to be trained and its corresponding first super parameter search space; in the first super parameter search space, sampling the candidate super parameters; according to the candidate super parameters, using the first training data set to train the machine learning model; resampling the candidate super parameters, repeating according to the resampled candidate super parameters In the above training process, until the machine learning model to be trained meets the iterative stop condition, the trained machine learning model can be obtained; the trained machine learning model and its corresponding candidate super parameters can be used to process the data.

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法、装置和计算机可读存储介质
本公开涉及计算机
，特别涉及一种数据处理方法、数据处理装置和计算机可读存储介质。
技术介绍
由于机器学习技术在金融、广告、推荐系统和用户行为分析等多个方面的应用不断取得成功，越来越多的企业期望借助机器学习技术来提升业务运行的效率和质量。但是，机器学习模型的构建是一个复杂而耗时的过程，需要尝试不同的算法。而且，每种算法都有多个超参数需要根据具体的数据和任务目标进行合理的设置。在相关技术中，主要是基于专家知识的模型选择和超参数调试。即，基于数据的探索分析和人类专家的超参数调试的经验，针对具体任务选择不同的算法模型，进行多次试验、对比分析；根据实验和分析结果，寻找在验证集上表现良好的模型和超参数设置。
技术实现思路
本公开的专利技术人发现上述相关技术中存在如下问题：超参数的确定过程依赖人工因素，导致得到的机器学习模型的数据处理性能较差。鉴于此，本公开提出了一种数据处理技术方案，能够提高机器学习模型的数据处理性能。根据本公开的一些实施例，提供了一种数据处理方法，包括：根据待处理数据，确定待训练机器学习模型及其相应的第一超参数搜索空间；在第一超参数搜索空间中，采样候选超参数；根据候选超参数，利用第一训练数据集对待训练机器学习模型进行训练；重新采样候选超参数，根据重新采样的候选超参数重复上述训练过程，直到训练后的待训练机器学习模型满足迭代停止条件，以获取训练完毕的机器学习模型；利用训练完毕的机器学习模型及其相应的候选超参数，对待处理...

【技术保护点】
1.一种数据处理方法，包括：/n根据待处理数据，确定待训练机器学习模型及其相应的第一超参数搜索空间；/n在所述第一超参数搜索空间中，采样候选超参数；/n根据所述候选超参数，利用第一训练数据集对所述待训练机器学习模型进行训练；/n重新采样候选超参数，根据重新采样的候选超参数重复上述训练过程，直到训练后的所述待训练机器学习模型满足迭代停止条件，以获取训练完毕的机器学习模型；/n利用所述训练完毕的机器学习模型及其相应的候选超参数，对所述待处理数据进行处理。/n

【技术特征摘要】
1.一种数据处理方法，包括：
根据待处理数据，确定待训练机器学习模型及其相应的第一超参数搜索空间；
在所述第一超参数搜索空间中，采样候选超参数；
根据所述候选超参数，利用第一训练数据集对所述待训练机器学习模型进行训练；
重新采样候选超参数，根据重新采样的候选超参数重复上述训练过程，直到训练后的所述待训练机器学习模型满足迭代停止条件，以获取训练完毕的机器学习模型；
利用所述训练完毕的机器学习模型及其相应的候选超参数，对所述待处理数据进行处理。

2.根据权利要求1所述的数据处理方法，其中，所述确定待训练机器学习模型及其相应的第一超参数搜索空间包括：
确定多个待训练机器学习模型，以获取多个训练完毕的机器学习模型及其相应的候选超参数；
所述对所述待处理数据进行处理包括：
根据各相应的候选超参数，确定融合超参数用于处理所述待处理数据。

3.根据权利要求2所述的数据处理方法，其中，所述在所述第一超参数搜索空间中采样候选超参数包括：
为每个待训练机器学习模型，分别确定相应的第一超参数搜索空间；
在各相应的第一超参数搜索空间中确定候选超参数，分别用于训练相应的待训练机器学习模型。

4.根据权利要求2所述的数据处理方法，其中，所述利用所述训练完毕的机器学习模型及其相应的候选超参数，对所述待处理数据进行处理包括：
将所述多个训练完毕的机器学习模型中性能指标最高的机器学习模型确定为候选机器学习模型；
针对所述候选机器学习模型，重新采样候选超参数，重复上述训练过程，直到训练后的所述候选机器学习模型满足所述迭代停止条件，以获取训练完毕的候选机器学习模型；
利用所述训练完毕的候选机器学习模型及其相应的候选超参数，对所述待处理数据进行处理。

5.根据权利要求1所述的数据处理方法，其中，所述利用所述训练完毕的机器学习模型及其相应的候选超参数，对所述待处理数据进行处理包括：
根据所述训练完毕的机器学习模型的性能指标，对所述第一超参数搜索空间进行缩小或放大处理；
利用所述处理后的第一超参数搜索空间，重新采样候选超参数以便重新训练所述训练完毕的机器学习模型，用于处理所述待处理数据。

6.根据权利要求1所述的数据处理方法，其中，所述利用所述训练完毕的机器学习模...

【专利技术属性】
技术研发人员：黄绿君，吴荣彬，张旭，
申请(专利权)人：京东数字科技控股有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人