数据处理方法、装置和模型训练方法、装置和电子设备制造方法及图纸

技术编号：34399845 阅读：19 留言：0更新日期：2022-08-03 21:38

本申请涉及了一种数据处理方法、装置和模型训练方法、装置和电子设备。该数据处理方法包括：获得训练数据集；确定训练数据集中至少部分训练数据各自的难度系数，以便基于至少部分训练数据各自的难度系数对训练数据集中至少部分数据进行难度分类；其中，训练数据包括分子数据，分子数据的难度系数是基于分子属性和/或模型训练属性来确定的。本申请能够提升预训练模型在目标任务中的精准度。预训练模型在目标任务中的精准度。预训练模型在目标任务中的精准度。

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法、装置和模型训练方法、装置和电子设备

[0001]本申请涉及人工智能和计算机仿真
，尤其涉及一种数据处理方法、装置和模型训练方法、装置和电子设备。

技术介绍

[0002]随着计算机技术和人工智能技术的快速发展，计算机仿真技术被应用到越来越多的场景中，如材料设计、药物设计等。
[0003]然而，申请人发现相关技术得到的预训练模型在应用到某一目标任务中时，预测精准度有待提升。

技术实现思路

[0004]为解决或部分解决相关技术中存在的问题，本申请提供一种数据处理方法、装置和模型训练方法、装置和电子设备，能够有效提升预训练模型在特定目标任务中的精准度。
[0005]本申请的第一个方面提供了一种数据处理方法，包括：获得训练数据集；确定训练数据集中至少部分训练数据各自的难度系数，以便基于至少部分训练数据各自的难度系数对训练数据集中至少部分数据进行难度分类；其中，训练数据包括分子数据，分子数据的难度系数是基于分子属性和/或模型训练属性来确定的。
[0006]本申请的第二个方面提供了一种模型训练方法，包括：获得训练数据集，训练数据集中至少部分训练数据各自具有难度系数，难度系数是基于根据上述数据处理方法来确定的；利用训练数据集中的至少部分训练数据，按照难度系数从低到高的顺序，分轮对待训练模型进行训练。
[0007]本申请的第三方面提供了一种分子属性预测方法，包括：获得分子数据；基于所述分子数据，利用如上经训练的所述待训练模型得到的分子预测模型预测得到所述分子数据的分子...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法，其特征在于，包括：获得训练数据集；确定所述训练数据集中至少部分训练数据各自的难度系数，以便基于所述至少部分训练数据各自的难度系数对所述训练数据集中至少部分数据进行难度分类；其中，所述训练数据包括分子数据，所述分子数据的难度系数是基于分子属性和/或模型训练属性来确定的。2.根据权利要求1所述的数据处理方法，其特征在于，所述确定所述训练数据集中至少部分训练数据各自的难度系数，包括：对于所述训练数据集中的至少部分训练数据中的每一个，获得所述训练数据的至少一个难度特征，所述难度特征包括：分子复杂度特征或者训练结果特征中至少一种；基于所述至少一个难度特征确定所述训练数据的难度系数。3.根据权利要求2所述的数据处理方法，其特征在于：所述分子复杂度特征包括：原子数、键数、特定种类杂化原子数量、特定种类杂化原子占比、成环原子数、成环原子占比、手性原子占比中至少一种；所述训练结果特征包括：预测值与标签值之间距离、样本不确定性中至少一种。4.根据权利要求3所述的数据处理方法，其特征在于，所述样本不确定性通过如下方式得到：对于当前训练数据，计算该当前训练数据的预测概率值与决策概率阈值之间的差值。5.根据权利要求1至4任一项所述的数据处理方法，其特征在于，还包括：确定难度系数与训练轮数之间的对应关系，以便在针对待训练模型的特定训练轮数，确定与该特定训练轮数对应的难度系数和/或训练数据。6.根据权利要求5所述的数据处理方法，其特征在于，所述确定难度系数与训练轮数之间的对应关系，包括：基于难度系数的累计分布函数确定难度系数与训练轮数之间的对应关系，其中，所述难度系数的累计分布函数的变量包括难度分布函数竞争系数和训练轮数，或者所述变量包括难度分布函数竞争系数以及以下至少一种：当前训练轮数、总训练轮数、难度系数的指数幂中至少一种。7.一种模型训练方法，其特征在于，包括：获得训练数据集，所述训练数据集中至少部分训练数据各自具有难度系数，所述难度系数是基于根据权利要求1至5任一项所述的数据处理方法来确定的；利用所述训练数据集中的至少部分训练数据，按照难度系数从低到高的顺序，分轮对所述待训练模型进行训练。8.根据权利要求7所述的模型训练方法，其特征在于，所述利用所述训练数据集中的至少部分训练数据，按照难度系数从低到高的顺序，分轮对所述待训练模型进行训练，包括：基于难度系数与训练轮数之间的对应关系确定与当前训练轮数对应的难度系数；从所述训练数据集中获取与所述难度系数对应的目标训练数据；基于所述目标训练数据对待训练模型进行训练。9.根据权利要求7所述的模型训练方法，其特征在于，所述利用所述训练数据集中的至少部分训练数据，按照难度系数从低到高的顺序，分轮对所述待训练模型进行训练，包括：
基于难度系数与训练轮数之间的对应关系确定与当前训练轮数对应的难度系数；基于所述难度系数从所述训练数据集中获取与所述难度系数对应的子训练数据集，其中，所述子训练数据集是基于训练数据的难度系数从所述训练数据集中获取的数据集；基于所述子训练数据集中的训练数据对待训练模型进行训练。10.根据权利要求7所述的模型训练方法，其特征在于，所述待训练模型包括预训练模型，所述训练数据存在对应的标签信息。11.根据权利要求7所述的模型训练方法，其特征在于，所述分轮对所述待训练模型进行训练，包括：添加线性分类器或者多层感知器给经调整的多个预训练模型，得到一个或多个待调整的分子预测模型或者分子评价模型；对于每...

【专利技术属性】
技术研发人员：顾耀文，翟珂，张博文，吴桢钦，马松龄，
申请(专利权)人：北京晶泰科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人