数据处理方法、装置和模型训练方法、装置和电子设备制造方法及图纸

技术编号:34399845 阅读:19 留言:0更新日期:2022-08-03 21:38
本申请涉及了一种数据处理方法、装置和模型训练方法、装置和电子设备。该数据处理方法包括:获得训练数据集;确定训练数据集中至少部分训练数据各自的难度系数,以便基于至少部分训练数据各自的难度系数对训练数据集中至少部分数据进行难度分类;其中,训练数据包括分子数据,分子数据的难度系数是基于分子属性和/或模型训练属性来确定的。本申请能够提升预训练模型在目标任务中的精准度。预训练模型在目标任务中的精准度。预训练模型在目标任务中的精准度。

【技术实现步骤摘要】
数据处理方法、装置和模型训练方法、装置和电子设备


[0001]本申请涉及人工智能和计算机仿真
,尤其涉及一种数据处理方法、装置和模型训练方法、装置和电子设备。

技术介绍

[0002]随着计算机技术和人工智能技术的快速发展,计算机仿真技术被应用到越来越多的场景中,如材料设计、药物设计等。
[0003]然而,申请人发现相关技术得到的预训练模型在应用到某一目标任务中时,预测精准度有待提升。

技术实现思路

[0004]为解决或部分解决相关技术中存在的问题,本申请提供一种数据处理方法、装置和模型训练方法、装置和电子设备,能够有效提升预训练模型在特定目标任务中的精准度。
[0005]本申请的第一个方面提供了一种数据处理方法,包括:获得训练数据集;确定训练数据集中至少部分训练数据各自的难度系数,以便基于至少部分训练数据各自的难度系数对训练数据集中至少部分数据进行难度分类;其中,训练数据包括分子数据,分子数据的难度系数是基于分子属性和/或模型训练属性来确定的。
[0006]本申请的第二个方面提供了一种模型训练方法,包括:获得训练数据集,训练数据集中至少部分训练数据各自具有难度系数,难度系数是基于根据上述数据处理方法来确定的;利用训练数据集中的至少部分训练数据,按照难度系数从低到高的顺序,分轮对待训练模型进行训练。
[0007]本申请的第三方面提供了一种分子属性预测方法,包括:获得分子数据;基于所述分子数据,利用如上经训练的所述待训练模型得到的分子预测模型预测得到所述分子数据的分子属性。
[0008]本申请的第四方面提供了一种分子属性评价方法,包括:获得分子数据,分子数据具有标签信息;基于分子数据,利用如上述的经训练的待训练模型得到的分子评价模型进行评估,得到分子数据的分子评价结果。
[0009]本申请的第五方面提供了一种设计方法,包括:根据如上述的方法,获得分子属性和/或分子评价结果;基于分子属性和/或分子评价结果进行药物设计或者材料设计。
[0010]本申请的第六方面提供了一种数据处理装置,包括:训练数据集获得模块,用于获得训练数据集,其中,训练数据包括分子数据;难度系数确定模块,用于确定训练数据集中至少部分训练数据各自的难度系数,以便基于至少部分训练数据各自的难度系数对训练数据集中至少部分数据进行难度分类,其中,分子数据的难度系数是基于分子属性和/或模型训练属性来确定的。
[0011]本申请的第七方面提供了一种模型训练装置,包括:训练数据集获得模块,用于获得训练数据集,训练数据集中至少部分训练数据各自具有难度系数,难度系数是基于根据
上述数据处理装置来获得的;模型训练模块,用于利用训练数据集中的至少部分训练数据,按照难度系数从低到高的顺序,分轮对待训练模型进行训练。
[0012]本申请的第八个方面提供了一种分子属性预测装置,包括:第一分子数据获得模块,用于获得分子数据;分子属性预测模块,用于基于所述分子数据,利用根据上述经训练的待训练模型得到的分子预测模型,预测得到分子数据的分子属性。
[0013]本申请的第九个方面提供了一种分子属性评价装置,包括:第二分子数据获得模块,用于获得分子数据,分子数据具有标签信息;分子属性预测模块,用于基于所述分子数据,利用根据上述经训练的待训练模型得到的分子评价模型进行评估,得到分子数据的分子评价结果。
[0014]本申请的第十方面提供了一种设计装置,上述装置包括:信息获得模块,用于根据上述分子属性预测装置获得分子属性,和/或根据上述分子属性评价装置获得分子评价结果;设计模块,用于基于分子属性和/或分子评价结果进行药物设计或者材料设计。
[0015]本申请的第十一方面提供了一种电子设备,包括:处理器;存储器,其上存储有可执行代码,当上述可执行代码被处理器执行时,使得处理器执行上述方法。
[0016]本申请的第十二方面还提供了一种计算机可读存储介质,其上存储有可执行代码,当可执行代码被电子设备的处理器执行时,使处理器执行上述方法。
[0017]本申请的第十三方面还提供了一种计算机程序产品,包括可执行代码,可执行代码被处理器执行时实现上述方法。
[0018]本申请提供的数据处理方法、装置和模型训练方法、装置和电子设备,通过定义训练数据学习的难度系数,使得能够基于难度系数对训练数据进行难度分类。这样便于用户可以从所需的难度分类中选取所需的训练数据,进行诸如模型训练等应用。
[0019]此外,由于得到不同训练数据的难度系数,使得在进行模型训练的过程,可以先利用难度系数低的训练数据进行模型训练,并逐渐进阶到难度系数高的训练数据,以便模型能更好地学习知识,从而由易到难完成整个数据集的训练。上述分阶段按照难度从易到难的方式训练模型,能够有效提升模型训练效果,提升模型预测结果的精准度。
[0020]此外,使用诸如竞争函数构造一个单调递增曲线,该单调递增曲线是训练轮数为自变量、训练数据的难度系数为因变量的曲线,通过该曲线对训练数据集进行划分,便于实现在不同时期使用具有对应难度系数的训练数据进行训练。
[0021]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
[0022]通过结合附图对本申请示例性实施方式进行更详细地描述,本申请的上述以及其它目的、特征和优势将变得更加明显,其中,在本申请示例性实施方式中,相同的参考标号通常代表相同部件。
[0023]图1示意性示出了根据本申请实施例的可以应用数据处理方法、装置和模型训练方法、装置和电子设备的一种示例性系统架构;
[0024]图2示意性示出了根据本申请实施例的数据处理方法的流程图;
[0025]图3示意性示出了根据本申请实施例的预测值与标签值之间距离的示意图;
[0026]图4示意性示出了根据本申请实施例的分子复杂度与训练轮数之间对应关系的示意图;
[0027]图5示意性示出了根据本申请实施例的训练结果与训练轮数之间对应关系的示意图;
[0028]图6示意性示出了根据本申请实施例的模型训练方法的流程图;
[0029]图7示意性示出了根据本申请实施例的一种获得目标训练数据的过程示意图;
[0030]图8示意性示出了根据本申请实施例的另一种获得目标训练数据的过程示意图;
[0031]图9示意性示出了根据本申请实施例的模型训练系统的架构图;
[0032]图10示意性示出了根据本申请实施例的模型训练过程的示意图;
[0033]图11示意性示出了根据本申请实施例的分子属性预测方法的流程图;
[0034]图12示意性示出了根据本申请实施例的分子属性评价方法的流程图;
[0035]图13示意性示出了根据本申请实施例的设计方法的流程图;
[0036]图14示意性示出了根据本申请实施例的数据处理装置的方框图;
[0037]图15示意性示出了根据本申请实施例的训练装置本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获得训练数据集;确定所述训练数据集中至少部分训练数据各自的难度系数,以便基于所述至少部分训练数据各自的难度系数对所述训练数据集中至少部分数据进行难度分类;其中,所述训练数据包括分子数据,所述分子数据的难度系数是基于分子属性和/或模型训练属性来确定的。2.根据权利要求1所述的数据处理方法,其特征在于,所述确定所述训练数据集中至少部分训练数据各自的难度系数,包括:对于所述训练数据集中的至少部分训练数据中的每一个,获得所述训练数据的至少一个难度特征,所述难度特征包括:分子复杂度特征或者训练结果特征中至少一种;基于所述至少一个难度特征确定所述训练数据的难度系数。3.根据权利要求2所述的数据处理方法,其特征在于:所述分子复杂度特征包括:原子数、键数、特定种类杂化原子数量、特定种类杂化原子占比、成环原子数、成环原子占比、手性原子占比中至少一种;所述训练结果特征包括:预测值与标签值之间距离、样本不确定性中至少一种。4.根据权利要求3所述的数据处理方法,其特征在于,所述样本不确定性通过如下方式得到:对于当前训练数据,计算该当前训练数据的预测概率值与决策概率阈值之间的差值。5.根据权利要求1至4任一项所述的数据处理方法,其特征在于,还包括:确定难度系数与训练轮数之间的对应关系,以便在针对待训练模型的特定训练轮数,确定与该特定训练轮数对应的难度系数和/或训练数据。6.根据权利要求5所述的数据处理方法,其特征在于,所述确定难度系数与训练轮数之间的对应关系,包括:基于难度系数的累计分布函数确定难度系数与训练轮数之间的对应关系,其中,所述难度系数的累计分布函数的变量包括难度分布函数竞争系数和训练轮数,或者所述变量包括难度分布函数竞争系数以及以下至少一种:当前训练轮数、总训练轮数、难度系数的指数幂中至少一种。7.一种模型训练方法,其特征在于,包括:获得训练数据集,所述训练数据集中至少部分训练数据各自具有难度系数,所述难度系数是基于根据权利要求1至5任一项所述的数据处理方法来确定的;利用所述训练数据集中的至少部分训练数据,按照难度系数从低到高的顺序,分轮对所述待训练模型进行训练。8.根据权利要求7所述的模型训练方法,其特征在于,所述利用所述训练数据集中的至少部分训练数据,按照难度系数从低到高的顺序,分轮对所述待训练模型进行训练,包括:基于难度系数与训练轮数之间的对应关系确定与当前训练轮数对应的难度系数;从所述训练数据集中获取与所述难度系数对应的目标训练数据;基于所述目标训练数据对待训练模型进行训练。9.根据权利要求7所述的模型训练方法,其特征在于,所述利用所述训练数据集中的至少部分训练数据,按照难度系数从低到高的顺序,分轮对所述待训练模型进行训练,包括:
基于难度系数与训练轮数之间的对应关系确定与当前训练轮数对应的难度系数;基于所述难度系数从所述训练数据集中获取与所述难度系数对应的子训练数据集,其中,所述子训练数据集是基于训练数据的难度系数从所述训练数据集中获取的数据集;基于所述子训练数据集中的训练数据对待训练模型进行训练。10.根据权利要求7所述的模型训练方法,其特征在于,所述待训练模型包括预训练模型,所述训练数据存在对应的标签信息。11.根据权利要求7所述的模型训练方法,其特征在于,所述分轮对所述待训练模型进行训练,包括:添加线性分类器或者多层感知器给经调整的多个预训练模型,得到一个或多个待调整的分子预测模型或者分子评价模型;对于每...

【专利技术属性】
技术研发人员:顾耀文翟珂张博文吴桢钦马松龄
申请(专利权)人:北京晶泰科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1