System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及产率预测领域,尤其涉及一种产率预测方法、装置及电子设备。
技术介绍
1、碳碳、碳杂键偶联以及手性的构建在药物化学中非常重要,常规方法需要用到贵金属催化并加热,具有较大能量损耗,利用光催化可以更绿色地合成药物中间体。相对于研究反应机理或用实验设计(doe)分析影响因素等传统方法,利用ai并结合计算化学技术不仅可以对反应进行系统性研究、了解影响反应效果(转化率及立体选择性)的因素,还能够利用模型加快解决实际应用中的问题,推进光化学反应的应用。
2、然而,现有的技术方案构建机器学习模型往往需要海量真实数据进行模型训练,因为海量数据中往往正确的数据占比更重,模型可以从海量数据中学习知识并忽略其中的错误数据。在当前反应类型小数据集的背景下,实验室累计的少量数据很容易会由于手动录入错误或实验误差导致错误产生,模型学习到错误的知识,会在预测时产生偏差。
3、机器学习模型常规数据清洗方法往往是删除缺失值最多的列,或者将预处理后的数据集转换为张量格式等简单的常规操作,或者将海量数据直接丢给模型进行学习,因为在数据量足够的情况下优质数据占比更大,模型会自动忽略掉错误数据的影响,而目前并没有一种在化学领域针对上百小数据集的数据清洗方法,并没有一种产率预测方法、装置及电子设备。
技术实现思路
1、本专利技术提供了一种产率预测方法、装置及电子设备,能够针对上百小数据集,在模型训练之前的样本数据集构建阶段提前剔除掉潜在异常数据,以提升后续模型表现,从数据源头上保障数据质量
2、第一方面,本专利技术提供了一种产率预测方法,包括:
3、对于光催化不对称反应中的每一原始反应样本数据,利用预设开源工具包rdkit转换所述原始反应样本数据为矢量指纹数据,根据所有矢量指纹数据以及每一矢量指纹数据对应的样本产率构建样本数据集;
4、对所述样本数据集进行多次随机采样,得到多个训练测试集,其中,所述训练测试集包括训练集以及测试集,每一训练测试集中的训练集以及测试集均不相同;
5、对于任一训练测试集,根据所述测试集中每一矢量指纹数据的产率预测结果确定所述矢量指纹数据的预测能力,遍历所有训练测试集,在任一矢量指纹数据的预测能力为不合格的次数超过预设次数的情况下,确定所述矢量指纹数据对应的原始反应样本数据为待剔除数据,从所有原始反应样本数据中剔除所有待剔除数据,得到剔除后反应样本数据;
6、输入目标反应数据至预设产率预测模型,得到所述预设产率预测模型输出的目标产率,所述预设产率预测模型是根据所有剔除后反应样本数据以及每一剔除后反应样本数据对应的样本产率训练后确定的。
7、根据本专利技术提供的产率预测方法,所述原始反应样本数据为简化分子线性输入规范数据,在利用预设开源工具包rdkit转换所述原始反应样本数据为矢量指纹数据之前,所述方法还包括:
8、从预设反应数据库中获取所有原始反应样本数据以及每一原始反应样本数据对应的样本产率。
9、根据本专利技术提供的产率预测方法,所述利用预设开源工具包rdkit转换所述原始反应样本数据为矢量指纹数据,根据所有矢量指纹数据以及每一矢量指纹数据对应的样本产率构建样本数据集,包括:
10、利用预设开源工具包rdkit,将(x,2)维度的所述原始反应样本数据转换为(x,2048)维度的矢量指纹数据,其中,x为所述预设反应数据库中所述原始反应样本数据的总数量;
11、根据(x,2048)维度的矢量指纹数据以及每一矢量指纹数据对应的样本产率,构建(x,2049)维度的样本数据集。
12、根据本专利技术提供的产率预测方法,所述对于任一训练测试集,根据所述测试集中每一矢量指纹数据的产率预测结果确定所述矢量指纹数据的预测能力,包括:
13、对于任一训练测试集,根据所述训练测试集中的训练集训练原始产率预测模型,分别输入所述训练测试集对应所述测试集中的每一矢量指纹数据至所述原始产率预测模型,得到所述原始产率预测模型输出的,每一矢量指纹数据对应的初始预测产率;
14、根据所述矢量指纹数据对应的样本产率以及所述初始预测产率,确定产率偏差值;
15、根据所述产率偏差值以及预设偏差值,确定所述矢量指纹数据的预测能力;
16、所述原始产率预测模型为lasso回归模型。
17、根据本专利技术提供的产率预测方法,所述根据所述产率偏差值以及预设偏差值,确定所述矢量指纹数据的预测能力,包括:
18、在所述产率偏差值大于预设偏差值的情况下,确定所述矢量指纹数据的预测能力为不合格;
19、在所述产率偏差值小于或等于所述预设偏差值的情况下,确定所述矢量指纹数据的预测能力为合格。
20、根据本专利技术提供的产率预测方法,在从所有原始反应样本数据中剔除所有待剔除数据,得到剔除后反应样本数据之前,所述方法还包括:
21、在确定所有待剔除数据的数量大于预设数量的情况下,提高所述预设偏差值,以重新确定所有待剔除数据;
22、所述预设数量是根据所有原始反应样本数据的总数量以及第一预设系数确定的。
23、根据本专利技术提供的产率预测方法,所述遍历所有训练测试集,在任一矢量指纹数据的预测能力为不合格的次数超过预设次数的情况下,确定所述矢量指纹数据对应的原始反应样本数据为待剔除数据,包括:
24、遍历所有训练测试集,得到每一训练测试集对应测试集中每一矢量指纹数据的预测能力;
25、对于每一训练测试集对应测试集中的任一矢量指纹数据,统计所述矢量指纹数据的预测能力为不合格的次数,根据所述矢量指纹数据所参与预测的总次数以及第二预设系数确定所述预设次数;
26、在所述矢量指纹数据的预测能力为不合格的次数超过所述预设次数的情况下,确定所述矢量指纹数据对应的原始反应样本数据为待剔除数据,遍历所有训练测试集对应测试集中的所有矢量指纹数据,得到所有待剔除数据。
27、根据本专利技术提供的产率预测方法,所述对所述样本数据集进行多次随机采样,得到多个训练测试集,包括:
28、重复执行如下步骤:
29、利用随机数生成器,生产一个长度为y的随机排列序列,根据所述随机排列序列处理所述样本数据集,得到训练测试集,直至完成多次随机采样,得到多个训练测试集;
30、其中,y为所述样本数据集中的数据总量,每一训练测试集中前80%的数据为训练集,后20%的数据为测试集。
31、第二方面,提供了一种产率预测装置,包括:
32、构建单元,用于对于光催化不对称反应中的每一原始反应样本数据,利用预设开源工具包rdkit转换所述原始反应样本数据为矢量指纹数据,根据所有矢量指纹数据以及每一矢量指纹数据对应的样本产率构建样本数据集;
33、采样单元,用于对所述样本数据集进行多次随机采样,得到多个训练测试集,其中,所述训练测试集包括训练集以本文档来自技高网...
【技术保护点】
1.一种产率预测方法,其特征在于,包括:
2.根据权利要求1所述的产率预测方法,其特征在于,在利用预设开源工具包Rdkit转换所述原始反应样本数据为矢量指纹数据之前,所述方法还包括:
3.根据权利要求2所述的产率预测方法,其特征在于,所述利用预设开源工具包Rdkit转换所述原始反应样本数据为矢量指纹数据,根据所有矢量指纹数据以及每一矢量指纹数据对应的样本产率构建样本数据集,包括:
4.根据权利要求1所述的产率预测方法,其特征在于,所述对于任一训练测试集,根据所述测试集中每一矢量指纹数据的产率预测结果确定所述矢量指纹数据的预测能力,包括:
5.根据权利要求4所述的产率预测方法,其特征在于,所述根据所述产率偏差值以及预设偏差值,确定所述矢量指纹数据的预测能力,包括:
6.根据权利要求4或5所述的产率预测方法,其特征在于,在从所有原始反应样本数据中剔除所有待剔除数据,得到剔除后反应样本数据之前,所述方法还包括:
7.根据权利要求1所述的产率预测方法,其特征在于,所述遍历所有训练测试集,在任一矢量指纹数据的预测能力为
8.根据权利要求1所述的产率预测方法,其特征在于,所述对所述样本数据集进行多次随机采样,得到多个训练测试集,包括:
9.一种产率预测装置,其特征在于,包括:
10.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任一项所述产率预测方法。
...【技术特征摘要】
1.一种产率预测方法,其特征在于,包括:
2.根据权利要求1所述的产率预测方法,其特征在于,在利用预设开源工具包rdkit转换所述原始反应样本数据为矢量指纹数据之前,所述方法还包括:
3.根据权利要求2所述的产率预测方法,其特征在于,所述利用预设开源工具包rdkit转换所述原始反应样本数据为矢量指纹数据,根据所有矢量指纹数据以及每一矢量指纹数据对应的样本产率构建样本数据集,包括:
4.根据权利要求1所述的产率预测方法,其特征在于,所述对于任一训练测试集,根据所述测试集中每一矢量指纹数据的产率预测结果确定所述矢量指纹数据的预测能力,包括:
5.根据权利要求4所述的产率预测方法,其特征在于,所述根据所述产率偏差值以及预设偏差值,确定所述矢量指纹数据的预测能力,包括:
【专利技术属性】
技术研发人员:王正权,沈国文,孙丽霞,杨弘宾,夏宁,
申请(专利权)人:武汉智化科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。