用于优化的保形推断制造技术

技术编号:36491823 阅读:25 留言:0更新日期:2023-02-01 15:06
准确的函数估计和良好校准的不确定性对于贝叶斯优化(BO)很重要。BO的大多数理论保证都是针对使用从高斯过程(GP)先验中提取的替代物对目标函数进行建模的方法建立的。GP先验不适合离散的高维组合空间,例如生物聚合物序列。使用神经网络(NN)作为替代函数可以获得更准确的函数估计。使用NN可以允许任意复杂的模型,消除GP先验假设,并且使得能够进行简单的预训练,这在低数据BO方案中是有益的。然而,对NN中的不确定性进行完全贝叶斯处理仍然是难以进行的,并且现有的近似方法(如蒙特卡洛dropout和变分推断)可能会高度地误校准不确定性估计。保形推断优化(CI

【技术实现步骤摘要】
【国外来华专利技术】用于优化的保形推断
[0001]相关引用
[0002]本申请要求2020年1月30日提交的美国临时申请第62/967,941号的权益。上述(多个)申请的全部传授内容通过援引并入本文。

技术介绍

[0003]机器学习常常采用统计模型,计算机实施的方法可以利用这些模型来执行给定的任务。通常,机器学习方法所采用的统计模型会检测模式,并使用所述模式来预测未来的行为。机器学习方法所采用的统计模型和神经网络通常用真实世界的数据进行训练,并且机器学习方法利用所述真实世界的数据来预测未来的行为。

技术实现思路

[0004]因此,需要改进的机器学习模型,从而使用更少的训练数据来提供更好的数据预测。准确的函数估计和良好校准的不确定性对于贝叶斯优化(BO)很重要。BO的大多数理论保证都是针对使用从高斯过程(GP)先验中提取的替代物对目标函数进行建模的方法建立的。GP先验不适合离散的高维组合空间,例如生物聚合物序列。使用神经网络(NN)作为替代函数可以获得更准确的函数估计。使用NN可以允许任意复杂的模型,消除GP先验假设,并且使得能够进行简单的预训练,这在低数据BO方案中是有益的。然而,对NN中的不确定性进行完全贝叶斯处理仍然是难以进行的,并且最近的结果表明,近似推断可能会产生不充分地反映真实后验的估计。保形推断优化(CI

OPT)用使用保形推断计算的置信区间来替代某些BO采集函数中的后验不确定性。尽管当前方法由于其难进行性而没有将保形推断与BO组合起来,但申请人披露了具有适于优化的性质的保形评分函数,该函数对合成优化任务、标准BO数据集和真实世界的蛋白质数据集是有效的。
[0005]在实施例中,一种用于优化生物聚合物序列的设计的计算机实施的方法可以包括使用所观察的生物聚合物序列和与每个所观察的生物聚合物序列相对应的被标记生物聚合物序列来训练机器学习模型。被标记序列是与衡量某个感兴趣性质的实数相关联的序列。该方法可以进一步包括基于机器学习模型确定要观察具有被标记生物聚合物序列的最高预测值的候选生物聚合物序列。候选生物聚合物序列可以包括已知序列(例如,先前遇到的、先前观察到的或天然的序列)或新设计的序列。该方法可以进一步包括,针对每个候选生物聚合物序列,确定表示该候选生物聚合物序列具有这些被标记生物聚合物序列的预测值的似然的保形推断区间。该方法可以进一步包括选择具有该保形推断区间和这些被标记生物聚合物序列的预测值的优化线性组合的至少一个候选生物聚合物序列。
[0006]在实施例中,被标记序列的值是如上所述用作其标签的数字。因此,序列的预测值就是该序列的预测标签。机器学习领域的普通技术人员可以理解标签的这种定义。序列或数据点是机器学习输入(x),并且预测/测量/优化是标签(y)。
[0007]在实施例中,该保形推断区间包括中心值和区间范围。该中心值可以是平均值。
[0008]在实施例中,该机器学习模型是使用这些所观察的生物聚合物序列及其标签微调
的神经网络。微调的神经网络是使用这些权重作为较小数据集的初始权重在大型数据集上预训练的神经网络。微调可以加快训练并克服小数据集大小的问题。
[0009]在实施例中,确定该保形推断区间是基于第二组所观察的生物聚合物序列。第二组序列是用于调整保形分数的一组序列。
[0010]在实施例中,确定该保形推断区间可以进一步包括基于该机器学习模型的每个输出为该第二组所观察的生物聚合物序列和与该第二组所观察的生物聚合物序列中的每一个相对应的对应被标记生物聚合物序列来计算残差区间。确定该保形推断区间可以进一步包括针对该机器学习模型的每个输出,计算到度量空间内的这些所观察的生物聚合物序列的最近邻的平均距离。确定该保形推断区间可以进一步包括基于该残差与该平均距离和常数之和的比率计算保形分数。如下所述,度量空间是一组可能的序列。度量的示例可以是莱文斯坦(Levenshtein)距离。在实施例中,常数可以在每次迭代中改变。
[0011]在实施例中,选择该至少一个候选生物聚合物序列包括计算度量空间中到该度量空间中的最近邻的平均距离;基于该至少一个候选生物聚合物序列和该平均距离生成置信区间;并且基于该置信区间选择候选生物聚合物序列。
[0012]在实施例中,该保形区间可以为至少50%且至多99%。该生物聚合物序列可以包括氨基酸序列、核酸序列和碳水化合物序列中的至少一种。该核酸序列可以是脱氧核糖核酸(DNA)序列或核糖核酸(RNA)序列。氨基酸序列可以是任何序列,包括所有蛋白质,例如酶、生长因子、细胞因子、激素、信号蛋白、结构蛋白、动力学蛋白、抗体(包括基于免疫球蛋白的分子和替代分子支架)、以及前述的组合,包括融合蛋白和缀合物。
[0013]在实施例中,一种用于优化生物聚合物序列的设计的计算机计算机实施的方法以及对应的系统可以包括对模型进行训练以从多个所观察的序列中近似初始样本的被标记生物聚合物序列。该方法可以进一步包括,对于该多个所观察的序列的具有由训练后的模型生成的被标记生物聚合物序列和针对每个观察的序列的保形区间的特定批,从该多个所观察的序列中选择优化了由该训练后的模型生成的这些被标记生物聚合物序列和该保形区间的组合的至少一个序列。该方法可以进一步包括为剩余序列重新计算保形区间。
[0014]在实施例中,该方法可以进一步包括重复选择该至少一个序列并为多个批中的每一个重新计算该保形区间。在实施例中,该方法可以进一步包括识别要并行运行的最佳批实验数量。在实施例中,识别可以基于对wet

lab资源的优化。
[0015]在实施例中,一种计算机实施的方法可以包括使用度量空间内的数据点和与每个所观察的数据点相对应的函数值来训练机器学习模型。(多个)函数值是衡量这些数据点的某个感兴趣性质的(多个)实数。该方法可以进一步包括基于机器学习模型确定要观察具有最高预测函数值的候选数据点。候选数据点可以包括已知数据点(例如,先前遇到的、先前观察到的或天然的数据点)或新设计的数据点。该方法可以进一步包括,针对每个候选数据点,确定表示该候选数据点具有这些被标记数据点的预测函数值的似然的保形推断区间。该方法可以进一步包括选择具有该保形推断区间和该数据点的预测函数值的优化线性组合的至少一个候选数据点。本领域普通技术人员可以认识到数据点可以包括图像、视频、音频、其他媒体以及可以由机器学习模型解释的其他数据。
[0016]在实施例中,一种计算机计算机实施的方法以及对应的系统可以包括对模型进行训练以从多个所观察的数据点中近似初始样本的函数值数据点。该方法可以进一步包括,
对于该多个所观察的数据点的具有由训练后的模型生成的函数值和针对每个所观察的数据点的保形区间的特定批,从该多个所观察的数据点中选择优化了由该训练后的模型生成的这些被标记数据点和该保形区间的组合的至少一个序列。该方法可以进一步包括为剩余数据点重新计算该保形区间。
[0017]在实施例中,一种用于基于数据分布来优化设计的计算机实施的方法包括使用多个所观察的数据和与每个所观察本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于优化生物聚合物序列的设计的计算机实施的方法,该方法包括:使用多个所观察的生物聚合物序列和与每个所观察的生物聚合物序列相对应的被标记生物聚合物序列来训练机器学习模型;基于该机器学习模型确定要观察具有这些被标记生物聚合物序列的最高预测值的多个候选生物聚合物序列;针对每个候选生物聚合物序列,确定表示该候选生物聚合物序列具有这些被标记生物聚合物序列的预测值的似然的保形推断区间;选择具有该保形推断区间和这些被标记生物聚合物序列的预测值的优化线性组合的至少一个候选生物聚合物序列。2.如权利要求1所述的计算机实施的方法,其中,该保形推断区间包括中心值和区间范围。3.如权利要求2所述的计算机实施的方法,其中,该中心值是平均值。4.如权利要求1所述的计算机实施的方法,其中,该机器学习模型是使用这些所观察的生物聚合物序列及其标签微调的神经网络。5.如权利要求4所述的计算机实施的方法,其中,确定该保形推断区间是基于第二组所观察的生物聚合物序列。6.如权利要求5所述的计算机实施的方法,其中,确定该保形推断区间进一步包括:基于该机器学习模型的每个输出为该第二组所观察的生物聚合物序列和与该第二组所观察的生物聚合物序列中的每一个相对应的对应被标记生物聚合物序列来计算残差区间;针对该机器学习模型的每个输出,计算到度量空间内的这些所观察的生物聚合物序列的多个最近邻的平均距离;以及基于该残差与该平均距离和常数之和的比率计算保形分数。7.如权利要求5所述的计算机实施的方法,其中,选择该至少一个候选生物聚合物序列包括:计算度量空间中到该度量空间中的多个最近邻的平均距离;基于该至少一个候选生物聚合物序列和该平均距离生成置信区间;以及基于该置信区间选择至少一个候选生物聚合物序列。8.如权利要求1所述的方法,其中,该保形区间为至少50%且至多99%。9.如权利要求1所述的方法,其中,该生物聚合物序列包括氨基酸序列、核酸序列和碳水化合物序列中的至少一种。10.如权利要求9所述的方法,其中,该核酸序列是脱氧核糖核酸(DNA)序列或核糖核酸(RNA)序列。11.如权利要求1所述的方法,其中,该预测值为这些生物聚合物序列的函数值,其中,该函数为结合亲和力、结合特异性、催化活性、酶活性、荧光、溶解度、热稳定性、构象、免疫原性、以及生物聚合物序列的任何功能性质中的一种或多种。12.如权利要求1所述的方法,其中,选择与不考虑所确定的保形推断区间的贝叶斯优化相比具有改善性能的至少一个候选生物聚合物序列。13.一种用于优化生物聚合物序列的设计的计算机实施的方法,包括:
对模型进行训练以从多个所观察的序列中近似初始样本的被标记生物聚合物序列;对于该多个所观察的序列的具有由训练后的模型生成的被标记生物聚合物序列和针对每个观察的序列的保形区间的特定批,从该多个所观察的序列中选择优化了由该训练后的模型生成的这些被标记生物聚合物序列和该保形区间的组合的至少一个序列;以及为剩余序列重新计算该保形区间。14.如权利要求13所述的计算机实施的方法,进一步包括重复选择该至少一个序列并为多个批中的每一个重新计算该保形区间。15.如权利要求13所述的方法,进一步包括识别要并行运行的最佳批实验数量。16.如权利要求15所述的方法,其中,识别是...

【专利技术属性】
技术研发人员:M
申请(专利权)人:旗舰开拓创新六世公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1