用于优化的保形推断制造技术

技术编号：36491823 阅读：25 留言：0更新日期：2023-02-01 15:06

准确的函数估计和良好校准的不确定性对于贝叶斯优化(BO)很重要。BO的大多数理论保证都是针对使用从高斯过程(GP)先验中提取的替代物对目标函数进行建模的方法建立的。GP先验不适合离散的高维组合空间，例如生物聚合物序列。使用神经网络(NN)作为替代函数可以获得更准确的函数估计。使用NN可以允许任意复杂的模型，消除GP先验假设，并且使得能够进行简单的预训练，这在低数据BO方案中是有益的。然而，对NN中的不确定性进行完全贝叶斯处理仍然是难以进行的，并且现有的近似方法(如蒙特卡洛dropout和变分推断)可能会高度地误校准不确定性估计。保形推断优化(CI

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于优化的保形推断
[0001]相关引用
[0002]本申请要求2020年1月30日提交的美国临时申请第62/967,941号的权益。上述(多个)申请的全部传授内容通过援引并入本文。

技术介绍

[0003]机器学习常常采用统计模型，计算机实施的方法可以利用这些模型来执行给定的任务。通常，机器学习方法所采用的统计模型会检测模式，并使用所述模式来预测未来的行为。机器学习方法所采用的统计模型和神经网络通常用真实世界的数据进行训练，并且机器学习方法利用所述真实世界的数据来预测未来的行为。

技术实现思路

[0004]因此，需要改进的机器学习模型，从而使用更少的训练数据来提供更好的数据预测。准确的函数估计和良好校准的不确定性对于贝叶斯优化(BO)很重要。BO的大多数理论保证都是针对使用从高斯过程(GP)先验中提取的替代物对目标函数进行建模的方法建立的。GP先验不适合离散的高维组合空间，例如生物聚合物序列。使用神经网络(NN)作为替代函数可以获得更准确的函数估计。使用NN可以允许任意复杂的模型，消除GP先验假设，并且使得能够进行简单的预训练，这在低数据BO方案中是有益的。然而，对NN中的不确定性进行完全贝叶斯处理仍然是难以进行的，并且最近的结果表明，近似推断可能会产生不充分地反映真实后验的估计。保形推断优化(CI
‑
OPT)用使用保形推断计算的置信区间来替代某些BO采集函数中的后验不确定性。尽管当前方法由于其难进行性而没有将保形推断与BO组合起来，但申请人披露了具有适于优化的性质的保形评分函数，该函数对合成...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于优化生物聚合物序列的设计的计算机实施的方法，该方法包括：使用多个所观察的生物聚合物序列和与每个所观察的生物聚合物序列相对应的被标记生物聚合物序列来训练机器学习模型；基于该机器学习模型确定要观察具有这些被标记生物聚合物序列的最高预测值的多个候选生物聚合物序列；针对每个候选生物聚合物序列，确定表示该候选生物聚合物序列具有这些被标记生物聚合物序列的预测值的似然的保形推断区间；选择具有该保形推断区间和这些被标记生物聚合物序列的预测值的优化线性组合的至少一个候选生物聚合物序列。2.如权利要求1所述的计算机实施的方法，其中，该保形推断区间包括中心值和区间范围。3.如权利要求2所述的计算机实施的方法，其中，该中心值是平均值。4.如权利要求1所述的计算机实施的方法，其中，该机器学习模型是使用这些所观察的生物聚合物序列及其标签微调的神经网络。5.如权利要求4所述的计算机实施的方法，其中，确定该保形推断区间是基于第二组所观察的生物聚合物序列。6.如权利要求5所述的计算机实施的方法，其中，确定该保形推断区间进一步包括：基于该机器学习模型的每个输出为该第二组所观察的生物聚合物序列和与该第二组所观察的生物聚合物序列中的每一个相对应的对应被标记生物聚合物序列来计算残差区间；针对该机器学习模型的每个输出，计算到度量空间内的这些所观察的生物聚合物序列的多个最近邻的平均距离；以及基于该残差与该平均距离和常数之和的比率计算保形分数。7.如权利要求5所述的计算机实施的方法，其中，选择该至少一个候选生物聚合物序列包括：计算度量空间中到该度量空间中的多个最近邻的平均距离；基于该至少一个候选生物聚合物序列和该平均距离生成置信区间；以及基于该置信区间选择至少一个候选生物聚合物序列。8.如权利要求1所述的方法，其中，该保形区间为至少50％且至多99％。9.如权利要求1所述的方法，其中，该生物聚合物序列包括氨基酸序列、核酸序列和碳水化合物序列中的至少一种。10.如权利要求9所述的方法，其中，该核酸序列是脱氧核糖核酸(DNA)序列或核糖核酸(RNA)序列。11.如权利要求1所述的方法，其中，该预测值为这些生物聚合物序列的函数值，其中，该函数为结合亲和力、结合特异性、催化活性、酶活性、荧光、溶解度、热稳定性、构象、免疫原性、以及生物聚合物序列的任何功能性质中的一种或多种。12.如权利要求1所述的方法，其中，选择与不考虑所确定的保形推断区间的贝叶斯优化相比具有改善性能的至少一个候选生物聚合物序列。13.一种用于优化生物聚合物序列的设计的计算机实施的方法，包括：
对模型进行训练以从多个所观察的序列中近似初始样本的被标记生物聚合物序列；对于该多个所观察的序列的具有由训练后的模型生成的被标记生物聚合物序列和针对每个观察的序列的保形区间的特定批，从该多个所观察的序列中选择优化了由该训练后的模型生成的这些被标记生物聚合物序列和该保形区间的组合的至少一个序列；以及为剩余序列重新计算该保形区间。14.如权利要求13所述的计算机实施的方法，进一步包括重复选择该至少一个序列并为多个批中的每一个重新计算该保形区间。15.如权利要求13所述的方法，进一步包括识别要并行运行的最佳批实验数量。16.如权利要求15所述的方法，其中，识别是...

【专利技术属性】
技术研发人员：M，
申请(专利权)人：旗舰开拓创新六世公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人