System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种分子优化方法、装置、设备、介质及产品制造方法及图纸_技高网
当前位置: 首页 > 专利查询>吉林大学专利>正文

一种分子优化方法、装置、设备、介质及产品制造方法及图纸

技术编号:44502695 阅读:0 留言:0更新日期:2025-03-07 13:02
本申请公开了一种分子优化方法、装置、设备、介质及产品,涉及分子设计领域,该方法包括:根据第一训练集,以第一损失函数最小为目标,采用对比学习对条件transformer模型进行训练,得到生成模型;第一损失函数包括对比损失函数、KL损失函数和最大似然估计函数;根据生成模型得到优化分子,并基于知识蒸馏方法根据优化分子对RNN模型进行训练得到蒸馏模型;根据蒸馏模型采用强化学习方法对智能体模型进行训练得到分子优化模型,所述分子优化模型用于对待优化分子进行优化;所述强化学习方法中的奖励函数包括结合亲和力,本申请可解决曝光偏差的问题,使得最终生成的优化分子符合要求。

【技术实现步骤摘要】

本申请涉及分子设计领域,特别是涉及一种分子优化方法、装置、设备、介质及产品


技术介绍

1、药物发现往往要耗费巨量资源和时间。因此使用计算机技术辅助发现和设计药物分子具有重要的实用价值。而分子优化是药物设计(分子生成)过程中的一个关键步骤。“分子优化”的目的就是通过化学修饰分子从而改善候选药物的所需特性,使药物特性最大化,同时保持与输入分子的相似性。然而目前的分子优化方法普遍存在曝光偏差问题,导致最终生成的优化分子质量不佳。


技术实现思路

1、本申请的目的是提供一种分子优化方法、装置、设备、介质及产品,可解决曝光偏差的问题,使得最终生成的优化分子质量更好。

2、为实现上述目的,本申请提供了如下方案:

3、第一方面,本申请提供了一种分子优化方法,包括:

4、获取第一训练集,所述第一训练集包括多个样本分子;第一训练集中各样本分子对应的蛋白质配比在第一预设范围内,结合亲和力在第二预设范围内;

5、根据所述第一训练集,以第一损失函数最小为目标,采用对比学习对条件transformer模型进行训练,得到生成模型;第一损失函数包括对比损失函数、kl损失函数和最大似然估计函数;

6、根据生成模型得到优化分子,并基于知识蒸馏方法根据优化分子对rnn模型进行训练得到蒸馏模型;

7、根据蒸馏模型采用强化学习方法对智能体模型进行训练得到分子优化模型,所述分子优化模型用于对待优化分子进行优化;所述强化学习方法中的奖励函数包括结合亲和力

8、可选地,根据所述第一训练集,以第一损失函数最小为目标,采用对比学习对条件transformer模型进行训练,得到生成模型,具体包括:

9、将所述第一训练集中各样本分子分别输入条件transformer模型得到各样本分子对应的预测概率分布;

10、将所述第一训练集中各样本分子分别输入条件transformer模型中的编码器,得到各样本分子对应的隐藏状态;

11、对于所述第一训练集中任意一个样本分子,根据最大似然估计函数对所述样本分子对应的预测概率分布进行负扰动得到所述样本分子对应的负分子的概率分布;

12、根据正对比损失函数对所述样本分子对应的预测概率分布进行正扰动得到所述样本分子对应的中间正分子的概率分布;

13、根据kl损失函数对所述样本分子对应的中间正分子的概率分布进行正扰动得到所述样本分子对应的正分子的概率分布;

14、根据各样本分子对应的预测概率分布、各样本分子对应的隐藏状态、各样本分子对应的中间正分子的概率分布、各样本分子对应的负分子的概率分布和各样本分子对应的正分子的概率分布计算第一损失函数值;

15、根据所述第一损失函数值对条件transformer模型进行训练,得到生成模型。

16、可选地,根据最大似然估计函数对所述样本分子对应的预测概率分布进行负扰动得到所述样本分子对应的负分子的概率分布具体为:

17、根据公式得到所述样本分子对应的负分子的概率分布,其中,表示第i个样本分子对应的负分子的概率分布,si表示第i个样本分子对应的预测概率分布,λ表示负权重,g表示对最大似然估计函数进行反向传播si的梯度操作,||||2表示l2范数。

18、可选地,根据正对比损失函数对所述样本分子对应的预测概率分布进行正扰动得到所述样本分子对应的中间正分子的概率分布,具体为:

19、根据公式得到所述样本分子对应的中间正分子的概率分布,其中,表示第i个样本分子对应的中间正分子的概率分布,si表示第i个样本分子对应的预测概率分布,μ表示正权重,f+表示对正对比损失函数进行反向传播si的梯度操作,||||2表示l2范数。

20、可选地,根据kl损失函数对所述样本分子对应的中间正分子的概率分布进行正扰动得到所述样本分子对应的正分子的概率分布,具体为:

21、根据公式得到所述样本分子对应的正分子的概率分布,其中,表示第i个样本分子对应的正分子的概率分布,表示第i个样本分子对应的中间正分子的概率分布,μ表示正权重,f++表示对kl损失函数进行反向传播si的梯度操作,||||2表示l2范数。

22、可选地,所述第一损失函数为:

23、l=maxθlmle(θ)-lkl(θ)+lcont-(θ)+lcont+(θ),其中,l表示第一损失函数,maxθlmle(θ)表示对lmle(θ)取最大值,lmle(θ)表示最大似然估计函数,lkl(θ)表示kl损失函数,lcont-(θ)表示负对比损失函数,lcont+(θ)表示与正分子的概率分布的对比损失函数,θ表示条件transformer模型的参数;

24、si表示第i个样本分子对应的预测概率分布,n表示第一训练集中样本分子的总数;

25、表示对第i个样本分子对应的隐藏状态进行投影,表示对第i个样本分子对应的预测概率分布进行投影,τ表示超参数,表示对ui进行投影,sj表示第j个样本分子对应的预测概率分布,∪表示并集,表示第i个样本分子对应的负分子的概率分布,exp()表示以e为底的指数函数,cos()表示余弦函数;

26、其中,dkl表示kl散度,softmax()表示激活函数,w表示权重矩阵;b表示偏置向量,μ表示正权重,f+表示对正对比损失函数反向传播si的梯度操作,|| ||2表示l2范数,表示si和之间的kl散度计算;

27、表示对第i个样本分子和第i个样本分子对应的正分子的概率分布组成的集合进行投影。

28、第二方面,本申请提供了一种分子优化装置,包括:

29、获取模块,用于获取第一训练集,所述第一训练集包括多个样本分子;第一训练集中各样本分子对应的蛋白质配比在第一预设范围内,结合亲和力在第二预设范围内;

30、对比学习模块,用于根据所述第一训练集,以第一损失函数最小为目标,采用对比学习对条件transformer模型进行训练,得到生成模型;第一损失函数包括对比损失函数、kl损失函数和最大似然估计函数;

31、知识蒸馏模块,用于根据生成模型得到优化分子,并基于知识蒸馏方法根据优化分子对rnn模型进行训练得到蒸馏模型;

32、强化学习模块,用于根据蒸馏模型采用强化学习方法对智能体模型进行训练得到分子优化模型,所述分子优化模型用于对待优化分子进行优化;所述强化学习方法中的奖励函数包括结合亲和力。

33、第三方面,本申请提供了一种计算机设备,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序以实现上述中任一项所述的分子优化方法。

34、第四方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述中任一项所述的分子优化方法。

35、第五方面,本申请提供了一种计算机程序产品,包括计算机本文档来自技高网...

【技术保护点】

1.一种分子优化方法,其特征在于,所述分子优化方法包括:

2.根据权利要求1所述的分子优化方法,其特征在于,根据所述第一训练集,以第一损失函数最小为目标,采用对比学习对条件transformer模型进行训练,得到生成模型,具体包括:

3.根据权利要求2所述的分子优化方法,其特征在于,根据最大似然估计函数对所述样本分子对应的预测概率分布进行负扰动得到所述样本分子对应的负分子的概率分布具体为:

4.根据权利要求2所述的分子优化方法,其特征在于,根据正对比损失函数对所述样本分子对应的预测概率分布进行正扰动得到所述样本分子对应的中间正分子的概率分布,具体为:

5.根据权利要求2所述的分子优化方法,其特征在于,根据KL损失函数对所述样本分子对应的中间正分子的概率分布进行正扰动得到所述样本分子对应的正分子的概率分布,具体为:

6.根据权利要求2所述的分子优化方法,其特征在于,所述第一损失函数为:

7.一种分子优化装置,其特征在于,所述分子优化装置包括:

8.一种计算机设备,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1-6中任一项所述的分子优化方法。

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-6中任一项所述的分子优化方法。

10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-6中任一项所述的分子优化方法。

...

【技术特征摘要】

1.一种分子优化方法,其特征在于,所述分子优化方法包括:

2.根据权利要求1所述的分子优化方法,其特征在于,根据所述第一训练集,以第一损失函数最小为目标,采用对比学习对条件transformer模型进行训练,得到生成模型,具体包括:

3.根据权利要求2所述的分子优化方法,其特征在于,根据最大似然估计函数对所述样本分子对应的预测概率分布进行负扰动得到所述样本分子对应的负分子的概率分布具体为:

4.根据权利要求2所述的分子优化方法,其特征在于,根据正对比损失函数对所述样本分子对应的预测概率分布进行正扰动得到所述样本分子对应的中间正分子的概率分布,具体为:

5.根据权利要求2所述的分子优化方法,其特征在于,根据kl损失函数对所述样本分子对应的中间正分子...

【专利技术属性】
技术研发人员:吴梦妮王恩刘文彬杨馥宁徐原博
申请(专利权)人:吉林大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1