System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及计算机,具体涉及一种预测分子结构的方法、装置、计算机设备及存储介质。
技术介绍
1、利用用于预测分子结构的模型例如基于transformer模型预测分子结构被广泛应用在新药研发例如小分子新药研发。分子生成在的主要目标是根据输入的特定靶点的口袋pocket,生成种类多样,质量较好的分子结构。
2、目前,将用于预测分子结构的模型的输出作为最终的结果。预测结果的准确性完全依赖于模型的精度。然而,模型的学习是基本依赖于训练数据的分布,如果在推理阶段所需要推理数据的特征分布离训练数据集较远时,会出现某一位置的令牌(token)的预测出现明显的偏好并且这种偏好并非有益的情况,导致预测出的分子结构的准确性的降低。如何提升预测出的分子结构的准确性的准确性成为一个需要解决的问题。
技术实现思路
1、有鉴于此,本公开实施例提供了一种预测分子结构的方法、装置、计算机设备及存储介质。
2、第一方面,本公开实施例提供了一种预测分子结构的方法,该方法包括:
3、利用经过预训练的目标分子生成模型,根据目标分子生成模型的输入、目标路径集,得到所述输入对应的预测分子结构,包括:
4、在预测所述预测分子结构的第i个令牌token期间,利用目标分子生成模型,根据所述输入、所述预测分子结构的第1个token至第i-1个token,预测出所述第i个token的第一概率分布,其中,i为2至所述预测分子结构的token的数量中任意一个,所述第一概率分布指示所述第i个to
5、根据所述预测分子结构的第1个token至第i-1个token,目标路径集,确定所述每个候选token对应的路径集,其中,当所述候选token对应的路径集不是空集时,所述候选token对应的路径集是从目标路径集中查找出的并且所述候选token对应的路径集中每个路径的第i个token均为所述候选token以及所述候选token对应的路径集中每个路径的第j个token均与所述预测分子结构的第1个token至第i-1个token中第j个token相同,j为1至i-1中任意一个;
6、对于所述每个候选token,根据所述候选token对应的路径集中对应的分子质量分数大于相应分子质量分数阈值的路径的数量、所述候选token对应的路径集中路径的数量,计算所述候选token的分数;
7、根据所述每个候选token的分数、所述第i个token的第一概率分布,得到所述第i个token的第二概率分布;
8、根据所述第二概率分布,从所述第i个token的所有候选token中确定出所述预测分子结构的第i个token。
9、第二方面,本公开实施例提供了一种预测分子结构的装置,所述装置包括:
10、分子结构预测单元,用于利用经过预训练的目标分子生成模型,根据目标分子生成模型的输入、目标路径集,得到所述输入对应的预测分子结构,其中,分子结构预测单元包括:token预测子单元,用于在预测所述预测分子结构的第i个token期间,利用目标分子生成模型,根据所述输入、所述预测分子结构的第1个token至第i-1个token,预测出所述第i个token的第一概率分布,其中,i为2至所述预测分子结构的token的数量中任意一个,所述第一概率分布指示所述第i个token的所有候选token中每个候选token作为所述第i个token的第一概率;根据所述预测分子结构的第1个token至第i-1个token,目标路径集,确定所述每个候选token对应的路径集,其中,当所述候选token对应的路径集不是空集时,所述候选token对应的路径集是从目标路径集中查找出的并且所述候选token对应的路径集中每个路径的第i个token均为所述候选token以及所述候选token对应的路径集中每个路径的第j个token均与所述预测分子结构的第1个token至第i-1个token中第j个token相同,j为1至i-1中任意一个;
11、对于所述每个候选token,根据所述候选token对应的路径集中对应的分子质量分数大于相应分子质量分数阈值的路径的数量、所述候选token对应的路径集中路径的数量,计算所述候选token的分数;根据所述每个候选token的分数、所述第i个token的第一概率分布,得到所述第i个token的第二概率分布;根据所述第二概率分布,从所述第i个token的所有候选token中确定出所述预测分子结构的第i个token。
12、第三方面,本公开实施例提供了一种计算机设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述第一方面或其对应的任一实施方式的方法。
13、第四方面,本公开实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的方法。
14、第五方面,本专利技术提供了一种计算机程序产品,包括计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的方法。
15、本公开实施例提供的预测分子结构的方法,结合模型经验即目标分子生成模型预测出的第一概率分布、已有的结果即包括目标分子生成模型已经生成过的路径的目标路径集,生成优化的概率分布即第二概率分布,利用第二概率分布,预测目标分子生成模型的输入对应的预测分子结构的token。从而,在利用模型生成分子结构的过程中,可以一定程度上避免模型因为训练数据的分布问题带来的非正收益的偏好的问题,生成较高质量的分子结构。
本文档来自技高网...【技术保护点】
1.一种预测分子结构的方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,根据所述候选token对应的路径集中对应的分子质量分数大于相应分子质量分数阈值的路径的数量、所述候选token对应的路径集中路径的数量,计算所述候选token的分数包括:
3.根据权利要求2所述的方法,其特征在于,根据所述候选token对应的路径集中对应的分子质量分数大于中等级分子质量分数阈值的路径的数量、所述候选token对应的路径集中对应的分子质量分数大于高等级分子质量分数阈值的路径的数量,计算所述候选token的分数包括:
4.根据权利要求3所述的方法,其特征在于,根据所述候选token对应的路径集中对应的分子质量分数大于中等级分子质量分数阈值的路径的数量、所述候选token对应的路径集中对应的分子质量分数大于高等级分子质量分数阈值的路径的数量、所述候选token的路径多样性参数,计算所述候选token的分数包括:
5.根据权利要求1-4中任一项所述的方法,其特征在于,在利用目标分子生成模型,根据经过预训练的目标分子生成模型的输入
6.根据权利要求5所述的方法,其特征在于,利用目标分子生成模型进行的与所述预测路径相关的扩充路径预测的次数为所述阶段预测包括的预测的次数。
7.一种预测分子结构的装置,其特征在于,所述装置包括:
8.一种计算机设备,其特征在于,包括:
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使计算机执行权利要求1至6中任一项所述的方法。
10.一种计算机程序产品,其特征在于,包括计算机指令,所述计算机指令用于使计算机执行权利要求1至6中任一项所述的方法。
...【技术特征摘要】
1.一种预测分子结构的方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,根据所述候选token对应的路径集中对应的分子质量分数大于相应分子质量分数阈值的路径的数量、所述候选token对应的路径集中路径的数量,计算所述候选token的分数包括:
3.根据权利要求2所述的方法,其特征在于,根据所述候选token对应的路径集中对应的分子质量分数大于中等级分子质量分数阈值的路径的数量、所述候选token对应的路径集中对应的分子质量分数大于高等级分子质量分数阈值的路径的数量,计算所述候选token的分数包括:
4.根据权利要求3所述的方法,其特征在于,根据所述候选token对应的路径集中对应的分子质量分数大于中等级分子质量分数阈值的路径的数量、所述候选token对应的路径集中对应的分子质量分数大于高等级分子质量分数阈值的路径的数量、所述候选token...
【专利技术属性】
技术研发人员:朱彦浩,冯伟,周文彪,黄博,
申请(专利权)人:北京望石智慧科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。