System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 用于预测化合物的合成可及性的方法、装置及其训练方法制造方法及图纸_技高网

用于预测化合物的合成可及性的方法、装置及其训练方法制造方法及图纸

技术编号:41324093 阅读:11 留言:0更新日期:2024-05-13 15:02
本公开的实施例提供一种用于预测化合物的合成可及性的方法、装置及其训练方法。该方法包括:获得化合物的原子特征、键特征、属性特征;通过第一注意力模块获得原子特征与键特征之间的第一内部关联特征;将第一内部关联特征与属性特征拼接成拼接向量;通过第二注意力模块从拼接向量获得原子特征和键特征与属性特征之间的第二内部关联特征;通过第三注意力模块从第二内部关联特征获得原子特征和键特征与属性特征之间的内部隐含特征;通过全连接层对内部隐含特征进行加权求和;以及通过激活函数根据内部隐含特征的加权和来输出对化合物的合成可及性的预测概率。

【技术实现步骤摘要】

本公开的实施例涉及计算机,具体地,涉及用于预测化合物的合成可及性的方法、电子设备、用于预测化合物的合成可及性的装置、用于该装置的训练方法。


技术介绍

1、从巨大的化学空间中发现新的候选药物一直是药物化学家面临的重大挑战。在开始选择先导化合物(lead compound)时,选择合适的筛选库(化合物库)至关重要。作为计算机辅助药物设计(cadd)中的主流技术,虚拟筛选(virtual screening,vs)已被广泛用于从大型化合物库中搜索潜在线索。然而,vs只能用于搜索分布在有限化学空间中的现有分子。相比之下,从头设计药物可以通过计算从头开始生成具有理想治疗效果的新结构。然而,在分子生成过程中很少考虑合成的可及性,这些计算机生成的分子通常很难或不可能被合成。因此,评估化合物的合成可及性(synthetic accessibility,sa)在实际药物发现工作流程中显然至关重要。


技术实现思路

1、本文中描述的实施例提供了一种用于预测化合物的合成可及性的方法、电子设备、用于预测化合物的合成可及性的装置、用于该装置的训练方法以及存储有计算机程序的计算机可读存储介质。

2、根据本公开的第一方面,提供了一种用于预测化合物的合成可及性的方法。该方法包括:获得化合物的原子特征(atomic features)、键特征(bond features)、属性特征(property features);通过第一注意力模块获得原子特征与键特征之间的第一内部关联特征;将第一内部关联特征与属性特征拼接成拼接向量;通过第二注意力模块从拼接向量获得原子特征和键特征与属性特征之间的第二内部关联特征;通过第三注意力模块从第二内部关联特征获得原子特征和键特征与属性特征之间的内部隐含特征;通过全连接层对内部隐含特征进行加权求和;以及通过激活函数根据内部隐含特征的加权和来输出对化合物的合成可及性的预测概率。

3、在本公开的一些实施例中,方法还包括:滤除属性特征中的异常值;以及对属性特征进行数据标准化。

4、在本公开的一些实施例中,属性特征包括以下中的一个或多个:分子量、sp3杂化碳原子比例、重原子数量、logp值、摩尔折射率、脂肪环数量、芳香环数量、氢键受体数量、氢键给体数量、可旋转键数量、环数量、拓扑分子极性表面积、定量评估类药性。

5、在本公开的一些实施例中,原子特征包括:原子类型、原子价、隐含价、电荷、自由基电子、杂化、芳香性、是否在环上、连接氢数量、手性类型。其中,原子类型包括:c,n,o,s,f,si,p,cl,br,mg,na,ca,fe,as,al,i,b,v,k,tl,yb,sb,sn,ag,pd,co,se,ti,zn,li,ge,cu,au,ni,cd,in,mn,zr,cr,pt,hg,pb。

6、在本公开的一些实施例中,第一注意力模块、第二注意力模块和第三注意力模块都是多头注意力模块。

7、根据本公开的第二方面,提供了一种电子设备。该电子设备包括至少一个处理器;以及存储有计算机程序的至少一个存储器。当计算机程序由至少一个处理器执行时,使得电子设备:获得化合物的原子特征、键特征、属性特征;通过第一注意力模块获得原子特征与键特征之间的第一内部关联特征;将第一内部关联特征与属性特征拼接成拼接向量;通过第二注意力模块从拼接向量获得原子特征和键特征与属性特征之间的第二内部关联特征;通过第三注意力模块从第二内部关联特征获得原子特征和键特征与属性特征之间的内部隐含特征;通过全连接层对内部隐含特征进行加权求和;以及通过激活函数根据内部隐含特征的加权和来输出对化合物的合成可及性的预测概率。

8、在本公开的一些实施例中,计算机程序在由至少一个处理器执行时使得电子设备还:滤除属性特征中的异常值;以及对属性特征进行数据标准化。

9、根据本公开的第三方面,提供了一种用于预测化合物的合成可及性的装置。该装置包括:第一注意力模块、向量拼接模块、第二注意力模块、第三注意力模块、全连接层、激活函数层。其中,第一注意力模块的输入为化合物的原子特征和键特征。第一注意力模块被配置为获得原子特征与键特征之间的第一内部关联特征。向量拼接模块的输入为第一内部关联特征与化合物的属性特征。向量拼接模块被配置为将第一内部关联特征与属性特征拼接成拼接向量。第二注意力模块的输入为拼接向量。第二注意力模块被配置为从拼接向量获得原子特征和键特征与属性特征之间的第二内部关联特征。第三注意力模块的输入为第二内部关联特征。第三注意力模块被配置为从第二内部关联特征获得原子特征和键特征与属性特征之间的内部隐含特征。全连接层被配置为对内部隐含特征进行加权求和。激活函数层被配置为根据内部隐含特征的加权和来输出对化合物的合成可及性的预测概率。

10、在本公开的一些实施例中,属性特征包括以下中的一个或多个:分子量、sp3杂化碳原子比例、重原子数量、logp值、摩尔折射率、脂肪环数量、芳香环数量、氢键受体数量、氢键给体数量、可旋转键数量、环数量、拓扑分子极性表面积、定量评估类药性。

11、在本公开的一些实施例中,该装置还包括:预处理模块。预处理模块被配置为滤除属性特征中的异常值,并对属性特征进行数据标准化。

12、在本公开的一些实施例中,第一注意力模块、第二注意力模块和第三注意力模块都是多头注意力模块。

13、根据本公开的第四方面,提供了一种训练方法,用于训练根据本公开的第三方面所述的用于预测化合物的合成可及性的装置。训练方法包括:生成训练数据集,训练数据集包括多个化合物,每个化合物附带一个合成难度值,合成难度值指示该化合物的合成可及性;利用训练数据集通过多轮训练来训练装置以最小化装置的损失函数。

14、损失函数被表示为:

15、l(y,p)=-[y log(p)+(1-y)log(1-p)],

16、其中,y表示合成难度值,p表示激活函数层输出的预测概率。

17、在本公开的一些实施例中,生成训练数据集包括:获得多个化合物,每个化合物附带合成可及性得分,合成可及性得分的范围为0至10;从多个化合物中选择合成可及性得分低于3.5的n1个化合物,并将该n1个化合物的合成难度值标记为0;从多个化合物中选择按照多步逆合成规划算法来计算的化合物合成步骤数少于10的n2个化合物,并将该n2个化合物的合成难度值标记为0;从可购买化合物数据库中选择n3个非天然产物的化合物,并将该n3个化合物的合成难度值标记为0;从多个化合物中选择合成可及性得分高于6的n1个化合物,并将该n1个化合物的合成难度值标记为1;从多个化合物中选择按照多步逆合成规划算法来计算的化合物合成步骤数多于10或者无法成功预测合成路线的n2个化合物,并将该n2个化合物的合成难度值标记为1;从已知的基于分子变形法生成的化合物中选择n3个化合物,并将该n3个化合物的合成难度值标记为1;以及将所选择的化合物组合成训练数据集。

18、根据本公开的第五方面,提供本文档来自技高网...

【技术保护点】

1.一种用于预测化合物的合成可及性的方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

3.根据权利要求1或2所述的方法,其特征在于,所述属性特征包括以下中的一个或多个:分子量、SP3杂化碳原子比例、重原子数量、LogP值、摩尔折射率、脂肪环数量、芳香环数量、氢键受体数量、氢键给体数量、可旋转键数量、环数量、拓扑分子极性表面积、定量评估类药性。

4.根据权利要求1或2所述的方法,其特征在于,所述原子特征包括:原子类型、原子价、隐含价、电荷、自由基电子、杂化、芳香性、是否在环上、连接氢数量、手性类型,

5.根据权利要求1或2所述的方法,其特征在于,所述第一注意力模块、所述第二注意力模块和所述第三注意力模块都是多头注意力模块。

6.一种电子设备,其特征在于,所述电子设备包括:

7.一种用于预测化合物的合成可及性的装置,其特征在于,所述装置包括:第一注意力模块、向量拼接模块、第二注意力模块、第三注意力模块、全连接层、激活函数层,

8.根据权利要求7所述的装置,其特征在于,所述属性特征包括以下中的一个或多个:分子量、SP3杂化碳原子比例、重原子数量、LogP值、摩尔折射率、脂肪环数量、芳香环数量、氢键受体数量、氢键给体数量、可旋转键数量、环数量、拓扑分子极性表面积、定量评估类药性。

9.一种训练方法,用于训练根据权利要求7或8所述的用于预测化合物的合成可及性的装置,其特征在于,所述训练方法包括:

10.根据权利要求9所述的训练方法,其特征在于,生成训练数据集包括:

...

【技术特征摘要】

1.一种用于预测化合物的合成可及性的方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

3.根据权利要求1或2所述的方法,其特征在于,所述属性特征包括以下中的一个或多个:分子量、sp3杂化碳原子比例、重原子数量、logp值、摩尔折射率、脂肪环数量、芳香环数量、氢键受体数量、氢键给体数量、可旋转键数量、环数量、拓扑分子极性表面积、定量评估类药性。

4.根据权利要求1或2所述的方法,其特征在于,所述原子特征包括:原子类型、原子价、隐含价、电荷、自由基电子、杂化、芳香性、是否在环上、连接氢数量、手性类型,

5.根据权利要求1或2所述的方法,其特征在于,所述第一注意力模块、所述第二注意力模块和所述第三注意力模块都是多头注意力...

【专利技术属性】
技术研发人员:伍星吴忠毅余志颖李靖丁红霞
申请(专利权)人:药渡智慧北京医药科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1