System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于人工智能在药物发现场景中,更具体地说,涉及一种基于分子动力学模拟搭建四维特征的表示学习方法。
技术介绍
1、分子性质是化学和药物发现领域的重要因素。计算机辅助方法能够快速预测分子的性质,在特定实验开始之前提供研究分子的概览。这些方法被称为定量结构-活性关系或定量结构-性质关系模型。此外,随着机器学习方法的发展,分子性质预测的精度和速度也得到了提高。例如,图卷积神经网络、卷积神经网络和循环神经网络在药物发现和分子分析中已变得流行。生成对抗网络结合一些机器学习策略,如监督学习和强化学习,也已应用于新分子的生成和药物设计。对比学习是一种自监督学习策略,常常用于处理没有标签的数据集,已经变得非常流行。然而,深度学习方法需要大型数据集来确定其大量的权重,对于小型数据集可能没有竞争力。
2、于是,一些研究工作者开始在最初的分子描述符或分子表示上找寻方向。本质上,分子表征方法的主要目标是建立分子结构和分子性质之间的映射模型。比较典型的分子描述符是一维序列形式的smiles(simplified molecular input line entry system)。在smiles中,原子和化学键分别用字母和标点符号表示,分支用括号描述。分子指纹通常包含分子结构信息。2d指纹主要有四种类型,即基于子结构密钥的指纹、基于拓扑或路径的指纹、圆形指纹和药团指纹。然而,2d指纹会丢失分子的3d结构信息,尤其是立体化学描述。
3、为了解决上述问题,人们开发了基于3d结构的代数图指纹来捕获分子的3d模式。生物学研究发现表
4、因此,为了提高分子性质预测的精度,值得尝试学习小分子的动态3d信息,并开发一种基于分子动力学模拟搭建四维特征的表示学习方法。
技术实现思路
1、针对上述问题,本专利技术提出了一种基于分子动力学模拟搭建四维特征的表示学习方法,包括:
2、构建数据集,包括以下步骤:构建用于未来构象预测的数据集、构建用于原子掩蔽预测的数据集和构建下游任务数据集;
3、构建时空特征编码框架,包括以下步骤:未来构象预测预训练、原子掩蔽预测预训练和下游任务预测;
4、基于时空特征编码框架对分子性质进行预测。
5、进一步地,构建用于未来构象预测的数据集包括如下步骤:在保证分子量平衡的情况下,筛选出富含原子种类的化合物;使用amber工具处理分子,生成分子动力学轨迹数据;进行数据处理,每个分子保留1k帧快照;
6、构建用于原子掩蔽预测的数据集包括如下步骤:取样分子用于进行原子掩蔽预测预训练,利用rdkit中的etkdg算法来获得分子中原子的模拟三维坐标,并用merck分子力场进行能量最小化,以优化分子的几何结构,使其达到能量最低的稳定状态;
7、构建下游任务数据集包括如下步骤:从分子性质预测基准数据集中选择,包括从量子力学到生理学的分子性质预测任务,其中,对于不含3d坐标的基准数据集,使用rdkit来生成分子中原子的模拟三维坐标。
8、进一步地,未来构象预测预训练,具体包括以下步骤:
9、利用处理好的分子动力学轨迹数据来预训练改进后的protmd组件;
10、基于训练后的改进后的protmd组件,以1到n个时间步长间隔均匀采样分子时空序列中的数据,分别训练得到n个改进后的protmd组件,得到n-protmd工具;
11、其中,预训练改进后的protmd组件,具体包括以下步骤:将分子化合物具有的原子个数记为m,定义获取到的每个分子化合物的分子动力学轨迹都具有的时间步长为t,对于每个时间步长t∈[t],构建以原子为节点,键为边的分子图g(t)=(v(t),e(t)),其中,原子包括3d坐标x(t)∈rm×3和初始ψh维度旋转平移不变特征并且定义分子时空序列为
12、将当前时间帧的构象记为g(t),下一个时间帧的构象记为g(t+1),基于改进后的protmd组件训练预测构象原子的空间位置,计算公式为:
13、
14、其中,p表示条件概率,通过编码器fθ进行建模,l表示预测出下一个时间帧构象坐标的可能性,θ表示改进后的protmd组件的参数。
15、进一步地,原子掩蔽预测预训练,具体包括以下步骤:对分子中部分原子的类型用mask标记随机替换进行掩蔽;送入到tegn模型当中得到被替换原子类型后的最终特征;增加一个前向网络层用于预测被掩蔽原子的类型;其中,每个分子保证至少有一个原子被掩蔽,同时给原子数量不足的分子进行填充操作,用pad标记表示填充的虚拟原子。
16、进一步地,下游任务预测,具体包括以下步骤:输入当前时刻的分子构象,使用n-protmd工具将输出多帧未来不同时间间隔后的分子构象集合和联合变换的隐藏特征;将特征馈送到卷积块注意力残差网络做进一步的学习;通过全连接层进行分子性质预测;
17、其中,在分子构象的字典策略中,添加10种基本元素,其余原子类型用unk标记表示。
18、进一步地,n-protmd工具的构建具体步骤包括:
19、对于protmd模型进行改进,使其适应于分子性质预测任务;
20、将输出第i帧构象的改进后的protmd模型记为protmdi,将g(t)输入到改进后的protmd模型中,并将时间跨度prompt的编码向量与初始原子特征h(t)拼接,将拼接后的特征送入以egnn为骨干加入全局注意力机制的网络层,得到第i帧构象g(t+i)的原子空间坐标x(t+i)和其潜在特征h(t+i),计算公式为:
21、h(t+i),x(t+i)=protmdi(h(t),x(t),hprompt) (8)
22、把训练过的n个隐藏不同时间跨度编码的改进后的protmd模型封装成n-protmd工具,包括:当输入初始原子特征h(t)时,n-protmd工具输出运动的分子构象的原子坐标与特征集合其中并把里的每个元素在新的维度上进行拼接,得到初始的分子时空特征
23、进一步地,改进后的protmd模型的构建具体步骤包括:
24、对protmd模型网络层进行定义,具体公式为:
25、
26、
27、
28、
29、其中,l表示网络的第l层,x表示原子坐标,φe表示对原子间相对距离的操作,φh表示对节点的操作,i和j分别表示同一几何构象的节点序号,将图内消息和加入注意力机制的图内消息以及节点嵌入聚合,以获得更新后的节点嵌入令φx=φm(本文档来自技高网...
【技术保护点】
1.一种基于分子动力学模拟搭建四维特征的表示学习方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,构建用于未来构象预测的数据集包括如下步骤:在保证分子量平衡的情况下,筛选出富含原子种类的化合物;使用Amber工具处理分子,生成分子动力学轨迹数据;进行数据处理,每个分子保留1k帧快照;
3.根据权利要求1所述的方法,其特征在于,未来构象预测预训练,具体包括以下步骤:
4.根据权利要求3所述的方法,其特征在于,原子掩蔽预测预训练,具体包括以下步骤:对分子中部分原子的类型用MASK标记随机替换进行掩蔽;送入到TEGN模型当中得到被替换原子类型后的最终特征;增加一个前向网络层用于预测被掩蔽原子的类型;其中,每个分子保证至少有一个原子被掩蔽,同时给原子数量不足的分子进行填充操作,用PAD标记表示填充的虚拟原子。
5.根据权利要求4所述的方法,其特征在于,下游任务预测,具体包括以下步骤:输入当前时刻的分子构象,使用N-ProtMD工具将输出多帧未来不同时间间隔后的分子构象集合和联合变换的隐藏特征;将特征馈送到卷积块注意力残差网
6.根据权利要求3所述的方法,其特征在于,N-ProtMD工具的构建具体步骤包括:
7.根据权利要求3所述的方法,其特征在于,改进后的ProtMD组件的构建具体步骤包括:
8.根据权利要求5所述的方法,其特征在于,下游任务预测中,将特征馈送到卷积块注意力残差网络做进一步的学习,具体包括以下步骤:
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:该程序被处理器执行时实现如权利要求1~8中任一项所述的基于分子动力学模拟搭建四维特征的表示学习方法中的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~8中任一项所述的基于分子动力学模拟搭建四维特征的表示学习方法中的步骤。
...【技术特征摘要】
1.一种基于分子动力学模拟搭建四维特征的表示学习方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,构建用于未来构象预测的数据集包括如下步骤:在保证分子量平衡的情况下,筛选出富含原子种类的化合物;使用amber工具处理分子,生成分子动力学轨迹数据;进行数据处理,每个分子保留1k帧快照;
3.根据权利要求1所述的方法,其特征在于,未来构象预测预训练,具体包括以下步骤:
4.根据权利要求3所述的方法,其特征在于,原子掩蔽预测预训练,具体包括以下步骤:对分子中部分原子的类型用mask标记随机替换进行掩蔽;送入到tegn模型当中得到被替换原子类型后的最终特征;增加一个前向网络层用于预测被掩蔽原子的类型;其中,每个分子保证至少有一个原子被掩蔽,同时给原子数量不足的分子进行填充操作,用pad标记表示填充的虚拟原子。
5.根据权利要求4所述的方法,其特征在于,下游任务预测,具体包括以下步骤:输入当前时刻的分子构象,使用n-protm...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。