System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于分子线图结构的分子性质预测方法技术_技高网

一种基于分子线图结构的分子性质预测方法技术

技术编号:44277419 阅读:1 留言:0更新日期:2025-02-14 22:16
本发明专利技术公开了一种基于分子线图结构的分子性质预测方法。本发明专利技术包括以下步骤:首先采集药物分子的SMILES分子式,进行预处理以提取分子指纹和分子描述符。然后将分子线图结构作为模型输入,通过基于Transformer的图神经网络MolGraphTrans,计算分子线图的特征表示,并预测分子性质。该方法引入了子结构掩码、多头注意力机制、路径编码和距离编码,以更好地捕捉分子结构特征。最后通过低秩线性层和多头注意力层优化预测性能。与现有技术相比,本发明专利技术提高了分子性质预测的准确性和效率,适用于药物筛选和优化。

【技术实现步骤摘要】

本专利技术涉及药物分子性质判断的,具体而言,涉及一种基于分子线图和图神经网络的药物分子性质预测方法


技术介绍

1、全球人口老龄化和生活方式的变化导致疾病发病率持续上升,这进一步加剧了对新药研发和临床治疗方案的需求。药物开发过程不仅耗时长、成本高,且风险较大。因此,提高药物研发的效率和成功率对于满足全球日益增长的医疗需求至关重要。在此背景下,药物性质的预测成为药物研发中的关键步骤,它能够评估药物分子的多种性质,为药物的筛选、优化和应用提供科学依据。

2、随着机器学习和深度学习技术的进步,深度学习在药物开发中的应用越来越广泛。通过深度学习方法,研究人员能够更快速地筛选出符合性质要求的药物分子。然而,在生产符合使用规范且具有良好效果的药物过程中,仍存在以下问题:

3、(1)人工筛选符合临床要求的药物分子需要消耗大量的人力物力,过程耗时且成本高;

4、(2)现有的机器学习方法对分子性质预测的准确率仍有不足,预测结果通常需要通过实验进一步验证。

5、因此,亟需开发一种在确保药物性质预测准确性的基础上,能够提高预测效率的算法,以提升药物生产的效率和质量。


技术实现思路

1、针对现有技术存在的不足,本专利技术的目的在于提供一种基于分子线图结构的分子性质预测方法,可以有效预测药物分子的化学性质,弥补现有人工筛选方法效率低下的问题,提高药物生产的速度和质量。

2、为了实现上述目的,本专利技术提供了如下技术方案:一种基于分子线图结构的分子性质预测方法,其特征在于:包括如下步骤:

3、(1)采集药物分子的smiles分子式;

4、(2)对采集的分子数据进行预处理,提取分子指纹和分子描述符;

5、(3)根据分子式生成分子线图结构作为模型的输入;

6、(4)基于transformer架构,加入路径编码和距离编码,构建图神经网络molgraphtrans,计算分子线图的特征表示;

7、(5)将molgraphtrans的输出特征通过低秩线性层和多头注意力层输出分子的性质预测结果。

8、步骤(1)的具体过程为:

9、选取来自chembl29数据集的约200万个分子用于自监督预训练,并从标准数据集中选择具有代表性的性质预测任务。分类任务包括药物是否能够穿透血脑屏障,对bace1酶的抑制效果等;回归任务包括药物的脂溶性预测、溶剂化自由能预测等。

10、步骤(2)的具体过程为:

11、根据分子的核心骨架结构将药物分子划分为训练集、测试集和验证集,每个集合中的分子拥有相同或相似的骨架。使用化学信息学工具提取分子指纹和分子描述符,如分子量、极性表面积、化学键类型、路径指纹等。

12、步骤(3)的具体过程为:

13、每个分子被表示为一个图,节点代表原子,边代表化学键,节点和边的特征代表原子和化学键的化学性质。分子图进一步转换为分子线图,在分子图中每条化学键对应分子线图中的一个节点。当分子图中两条化学键共享一个原子时,在分子线图中创建一条边以连接相应的节点。分子线图中的节点特征由原始分子图中的原子和键特征构成。具体来说,化学键的节点特征通过以下公式计算:

14、

15、其中xi和xj分别是与化学键相连的两个原子的特征,wv和we是可训练的投影矩阵。

16、步骤(4)中,所述图神经网络molgraphtrans包括四个重要部分:子结构掩码、多头自注意力机制、路径编码和距离编码、前馈神经网络。

17、子结构掩码部分使用化学信息学工具对brics子结构进行遮蔽,并将遮蔽后的分子线图通过线性变换投射为特定结构的节点特征矩阵。

18、多头注意力机制部分将每个化学键节点的初始特征通过线性层映射到查询向量q,键向量k,值向量v,同时计算出距离编码和路径编码。通过自注意力机制捕捉节点之间的关系信息。注意力分数通过softmax归一化后,与值向量加权求和,生成新的节点表示。多头注意力机制的计算公式如下:

19、

20、其中ql,(,kl,(,vl,(是经过线图节点特征投影后的结构。

21、每两个节点之间的最短路径长度及欧几里得距离作为距离编码和路径编码,通过以下公式计算:

22、

23、其中表示和之间的最短路径,是路径中第n个节点的可训练投影矩阵,是用于将路径嵌入投影为注意力标量的可训练投影矩阵,dp代表路径嵌入的维度。sp()是由networkx实现的最短路径函数。d",$代表节点和之间的派生距离,和代表可训练的投影矩阵,d2代表距离嵌入的维度,spd()代表最短路径距离函数。距离编码结果和路径编码结果通过矩阵相加与注意力分数结合,确保注意力机制能够捕捉到节点之间的距离和路径信息。

24、多头注意力机制模块的输出hl会通过残差连接和层归一化处理后送入前馈神经网络ffn中进行计算,计算公式如下:

25、

26、其中ln()表示layernorm运算符,gelu()代表gelu激活函数,和代表两个可训练投影矩阵。

27、步骤(5)的具体过程为:

28、使用低秩线性层和多头注意力层对transformer层的输出特征进行进一步学习。低秩线性层将高维全连接层分解为两个低秩线性变换,多头注意力层则通过多个平行的注意力头,从不同的子空间中学习特征。低秩线性层的计算公式如下:z=bxy=az+b=a(bx)+b

29、其中,第一个权重矩阵b将输入x映射到低秩空间,生成一个维度较小的中间向量z,第二个权重矩阵a将低秩向量z映射回到输出空间。最后通过线性层计算得到分子特征的预测结果。

30、与现有技术相比,本专利技术具有以下有益效果:

31、本专利技术通过使用分子线图结构,强调化学键对分子性质的影响,更全面地表示分子结构,使模型能够更直接地捕捉和利用化学键信息。预训练过程中通过子结构掩码,模型能够更好地学习分子不同结构之间的关联,进一步强化对分子结构的学习。在微调阶段,使用低秩线性层和多头注意力层代替传统多层感知机进行分子性质预测,降低了模型的参数数量和计算复杂度,提高了计算效率,并降低了过拟合的风险。多头注意力层通过引入动态权重分配机制,自适应调整各注意力头的权重,使模型能够根据分子子结构自动调整关注重点,从而更高效地学习分子图中不同部分的相互作用,尤其在具有复杂结构的分子上表现突出。

本文档来自技高网...

【技术保护点】

1.一种基于分子线图结构的分子性质预测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于分子图结构的分子性质预测方法,其特征在于,步骤(1)的具体过程为:

3.根据权利要求1所述的基于分子图结构的分子性质预测方法,其特征在于,步骤(2)的具体过程为:

4.根据权利要求1所述的基于分子图结构的分子性质预测方法,其特征在于,步骤(3)的具体过程为:

5.根据权利要求1所述的基于分子图结构的分子性质预测方法,其特征在于,步骤(4)的具体过程为:

6.根据权利要求1所述的基于分子图结构的分子性质预测方法,其特征在于,步骤(5)的具体过程为:

【技术特征摘要】

1.一种基于分子线图结构的分子性质预测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于分子图结构的分子性质预测方法,其特征在于,步骤(1)的具体过程为:

3.根据权利要求1所述的基于分子图结构的分子性质预测方法,其特征在于,步骤(2)的具体过程为:

4.根...

【专利技术属性】
技术研发人员:杨海包梓泉阮彤刘井平
申请(专利权)人:华东理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1