基于人工智能片段化技术的先导活性分子生成与筛选方法技术

技术编号：43063645 阅读：18 留言：0更新日期：2024-10-22 14:42

本发明专利技术属于AI辅助药物设计领域，公开了基于人工智能片段化技术的先导活性分子生成与筛选方法，包括基于AIDD的片段化活性分子的数据处理、高亲和力的活性分子片段预测以及先导活性分子筛选。本发明专利技术从语言模型角度，将分子碎片化为多个token的组合，关注这些token片段的相互作用关系，找到对分子性质影响较大的片段。进一步以分子的分段表示为基础结合语言模型，使用基于语言模型的亲和力模型来筛选具有高亲和力的分子片段。所得到高亲和力的分子片段可以进一步结合分子属性约束，最终通过多维属性预测模型对初步生成的分子进行筛选，生成先导活性分子，实现了AI辅助药物生成的完整解决方案。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于ai辅助药物设计领域，特别是涉及基于人工智能片段化技术的活性分子生成与筛选方法，包括基于aidd的片段化活性分子的数据处理、高亲和力的活性分子片段预测以及先导活性分子筛选。

技术介绍

1、cadd(computer aided drug design):计算机辅助药物设计，依据生物化学、酶学、分子生物学以及遗传学等生命科学的研究成果，针对这些基础研究中所揭示的包括酶、受体、离子通道及核酸等潜在的药物设计靶点，并参考其它类源性配体或天然产物的化学结构特征，以计算机化学为基础，通过计算机的模拟、计算和预算药物与受体生物大分子之间的相互作用，考察药物与靶点的结构互补、性质互补等，设计出合理的药物分子。

2、随着人工智能(ai)的蓬勃发展，aidd(aidrug discovery&design)已经介入到新药设计到研发的大部分环节当中，为新药发现与开发带来了极大的助力。在各种人工智能方法中，生成模型(generation model)近年来备受关注。在这些成功的启发下，研究者们现在将生成模型技术应用于药物从头设计，这被认为是药物发现的起源。在这个视角中，如递归神经网络、自编码器、生成对抗网络、transformer和带有强化学习的混合模型在各个分子生成任务中都发挥了非常出色的功能。

3、分子表示是分子生成工作流程中的关键任务。研究人员通过从1d，2d，3d和图像等多个维度和视角出发构建了分子精确表征的模型，并通过实验进行了验证。但是大多数人关注的是以原子和键为基础结构的分子表征方法，而忽略

4、在分子表示的演变历程中，最初使用通用名称对分子进行命名，但随着化学领域的发展，1919年international union of pure and applied chemistry(iupac)的成立标志着对化学命名法和术语的规范化。然而，这种命名法繁琐难懂，推动了更适合计算机的数字表示的发展，其中包括基于分子图的smiles(simplified molecular input line entryspecification)格式和3d分子格式。smiles通过字符串简洁而可读地表示分子，但同一分子可有多个等效的smiles表示，引发了其他格式的发展，如smiles arbitrary targetspecification(smarts)、smiles inreaction kekule system(smirks)、self-referencing embedded strings(selfie)s等。此外，iupac创建的internationalchemical identifier(inchi)格式提供了机器可读的分子表示，包含电荷、立体化学和同位素信息。另一方面，3d分子格式如mol和mol2包含了原子在3d空间中的位置，适用于包含更多信息的领域，如晶体学和分子动力学。目前，smiles和图形编码已成为神经网络模型中常用的小分子表示方法。

5、基于1d序列的分子编码方法是将药物表示问题描述为序列编码问题。这类方法中的大多数都是基于简化的分子输入行输入系统(smiles)，这是一种使用短的americanstandard code for information interchange(ascii)字符串weininger描述分子结构的行符号。字符变化自动编码器(c-vae)逐个字符地生成smiles字符串；grammar vae(g-vae)中kusner等人遵循上下文无关文法给出的句法限制生成smiles字符串；句法指导的vae(sd-vae)中，dai等人将smiles的句法和语义通过属性语法约束结合在一起。然而，由于基于序列的方法大多数是基于smiles字符串进行编码，而smiles字符串是一种具有严格语法规则的编码方式，因此面临两个重要问题：一是有效性问题，生成模型会错误地理解smlies序列语义，生成错误的smiles编码。二是smiles的非结构化性质使得两个相似的分子极有可能完全不同。

6、分子由片段构成，片段是分子的展现出各种性质的基本化学结构。针对片段的分子研究，可以掌握分子内部或分子间局部片段之间的相互作用。分子间产生的相互作用来源于分子片段间的相互作用的统一，因此，高亲和度的片段是分子亲和力的重要源头。构建一个基于高亲和力分子片段生成的分子，将会是潜在的高亲和力的分子。

7、强化学习是一种以环境反馈为输入，自适应环境的面向目标的机器学习方法。分子生成的结构约束通过强化学习反复奖励更加接近需要约束结构的生成分子来完成。

8、为了在生成的分子中保留高亲和度分子片段的结构特征，通过对生成分子和目标片段谷本相似度的约束进行强化学习。模型每一次生成的新分子在结构上越接近目标片段，则agent进行积极奖励，而生成的新分子远离目标片段，则进行惩罚。使用强化学习避免了直接连接目标片段的低自由度方法，从而避免模型生成全新分子的能力被限制情况。一个结构受限的分子生成策略是限制输出分子包含一个特定的骨架或片段。langevin等人和li等人建立了生成模型，输出具有特定骨架的药物分子。这些骨架通常是从具有良好生物特性的现有药物中提取的。jin、podda、imrie和green等人也开发了基于骨架的生成模型，学习生成具有特定片段的分子。但是，基于结构约束的分子生成模型往往会产生大量重复的结构和分子，因其限定了分子骨架的主要结构，会约束生成模型的自由度，导致生成同一药物分子的大量同类分子，从而降低模型对新药物的学习和生成能力。因此，在生成模型中考虑多种可能的高亲和力片段并以此为基础生成分子，通过强化学习的应用使生成的分子既能保留目标片段的结构特征，又能基于固定结构特征产生变化，提高模型生成分子的自由度。

9、本申请专利技术人的前期研究公开了一种融合复合蛋白质相互作用的亲和力预测模型fotf-cpi，基于最佳运输的片段化方法来提高模型对化合物和蛋白质序列的理解(fotf-cpi:a compound-protein interaction prediction transformer based on the fusionof optimal transport fragments，iscience，volume 27,issue 1,19january 2024)。该模型采用bpe方法，存在词粒度错位、词表构建效率低、低泛化和无效片段多的问题。

10、此外，以protac药物设计模型为例，目前常见的药物预测模型通常存在如下缺陷：

11、1.传统protac设计通常需要考虑多种复杂因素，如目标蛋白和e3连接酶之间的相互作用、连接子长度和柔性等。这使得设计过程繁琐耗时。

12、2.传统protac设计倚赖反复合成和测试多个结构变体，甚至通过湿实验去验证以找到最优组合，这种方法效率低、优化周期长。

13、3.传统protac设计往往面临不可预测的挑战，如连接子对靶标本文档来自技高网...

【技术保护点】

1.基于AIDD的片段化活性分子数据处理方法，其特征在于包括如下步骤：

2.根据权利要求1所述的方法，其特征在于所述序列切分算法选自VOLT、BPE、、Character Slicing、RECAP、BRICS、根据原子间反应分数切分、eMolFrag、FCS、BPE_NLM、MacFrag、FG splitting、SPE或Tree Decomposition，所述步骤(3)分子片段表征提取方法选自Word2Vec、ERNIE、Electra、Universal Sentence Encoder、Bag of Words、TF-IDF、n-gram、GloVe、BERT、GPT、ELMo或Transformer。

3.一种活性分子片段的亲和力预测方法，其特征在于采用权利要求1或2所述的方法获得的活性分子片段的表征输入蛋白-化合物亲和力模型提取相应信息，选择A、B两种活性分子的片段集合代表A、B两组片段，组间两两配对，或同一活性分子片段分为A、B两组，组间两两配对，根据配对片段之间相互作用进行计算，所述蛋白-化合物亲和力模型使用基于预测结果和真实标签的二元

4.根据权利要求3所述的方法，其特征在于具体包括如下步骤：

5.一种先导活性分子的预测方法，其特征在于基于权利要求1或2所述的方法获得的活性分子片段的表征，或权利要求3或4所述的方法获得的高亲和力活性分子片段表征，经分子生成模型生成先导活性分子。

6.根据权利要求5所述的预测方法，其特征在于所述分子生成模型选自GRU、LSTM、Variaational Autoencoders、Generative Adversarial Networks、Junction TreeVariational Autoencoder、SMILES-based Models、GraphVAE、GraphGAN、ReinforcementLearning Models、Molecular Transformer、DeepChem Models、Self-Organizing Maps、Latent Space Optimization Models、CVAE或C-Transformer。

7.根据权利要求5所述的预测方法，其特征在于所述分子模型以C-Transformer为基础，引入活性分子的至少两个属性作为C-Transformer的条件编码，将活性分子线性化文本SMILES切分为片段表征，作为C-Transformer的结构编码训练，使用C-Transformer对一个随机初始分子和任意一个片段进行编码，计算初始分子和片段距离D，计算随机初始分子分子骨架和片段分子骨架的相似度S，通过强化学习对D*S数值作为奖励参照，相似度大且距离近则进行奖励，反之进行惩罚，从而对生成的分子结构进行约束，所述活性分子的属性选自脂溶性、水溶性、分子量、溶解度、分配系数LogP、pKa值、极性表面积PSA、氢键供体数量、氢键受体数量、拓扑极性表面积TPSA、半衰期、降解速率常数、热稳定性、pH稳定性、光稳定性、体外代谢半衰期、内在清除率、生物利用度、毒性、血脑屏障通透性、水溶液酸碱性、溶解度或极性。

8.根据权利要求7所述的预测方法，其特征在于所述C-Transformer中对结构约束的损失函数公式如下：

9.根据权利要求5-8任一项所述的预测方法，其特征在于还包括对经分子生成模型生成的先导活性分子通过合成先导活性分子并进行属性或活性测试的方法进行进一步筛选或使用筛选模型进行进一步筛选。

10.根据权利要求9所述的预测方法，其特征在于所述筛选模型选自GCN、MPNN、DMPNN、MDAM-sum、MDAM-cat、Transformer based models、CMPNN、Weave、CoMPT、ChemBERTa、MolBERT、Random Forests、Gradient Boosting、XG-Boost或MDAM。

11.一种生物活性分子，其特征在于采用权利要求5-10任一项所述的方法预测得到。

12.一种基于PROTAC的活性分子设计方法，其特征在于采用权利要求9或10所述方法，通过对靶蛋白、E3连接酶以及双功能小分子片段化数据处理，基于亲和力、物化属性、分子结构以及多维属性多重约束进行筛选或预测，得到先导活性分子。

13.一种生物活性分子，其特征在于具有如下结构：

...

【技术特征摘要】

1.基于aidd的片段化活性分子数据处理方法，其特征在于包括如下步骤：

2.根据权利要求1所述的方法，其特征在于所述序列切分算法选自volt、bpe、、character slicing、recap、brics、根据原子间反应分数切分、emolfrag、fcs、bpe_nlm、macfrag、fg splitting、spe或tree decomposition，所述步骤(3)分子片段表征提取方法选自word2vec、ernie、electra、universal sentence encoder、bag of words、tf-idf、n-gram、glove、bert、gpt、elmo或transformer。

3.一种活性分子片段的亲和力预测方法，其特征在于采用权利要求1或2所述的方法获得的活性分子片段的表征输入蛋白-化合物亲和力模型提取相应信息，选择a、b两种活性分子的片段集合代表a、b两组片段，组间两两配对，或同一活性分子片段分为a、b两组，组间两两配对，根据配对片段之间相互作用进行计算，所述蛋白-化合物亲和力模型使用基于预测结果和真实标签的二元交叉熵损失函数对整个网络进行持续优化，最终获得各配对片段的亲和度特征。

4.根据权利要求3所述的方法，其特征在于具体包括如下步骤：

6.根据权利要求5所述的预测方法，其特征在于所述分子生成模型选自gru、lstm、variaational autoencoders、generative adversarial networks、junction treevariational autoencoder、smiles-based models、graphvae、graphgan、reinforcementlearning models、molecular transformer、deepchem models、self-organizing maps、latent space optimization model...

【专利技术属性】
技术研发人员：姚登福，王理，姚敏，邵劲松，
申请(专利权)人：南通大学附属医院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人