基于神经网络的PROTAC分子降解率的预测系统及其构建方法技术方案

技术编号:31738506 阅读:21 留言:0更新日期:2022-01-05 16:16
本发明专利技术公开了一种基于神经网络的PROTAC分子降解率的预测系统及其构建方法。所述神经网络包括:图卷积神经网络、加和池化层、全连接层、节点嵌入层、嵌入层和双向长短期记忆层;所述PROTAC分子包括靶蛋白配体、泛素连接酶配体和连接体;具体内容见正文。本发明专利技术的预测系统克服了由于PROTAC分子构效关系不明确产生的设计困难的问题。应用该预测系统可以获得经过人工智能神经网络筛选的具有预测的良好降解效果的分子,再去合成和进行细胞实验,有利于提高药物研发的成功率,缩短药物研发的周期和降低药物研发的成本。降低药物研发的成本。

【技术实现步骤摘要】
基于神经网络的PROTAC分子降解率的预测系统及其构建方法


[0001]本专利技术属于基于人工智能的药物研发领域,具体涉及一种基于神经网络的PROTAC分子降解率的预测系统及其构建方法,还涉及一种电子设备和一种计算机可读存储介质。

技术介绍

[0002]目前,传统的小分子药物和单克隆抗体的靶标包含400多种与人类疾病相关的蛋白质。其中,这些蛋白质绝大部分都属于酶、转运蛋白、G蛋白偶联受体、离子通道和核受体。小分子药物通过占据这些蛋白质的活性中心来调节它们的生理功能。然而人类致病基因大概有3000多种,这就意味着目前的治疗方法只能处理约13%的蛋白质组,85%的与疾病相关的蛋白质缺乏有效的疗法。多种原因导致了这些蛋白质的不可成药性。蛋白水解靶向嵌合体(Proteolysis Targeting Chimeras,PROTAC)作为一种全新的技术应运而生。PROTAC是一种双功能异质分子,它包含三个部分:靶蛋白配体、中间的连接体和E3泛素连接酶配体。它能将靶蛋白和E3泛素连接酶结合在一起形成三元复合物,从而将泛素转移到靶蛋白暴露的赖氨酸上。被打上泛素标记的靶蛋白会被26S蛋白酶体识别并降解为氨基酸和多肽。相比于传统药物,PROTAC的一个最大优点就是可以将不可成药的蛋白作为它的靶标。PROTAC的靶蛋白配体不需要抑制蛋白质的催化活性中心或者结合在蛋白

蛋白互作界面上,它只需要在靶蛋白的任一位点上有一定程度的结合即可。除此以外,PROTAC还拥有很多优于传统药物的特点:PROTAC对靶蛋白的清除有利于抑制靶蛋白积聚;PROTAC介导的蛋白降解对突变或者过表达的靶蛋白有很好的耐受性;由PROTAC引起的蛋白降解属于催化过程,可以避免高剂量药物所带来的毒副作用;即使存在高亲和力的配体或者结合伴侣,PROTAC也能实现对靶蛋白的降解(三元复合物的形成仅需维持片刻即可完成泛素转移)。
[0003]近年来,人工智能(Artificial Intelligence,AI)尤其是机器学习在药物发现和药物设计领域具有广泛的应用。众所周知,在全球医疗领域,药物研发的成功率是非常低的。而AI可以推动由数据驱动的决策过程,加速药物研发的进程同时减少研发失败的概率。AI往往需要大量高质量的数据来做出准确预测,并且随着大数据时代的来临,机器学习的方法越来越多地进化发展成深度学习的方法。这些方法包括卷积神经网络(CNN)、循环神经网络(RNN)、图卷积神经网络(GCN)和对抗式神经网络(GAN)等。同时,计算机硬件的飞速发展也使得运用这些复杂网络对大数据进行处理成为可能。AI的应用可以在实验合成PROTAC分子之前进行一轮虚拟筛选,降低试验成本,提高实验的成功率。然而,由于PROTAC的数据较少,所以尚无AI成功运用在该领域的范例。经过一段时间的积累,2020年PROTAC在线数据库(PROTACs

DB1)的发表为AI的应用提供了契机。该数据库包含了2258个PROTAC分子,275个靶蛋白配体,68个E3配体和1099个连接体。它们的化学结构、生物活性和物化性质也都包括在其中。同时,该数据库还提供了降解能力、结合亲和力和细胞活性等数据,为开展基于深度学习的研究奠定了较好的数据基础。

技术实现思路

[0004]本专利技术所要解决的技术问题是为了克服现有技术中缺少针对降解率有效设计PROTAC分子的方法的缺陷,提供了一种基于神经网络的PROTAC分子降解率的预测系统及其构建方法。所述基于神经网络的PROTAC分子降解率的预测系统基于PyTorch深度学习框架对PROTAC分子进行特征提取,与PROTAC的实验数据关联,在对PROTAC分子的降解率预测中取得较好的预测准确度。
[0005]本专利技术通过以下技术方案解决上述技术问题。
[0006]本专利技术的第一方面提供一种构建基于神经网络的PROTAC分子降解率的预测系统的方法,所述神经网络包括:图卷积神经网络、加和池化层、全连接层、节点嵌入层、嵌入层和双向长短期记忆层;所述PROTAC分子包括靶蛋白配体、泛素连接酶配体和连接体;所述方法包括以下步骤:
[0007](1)将所述靶蛋白配体、所述泛素连接酶配体、与所述靶蛋白配体对应的靶蛋白口袋以及与所述泛素连接酶配体对应的泛素连接酶口袋的节点编码分别作为第一输入进入节点嵌入层,并依次通过图卷积神经网络和加和池化层,分别得到所述靶蛋白配体、所述泛素连接酶配体、所述靶蛋白口袋和所述泛素连接酶口袋的第一输出;所述连接体的编码作为第一输入进入嵌入层,并依次通过双向长短期记忆层和全连接层,得到所述连接体的第一输出;
[0008](2)将步骤(1)中所有的第一输出合并后作为第二输入,并通过全连接层后作为第二输出,得到所述PROTAC分子的降解率;
[0009]所述节点编码是指:将编码对象的化学结构用节点和边进行编码所获得的信息;
[0010]所述靶蛋白口袋是指:靶蛋白中结合所述靶蛋白配体的区域周围的氨基酸残基形成的结构;
[0011]所述泛素连接酶口袋是指:泛素连接酶中结合泛素连接酶配体的区域周围的氨基酸残基形成的结构;
[0012]所述神经网络的激活函数为LeakyReLU函数。
[0013]本专利技术中,所述LeakyReLU函数为修正线性单元。
[0014]本专利技术中,所述LeakyReLU函数的设定可参见Maas等,Rectifier nonlinearities improve neural network acoustic models,Proc.icml.Vol.30.No.1.2013。
[0015]在本专利技术一些实施方案中,步骤(1)中,所述图卷积神经网络(Graph Convolutional Network)的层数为两层或两层以上。
[0016]本专利技术中,所述图卷积神经网络的设定可参见Kipf等,Semi

supervised classification with graph convolutional networks,arXiv preprint arXiv:1609.02907(2016)。
[0017]在本专利技术一些实施方案中,所述加和池化层(Sum Pooling)、节点嵌入层(Node embedding)、嵌入层(Embedding)、双向长短期记忆层(Long Short

term Memory)和所述全连接层(Fully Connected Network)的层数为一层或两层。
[0018]本专利技术中,所述加和池化层的设定可参见Babenko等,Aggregating deep convolutional features for image retrieval,arXiv preprint arXiv:1510.07493(2015)。
[0019]在本专利技术一些实施方案中,所述泛素连接酶配体为E3泛素连接酶配体。
[0020]在本专利技术一些实施方案中,步骤本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种构建基于神经网络的PROTAC分子降解率的预测系统的方法,其特征在于,所述神经网络包括:图卷积神经网络、加和池化层、全连接层、节点嵌入层、嵌入层和双向长短期记忆层;所述PROTAC分子包括靶蛋白配体、泛素连接酶配体和连接体;所述方法包括以下步骤:(1)将所述靶蛋白配体、所述泛素连接酶配体、与所述靶蛋白配体对应的靶蛋白口袋以及与所述泛素连接酶配体对应的泛素连接酶口袋的节点编码分别作为第一输入进入节点嵌入层,并依次通过图卷积神经网络和加和池化层,分别得到所述靶蛋白配体、所述泛素连接酶配体、所述靶蛋白口袋和所述泛素连接酶口袋的第一输出;所述连接体的编码作为第一输入进入嵌入层,并依次通过双向长短期记忆层和全连接层,得到所述连接体的第一输出;(2)将步骤(1)中所有的第一输出合并后作为第二输入,并通过全连接层后作为第二输出,得到所述PROTAC分子的降解率;所述节点编码是指:将编码对象的化学结构用节点和边进行编码所获得的信息;所述靶蛋白口袋是指:靶蛋白中结合所述靶蛋白配体的区域周围的氨基酸残基形成的结构;所述泛素连接酶口袋是指:泛素连接酶中结合泛素连接酶配体的区域周围的氨基酸残基形成的结构;所述神经网络的激活函数为LeakyReLU函数。2.如权利要求1所述的方法,其特征在于,步骤(1)中,所述图卷积神经网络的层数为两层或两层以上;和/或,所述加和池化层、节点嵌入层、嵌入层、双向长短期记忆层和所述全连接层的层数为一层或两层;和/或,所述泛素连接酶配体为E3泛素连接酶配体;和/或,步骤(2)中,所述全连接层的层数为两层或两层以上;较佳地,所述方法还包括步骤(0):获取已知PROTAC分子的靶蛋白配体、泛素连接酶配体、靶蛋白口袋、泛素连接酶口袋和连接体的节点编码;更佳地,所述的节点编码以可读取文本格式进行存储;例如,所述靶蛋白配体和泛素连接酶配体的节点编码通过sdf文件进行存储;所述靶蛋白口袋和所述泛素连接酶口袋的节点编码通过Mol2文件进行存储;和/或,所述连接体的节点编码通过SMILES文件进行存储。3.如权利要求1或2所述的方法,其特征在于,步骤(0)中,通过PROTAC

DB数据库优选Protein Data Bank获取含有靶蛋白配体和泛素连接酶配体的蛋白晶体结构;或者,当Protein Data Bank中没有含有相应配体的靶蛋白或者泛素连接酶的蛋白晶体结构时,则根据具有相似骨架优选相似环状结构的配体的蛋白晶体结构,修改靶蛋白配体或泛素连接酶配体的结构,再进行能量最小化和模拟退火处理,将获得的结构作为含有相应配体的靶蛋白或泛素连接酶的蛋白晶体结构;和/或,所述靶蛋白口袋和泛素连接酶口袋通过软件优选通过PyMol软件提取;较佳地,所述节点编码原子用节点表示,原子之间的化学键用边表示;更佳地,步骤(0)中,获取已知PROTAC分子的靶蛋白口袋、泛素连接酶口袋的节点编码具体包括:将以Mol2文件存储的靶蛋白口袋和泛素连接酶口袋的化学信息进行可视化处理优选以图表示,获得所述靶蛋白口袋和泛素连接酶口袋的节点编码;和/或,步骤(0)中,获
取已知PROTAC分子的靶蛋白配体和泛素连接酶配体的节点编码具体包括:将优选以sdf文件存储的靶蛋白配体和泛素连接酶配体的化学信息进行可视化处理,获得所述靶蛋白配体和泛素连接酶配体的节点编码;进一步更佳地,所述靶蛋白口袋和泛素连接酶口袋的节点编码中,C、N、O、S原子分别用0、1、2、3表示,其他原子用4表示;所述靶蛋白配体和泛素连接酶配体的节点编码中,C、N、O、S、F、Cl、Br、I、P原子分别用0

8表示,其他原子用9表示。4.如权利要求2或3所述的方法,其特征在于,以SMILES文件存储的所述连接体的节点编码通过以下方式获取:根据ZINC数据库的编码表对所述连接体的SMILES文件信息进行编码,获得所述连接体的节点编码;所述编码表是指:将已知的类药分子的SMILES中字符的出现频率进行统计和排序,将出现频率最高的39个字符用1

39进行编码,其余字符用0进行编码;较佳地,字符的编码如下表所示:更佳地,所述方法中,循环轮数为600,批处理大小为1,学习率为0.0001,损失函数为交叉熵函数,优化器为Adam优化器。5.一种基于神经网络的PROTAC分子降解率的预测系统,其特征在于,所述PROTAC分子包括靶蛋白配体、泛素连接酶配体和连接体;所述预测系统包括分步处理模块和合并处理模块;所述分步处理模块用于将所述靶蛋白配体、所述泛素连接酶配体、与所述靶蛋白配体
对应的靶蛋白口袋以及与所述泛素连接酶配体对应的泛素连接酶口袋的节点编码分别...

【专利技术属性】
技术研发人员:白芳高盛华蒋华良李风雷胡乔宇刘壮华
申请(专利权)人:上海科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1