System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及人工智能,具体地,涉及一种基于体素化合物和cnn-gam的蛋白质配体亲和力预测方法及系统。
技术介绍
1、准确预测化合物与蛋白质的结合亲和力是虚拟候选药物筛选过程中的主要挑战。利用计算方法进行有效的高通量先导化合物虚拟筛选,可以通过减少研发时间和实验工作量,大大加快药物开发的进程。
2、近年来,深度学习在蛋白质结构领域中有不少应用,但构建的蛋白质序列图结构仅限于平面表示,且较少使用三维模型。
3、在公开号为cn116504310a的中国专利文献中,公开了一种蛋白质亲和力预测方法、装置、电子设备及存储介质,所述方法对蛋白质序列进行编码得到蛋白质字符串表示,并基于蛋白质字符串表示构建蛋白质序列的图结构,在初始化多任务预测模型后,基于蛋白质字符串表示、蛋白质序列的图结构及对应的蛋白质的真实亲和力,对多任务预测模型进行迭代训练,在迭代训练结束时,得到目标多任务预测模型,目标多任务预测模型用于对待测蛋白质序列进行亲和力预测。但该专利文献仅对蛋白质序列进行编码,从而得到蛋白质的字符串表示,并基于此构建蛋白质序列的图结构,这导致所构建的蛋白质序列图结构局限于平面表示;蛋白质均为空间立体结构,仅通过平面模型进行迭代训练后对待测蛋白质序列进行亲和力预测,其准确性与使用三维模型进行分析和预测相比存在显著差距。
技术实现思路
1、针对现有技术中的缺陷,本专利技术的目的是提供一种基于体素化合物和cnn-gam的蛋白质配体亲和力预测方法及系统。
2、根据本专
3、单热编码向量生成步骤:使用训练完毕的模型提取配体和蛋白质的空间特征,体素化后生成对应的单热编码向量;
4、特征提取步骤:基于三维卷积神经网络对配体和蛋白质的单热编码向量进行特征提取,得到提取的特征向量;
5、亲和力预测步骤:基于全局注意机制以及提取的特征向量预测与pki值相关的结合亲和力,输出预测结果。
6、优选的,所述单热编码向量生成步骤包括:
7、步骤s1.0:构建实验模型框架;所述实验模型框架包括三维卷积神经网络和全局注意机制;
8、步骤s1.1:在实验模型框架内配置一种基于结构的数据驱动方法;采用端到端深度学习框架,在假设的蛋白质-配体复合物上进行训练;
9、步骤s1.2:使用设计完毕的数据驱动方法从数据库中获取所需的数据,建立蛋白质与配体间的相互作用模型,提取模型产生的配体化学特征的空间表征;
10、步骤s1.3:结合模型产生的配体空间表征,将配体和蛋白质的性质分别进行体素化处理。
11、优选的,所述步骤s1.2包括通过数据驱动方法在数据库中的蛋白质-配体复合物,以及从已发表研究和蛋白质数据库中获得的相应实验确定的结合亲和力数据的基础上,根据结合测量的结构分辨率和实验精度的质量标准,提取一个用于建立蛋白质与配体之间的相互作用模型的精炼子集。
12、优选的,所述步骤s1.3包括结合模型产生的配体空间表征,将配体和蛋白质的性质分别进行体素化处理;对于每个特征,创建一个立方体网格,并以配体的几何中心为中心;从每个原子的网格位置创建一个体素,并赋予其对应的属性值,使每个体素都生成一个单热编码向量。
13、优选的,所述相互作用模型包括3d-cnn模块和gam模块;将配体和蛋白质的单热编码向量传递到3d-cnn模块中进行特征提取,将提取的特征向量提供给gam模块进行预测与pki值相关的结合亲和力。
14、根据本专利技术提供的一种基于体素化合物和cnn-gam的蛋白质配体亲和力预测系统,包括:
15、单热编码向量生成模块:使用训练完毕的模型提取配体和蛋白质的空间特征,体素化后生成对应的单热编码向量;
16、特征提取模块:基于三维卷积神经网络对配体和蛋白质的单热编码向量进行特征提取,得到提取的特征向量;
17、亲和力预测模块:基于全局注意机制以及提取的特征向量预测与pki值相关的结合亲和力,输出预测结果。
18、优选的,所述单热编码向量生成模块包括:
19、模块m1.0:构建实验模型框架;所述实验模型框架包括三维卷积神经网络和全局注意机制;
20、模块m1.1:在实验模型框架内配置一种基于结构的数据驱动方法;采用端到端深度学习框架,在假设的蛋白质-配体复合物上进行训练;
21、模块m1.2:使用设计完毕的数据驱动方法从数据库中获取所需的数据,建立蛋白质与配体间的相互作用模型,提取模型产生的配体化学特征的空间表征;
22、模块m1.3:结合模型产生的配体空间表征,将配体和蛋白质的性质分别进行体素化处理。
23、优选的,所述模块m1.2包括通过数据驱动方法在数据库中的蛋白质-配体复合物,以及从已发表研究和蛋白质数据库中获得的相应实验确定的结合亲和力数据的基础上,根据结合测量的结构分辨率和实验精度的质量标准,提取一个用于建立蛋白质与配体之间的相互作用模型的精炼子集。
24、优选的,所述模块m1.3包括结合模型产生的配体空间表征,将配体和蛋白质的性质分别进行体素化处理;对于每个特征,创建一个立方体网格,并以配体的几何中心为中心;从每个原子的网格位置创建一个体素,并赋予其对应的属性值,使每个体素都生成一个单热编码向量。
25、优选的,所述相互作用模型包括3d-cnn模块和gam模块;将配体和蛋白质的单热编码向量传递到3d-cnn模块中进行特征提取,将提取的特征向量提供给gam模块进行预测与pki值相关的结合亲和力。
26、与现有技术相比,本专利技术具有如下的有益效果:
27、1、本专利技术基于cnn和gam的三维体素化合物在蛋白质-配体亲和力预测中的应用研究,通过采用三维卷积神经网络(3d-cnn)和全局注意力机制(gam)架构,增强了模型捕捉复杂相互作用的能力。
28、2、本专利技术利用pdbbind-2019数据集对不同模型的预测精度进行评估,验证了该方法在完全数据驱动的情况下,显著优于现有的深度学习、机器学习和传统评分算法,而无需进行先验的功能形式假设,具备较好的实用性。
29、3、本专利技术提供的方法不仅解决了计算药物开发、药物虚拟筛选和再利用过程中蛋白质与配体亲和力预测的问题,还显著提升了化合物空间结构预测的精度,具备较好的应用前景。
30、本专利技术的其他有益效果,将在具体实施方式中通过具体技术特征和技术方案的介绍来阐述,本领域技术人员通过这些技术特征和技术方案的介绍,应能理解所述技术特征和技术方案带来的有益技术效果。
本文档来自技高网...【技术保护点】
1.一种基于体素化合物和CNN-GAM的蛋白质配体亲和力预测方法,其特征在于,包括:
2.根据权利要求1所述的基于体素化合物和CNN-GAM的蛋白质配体亲和力预测方法,其特征在于,所述单热编码向量生成步骤包括:
3.根据权利要求2所述的基于体素化合物和CNN-GAM的蛋白质配体亲和力预测方法,其特征在于,所述步骤S1.2包括通过数据驱动方法在数据库中的蛋白质-配体复合物,以及从已发表研究和蛋白质数据库中获得的相应实验确定的结合亲和力数据的基础上,根据结合测量的结构分辨率和实验精度的质量标准,提取一个用于建立蛋白质与配体之间的相互作用模型的精炼子集。
4.根据权利要求2所述的基于体素化合物和CNN-GAM的蛋白质配体亲和力预测方法,其特征在于,所述步骤S1.3包括结合模型产生的配体空间表征,将配体和蛋白质的性质分别进行体素化处理;对于每个特征,创建一个立方体网格,并以配体的几何中心为中心;从每个原子的网格位置创建一个体素,并赋予其对应的属性值,使每个体素都生成一个单热编码向量。
5.根据权利要求3所述的基于体素化合物和CNN-GAM的
6.一种基于体素化合物和CNN-GAM的蛋白质配体亲和力预测系统,其特征在于,包括:
7.根据权利要求6所述的基于体素化合物和CNN-GAM的蛋白质配体亲和力预测系统,其特征在于,所述单热编码向量生成模块包括:
8.根据权利要求7所述的基于体素化合物和CNN-GAM的蛋白质配体亲和力预测系统,其特征在于,所述模块M1.2包括通过数据驱动方法在数据库中的蛋白质-配体复合物,以及从已发表研究和蛋白质数据库中获得的相应实验确定的结合亲和力数据的基础上,根据结合测量的结构分辨率和实验精度的质量标准,提取一个用于建立蛋白质与配体之间的相互作用模型的精炼子集。
9.根据权利要求7所述的基于体素化合物和CNN-GAM的蛋白质配体亲和力预测系统,其特征在于,所述模块M1.3包括结合模型产生的配体空间表征,将配体和蛋白质的性质分别进行体素化处理;对于每个特征,创建一个立方体网格,并以配体的几何中心为中心;从每个原子的网格位置创建一个体素,并赋予其对应的属性值,使每个体素都生成一个单热编码向量。
10.根据权利要求8所述的基于体素化合物和CNN-GAM的蛋白质配体亲和力预测方法,其特征在于,所述相互作用模型包括3D-CNN模块和GAM模块;将配体和蛋白质的单热编码向量传递到3D-CNN模块中进行特征提取,将提取的特征向量提供给GAM模块进行预测与pKi值相关的结合亲和力。
...【技术特征摘要】
1.一种基于体素化合物和cnn-gam的蛋白质配体亲和力预测方法,其特征在于,包括:
2.根据权利要求1所述的基于体素化合物和cnn-gam的蛋白质配体亲和力预测方法,其特征在于,所述单热编码向量生成步骤包括:
3.根据权利要求2所述的基于体素化合物和cnn-gam的蛋白质配体亲和力预测方法,其特征在于,所述步骤s1.2包括通过数据驱动方法在数据库中的蛋白质-配体复合物,以及从已发表研究和蛋白质数据库中获得的相应实验确定的结合亲和力数据的基础上,根据结合测量的结构分辨率和实验精度的质量标准,提取一个用于建立蛋白质与配体之间的相互作用模型的精炼子集。
4.根据权利要求2所述的基于体素化合物和cnn-gam的蛋白质配体亲和力预测方法,其特征在于,所述步骤s1.3包括结合模型产生的配体空间表征,将配体和蛋白质的性质分别进行体素化处理;对于每个特征,创建一个立方体网格,并以配体的几何中心为中心;从每个原子的网格位置创建一个体素,并赋予其对应的属性值,使每个体素都生成一个单热编码向量。
5.根据权利要求3所述的基于体素化合物和cnn-gam的蛋白质配体亲和力预测方法,其特征在于,所述相互作用模型包括3d-cnn模块和gam模块;将配体和蛋白质的单热编码向量传递到3d-cnn模块中进行特征提取,将提取的特征向量提供给gam模块进行预测与pki值相关的结合亲和力。
...【专利技术属性】
技术研发人员:赵长金,太兴尧,陈天强,李改莉,
申请(专利权)人:申联生物医药上海股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。