基于冷冻电镜与扩散模型的蛋白质结构预测方法技术

技术编号：43887000 阅读：10 留言：0更新日期：2025-01-03 13:03

一种基于冷冻电镜与扩散模型的蛋白质结构预测方法，从冷冻电镜电子密度图中提取出特征点并转化为点云结构，根据点云结构分别通过DAQ模型预测得到对应的氨基酸种类，通过AlphaFold2神经网络对输入氨基酸序列得到一维、二维张量特征并用于训练构造得到的基于条件扩散的去噪神经网络，使其支持冷冻电镜点云结构信息的输入以及电镜信息与序列信息的融合，再以训练后的去噪神经网络配合基于条件扩散的采样过程实现蛋白质骨架结构预测。本发明专利技术依靠冷冻电镜信息给出更精确的预测结构，同时通过扩散模型反映变化构象空间，能够在低质量的预测结构预测样本上提高预测结构精度，同时提高了基于冷冻电镜电子密度图的结构总体预测精度，反映了预测结构构象的变化。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及的是一种蛋白质结构预测领域的技术，具体是一种基于氨基酸序列、冷冻电镜电子密度图与扩散模型的单体蛋白质骨架结构预测方法。

技术介绍

1、目前主流蛋白质结构预测方法仅依赖氨基酸序列，需要进行数据库搜索，找到多序列比对与模板信息，精度在信息不足时会严重下降。

技术实现思路

1、本专利技术针对现有技术存在的上述不足，提出一种基于冷冻电镜与扩散模型的蛋白质结构预测方法，依靠冷冻电镜信息给出更精确的预测结构，同时通过扩散模型反映变化构象空间，能够在低质量的预测结构预测样本上提高预测结构精度，同时提高了基于冷冻电镜电子密度图的结构总体预测精度，反映了预测结构构象的变化。

2、本专利技术是通过以下技术方案实现的：

3、本专利技术涉及一种基于冷冻电镜与扩散模型的蛋白质结构预测方法，从冷冻电镜电子密度图中提取出特征点并转化为点云结构，根据点云结构分别通过daq模型预测得到对应的氨基酸种类，通过alphafold2神经网络对输入氨基酸序列得到一维、二维张量特征并用于训练构造得到的基于条件扩散的去噪神经网络，使其支持冷冻电镜点云结构信息的输入以及电镜信息与序列信息的融合，再以训练后的去噪神经网络配合基于条件扩散的采样过程实现蛋白质骨架结构预测。

4、所述的特征点，通过对冷冻电镜电子密度图进行聚类计算获取得到，具体为：对冷冻电镜电子密度图通过给定阈值进行滤波，将体素尺寸缩放至后，将处理电子密度图通过meanshift++聚类算法进行聚类，取各类的类中心点作为

5、所述的氨基酸种类，利用已训练的daq模型根据点云结构预测得到，具体为：将冷冻电镜电子密度图输入训练好的daq神经网络，获取各个体素处所属氨基酸种类的概率后，将电子密度图特征点的各个点坐标对应到此氨基酸种类分布中，得到各个特征点的氨基酸种类分布，取最大概率的氨基酸种类作为其预测氨基酸种类。

6、所述的daq模型，采用但不限于terashi，g.等在《residue-wise local qualityestimation for protein models from cryo-em maps》(nature methods，19(9)，pp.1116-1125)中记载的技术实现。

7、所述的一维、二维张量特征是指：将蛋白质氨基酸序列输入alphafold2神经网络，从其结果中提取其网络结构evoformer输出的一维、二维特征，其中一维特征形式为n×384张量，二维特征形式为n×n×128张量，n为氨基酸序列长度。

8、所述的alphafold2神经网络，采用但不限于jumper，j.等在《highlyaccurateprotein structure prediction withalphafold》(nature，596(7873)，pp.583-589)中记载的技术实现。

9、所述的基于条件扩散的去噪神经网络基于ddpm扩散形式，设置最大时间步数为t＝100，采用余弦时间表[α1，α2，…，αn]，根据输入的n×1的氨基酸序列、n×3噪声cα碳原子坐标xt、常量时间步t、n×3冷冻电镜特征点坐标、n×1冷冻电镜特征点氨基酸种类、n×384序列对应的alphafold2一维特征以及n×n×128序列对应的alphafold2二维特征，预测得到n×3去噪后cα碳原子坐标其中：n为蛋白质氨基酸序列长度，xi为第i个cα碳原子坐标的三维坐标，包含(x，y，z)三轴对应坐标，该去噪神经网络在训练过程中根据输入的含噪声蛋白质cα碳原子坐标，预测所添加的坐标噪声；在采样过程中根据初始化的随机噪声逐步去噪得到无噪声的精确蛋白质cα碳原子坐标。

10、所述的训练过程具体为：从时间步范围[1，t]内随机采样得时间步t，根据加噪公式得位于时间步t的噪声坐标为∈t为n×3的标准高斯噪声，将噪声坐标为xt、时间步t以及与t无关的冷冻电镜特征点坐标、冷冻电镜特征点氨基酸种类、alphafold2一维、二维特征作为条件共同输入去噪神经网络，得到其输出计算预估噪声设损失函数为其具体形式为各个cα碳原子的坐标差平方，与常用蛋白质结构距离计算指标rmsd相同，通过最小化损失函数并完成梯度反向传播实现去噪神经网络的参数更新，经多次重复更新实现训练。

11、所述的基于条件扩散的采样过程具体为：初始化蛋白质cα碳原子坐标为xt，其中xt为n×3的标准高斯噪声。从t＝t开始，将噪声坐标为xt、时间步t以及与t无关的冷冻电镜特征点坐标、冷冻电镜特征点氨基酸种类、alphafold2一维、二维特征作为条件共同输入去噪神经网络，得到其输出计算预估噪声并计算t-1的噪声坐标为其中z为n×3的标准高斯噪声，此后令t＝t-1，重复上述过程直至t＝0，x0即为最终采样得到的蛋白质cα碳原子坐标。

12、所述的训练过程和采样过程中对cα碳原子坐标x中的每一个三轴坐标值均独立进行计算。

13、所述的去噪神经网络包括：依次串联的特征嵌入子网络、特征融合子网络和结构构建子网络，其中：特征嵌入子网络根据输入的n×1的氨基酸序列、n×3噪声cα碳原子坐标xt、常量时间步t、n×3冷冻电镜特征点坐标、n×1冷冻电镜特征点氨基酸种类、n×384序列对应的alphafold2一维特征以及n×n×128序列对应的alphafold2二维特征，得到嵌入后n×384一维特征，n×n×128二维特征，n×n×128冷冻电镜特征，n×n×128相关性特征；特征融合子网络根据输入的n×384一维特征，n×n×128二维特征，n×n×128冷冻电镜特征，n×n×128相关性特征，通过修改后的alphafold2中evoformer结构将这四种特征进行融合更新，得到与输入维度完全相同的四种更新后特征，经重复更新两次得到最终的四种更新特征；结构构建子网络根据输入的特征融合子网络更新后的n×384一维特征与n×n×128二维特征，以及噪声cα碳原子坐标xt，以xt为坐标初始化输出坐标，通过对一维特征、二维特征完成坐标与特征的更新，重复循环四次，输出最终的去噪后cα碳原子坐标

14、所述的n×1的氨基酸序列与时间步t，对于氨基酸序列通过正弦编码方法对各个氨基酸的索引号、氨基酸种类进行编码得到两个n×384编码，对于时间步t进行正弦编码得到1×384编码并将拓展到n×384，通过线性层与层范数完成融合这三个编码得到氨基酸序列特征，此特征与alphafold2一维特征通过线性层与层范数进行融合得到一维特征；输入噪声cα碳原子坐标xt，基于两两点之间的空间距离、各个氨基酸的索引号关系得到两个n×n×128编码，通过线性层与层范数完成融合得到初步二维特征，此特征与alphafold2二维特征通过线性层与层范数进行融合得到二维特征；输入冷冻电镜特征点坐标，通过两两点之本文档来自技高网...

【技术保护点】

1.一种基于冷冻电镜与扩散模型的蛋白质结构预测方法，其特征在于，从冷冻电镜电子密度图中提取出特征点并转化为点云结构，根据点云结构分别通过DAQ模型预测得到对应的氨基酸种类，通过AlphaFold2神经网络对输入氨基酸序列得到一维、二维张量特征并用于训练构造得到的基于条件扩散的去噪神经网络，使其支持冷冻电镜点云结构信息的输入以及电镜信息与序列信息的融合，再以训练后的去噪神经网络配合基于条件扩散的采样过程实现蛋白质骨架结构预测；

2.根据权利要求1所述的基于冷冻电镜与扩散模型的蛋白质结构预测方法，其特征是，所述的特征点，通过对冷冻电镜电子密度图进行聚类计算获取得到，具体为：对冷冻电镜电子密度图通过给定阈值进行滤波，将体素尺寸缩放至后，将处理电子密度图通过MeanShift++聚类算法进行聚类，取各类的类中心点作为特征点，记录其坐标以点云形式表示，其形式为M×3张量，M为所提取到的特征点个数后，对此点云进行最远点采样，将其降采样至N×3点云形式张量，N为氨基酸序列的长度。

3.根据权利要求1所述的基于冷冻电镜与扩散模型的蛋白质结构预测方法，其特征是，所述的氨基酸

4.根据权利要求1所述的基于冷冻电镜与扩散模型的蛋白质结构预测方法，其特征是，所述的一维、二维张量特征是指：将蛋白质氨基酸序列输入AlphaFold2神经网络，从其结果中提取其网络结构EvoFormer输出的一维、二维特征，其中一维特征形式为N×384张量，二维特征形式为N×N×128张量，N为氨基酸序列长度。

5.根据权利要求1所述的基于冷冻电镜与扩散模型的蛋白质结构预测方法，其特征是，所述的训练过程具体为：从时间步范围[1，T]内随机采样得时间步t，根据加噪公式得位于时间步t的噪声坐标为∈t为N×3的标准高斯噪声，将噪声坐标为xt、时间步t以及与t无关的冷冻电镜特征点坐标、冷冻电镜特征点氨基酸种类、AlphaFold2一维、二维特征作为条件共同输入去噪神经网络，得到其输出计算预估噪声设损失函数为其具体形式为各个Cα碳原子的坐标差平方，与常用蛋白质结构距离计算指标RMSD相同，通过最小化损失函数并完成梯度反向传播实现去噪神经网络的参数更新，经多次重复更新实现训练。

6.根据权利要求1所述的基于冷冻电镜与扩散模型的蛋白质结构预测方法，其特征是，所述的基于条件扩散的采样过程具体为：初始化蛋白质Cα碳原子坐标为xT，其中xT为N×3的标准高斯噪声，从t＝T开始，将噪声坐标为xt、时间步t以及与t无关的冷冻电镜特征点坐标、冷冻电镜特征点氨基酸种类、AlphaFold2一维、二维特征作为条件共同输入去噪神经网络，得到其输出计算预估噪声并计算t-1的噪声坐标为其中z为N×3的标准高斯噪声，此后令t＝t-1，重复上述过程直至t＝0，x0即为最终采样得到的蛋白质Cα碳原子坐标。

7.根据权利要求1所述的基于冷冻电镜与扩散模型的蛋白质结构预测方法，其特征是，所述的基于条件扩散的去噪神经网络基于DDPM扩散形式，设置最大时间步数为T＝100，采用余弦时间表[α1，α2，…，αN]，根据输入的N×1的氨基酸序列、N×3噪声Cα碳原子坐标xt、常量时间步t、N×3冷冻电镜特征点坐标、N×1冷冻电镜特征点氨基酸种类、N×384序列对应的AlphaFold2一维特征以及N×N×128序列对应的AlphaFold2二维特征，预测得到N×3去噪后Cα碳原子坐标其中：N为蛋白质氨基酸序列长度，xi为第i个Cα碳原子坐标的三维坐标，包含(x，y，z)三轴对应坐标。

8.根据权利要求1所述的基于冷冻电镜与扩散模型的蛋白质结构预测方法，其特征是，所述的去噪神经网络包括：依次串联的特征嵌入子网络、特征融合子网络和结构构建子网络，其中：特征嵌入子网络根据输入的N×1的氨基酸序列、N×3噪声Cα碳原子坐标xt、常量时间步t、N×3冷冻电镜特征点坐标、N×1冷冻电镜特征点氨基酸种类、N×384序列对应的AlphaFold2一维特征以及N×N×128序列对应的AlphaFold2二维特征，得到嵌入后N×384一维特征，N×N×128二维特征，N×N×128冷冻电镜特征，N×N×128相关性特征；特征融合子网络根据输入的N×384一维特征，N×N×128二维特征，N×N×128冷冻电镜特征，N×N×128相关性特征，通过修改后的AlphaFold2中EvoForm...

【技术特征摘要】

1.一种基于冷冻电镜与扩散模型的蛋白质结构预测方法，其特征在于，从冷冻电镜电子密度图中提取出特征点并转化为点云结构，根据点云结构分别通过daq模型预测得到对应的氨基酸种类，通过alphafold2神经网络对输入氨基酸序列得到一维、二维张量特征并用于训练构造得到的基于条件扩散的去噪神经网络，使其支持冷冻电镜点云结构信息的输入以及电镜信息与序列信息的融合，再以训练后的去噪神经网络配合基于条件扩散的采样过程实现蛋白质骨架结构预测；

2.根据权利要求1所述的基于冷冻电镜与扩散模型的蛋白质结构预测方法，其特征是，所述的特征点，通过对冷冻电镜电子密度图进行聚类计算获取得到，具体为：对冷冻电镜电子密度图通过给定阈值进行滤波，将体素尺寸缩放至后，将处理电子密度图通过meanshift++聚类算法进行聚类，取各类的类中心点作为特征点，记录其坐标以点云形式表示，其形式为m×3张量，m为所提取到的特征点个数后，对此点云进行最远点采样，将其降采样至n×3点云形式张量，n为氨基酸序列的长度。

3.根据权利要求1所述的基于冷冻电镜与扩散模型的蛋白质结构预测方法，其特征是，所述的氨基酸种类，利用已训练的daq模型根据点云结构预测得到，具体为：将冷冻电镜电子密度图输入训练好的daq神经网络，获取各个体素处所属氨基酸种类的概率后，将电子密度图特征点的各个点坐标对应到此氨基酸种类分布中，得到各个特征点的氨基酸种类分布，取最大概率的氨基酸种类作为其预测氨基酸种类。

4.根据权利要求1所述的基于冷冻电镜与扩散模型的蛋白质结构预测方法，其特征是，所述的一维、二维张量特征是指：将蛋白质氨基酸序列输入alphafold2神经网络，从其结果中提取其网络结构evoformer输出的一维、二维特征，其中一维特征形式为n×384张量，二维特征形式为n×n×128张量，n为氨基酸序列长度。

5.根据权利要求1所述的基于冷冻电镜与扩散模型的蛋白质结构预测方法，其特征是，所述的训练过程具体为：从时间步范围[1，t]内随机采样得时间步t，根据加噪公式得位于时间步t的噪声坐标为∈t为n×3的标准高斯噪声，将噪声坐标为xt、时间步t以及与t无关的冷冻电镜特征点坐标、冷冻电镜特征点氨基酸种类、alphafold2一维、二维特征作为条件共同输入去噪神经网络，得到其输出计算预估噪声设损失函数为其具体形式为各个cα碳原子的坐标差平方，与常用蛋白质结构距离计算指标rmsd相同，通过最小化损失函数并完成梯度反向传播实现去噪神经网络的参数更新，经多次重复更新实现训练。

6.根据权利要求1所述的基于冷冻电镜与扩散模型的蛋白质结构预测方法，其特征是，所述的基于条件扩散的采样过程具体为：初始化蛋白质cα碳原子坐标为xt，其中xt为n×3的标准高斯噪声，从t＝t开始，将噪声坐标为xt、时间步t以及与t无关的冷冻电镜特征点坐标、冷冻电镜特征点氨基酸种类、alphafold2一维、二维特征作为条件共同输入去噪神经网络，得到其输出计算预估噪声并计算t-1的噪声坐标为其中z为n×3的标准高斯噪声，此后令t＝t-1，重复上述过程直至t＝0，x0即为最终采样得到的蛋白质cα碳原子坐标。

7.根据权利要求1所述的基于冷冻电镜与扩散模型的蛋白质结构预测方法，其特征是，所述的基于条件扩散的去噪神经网络基于ddpm扩散形式，设置最大时间步...

【专利技术属性】
技术研发人员：陈宇轩，沈红斌，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人