MHC类分子与多肽亲和力预测数据的处理方法和装置制造方法及图纸

技术编号:38129875 阅读:16 留言:0更新日期:2023-07-08 09:36
本发明专利技术实施例涉及一种MHC类分子与多肽亲和力预测数据的处理方法和装置,所述方法包括:接收分子序列;使用蛋白质预训练模型进行氨基酸序列特征编码生成第一特征张量;使用Uni

【技术实现步骤摘要】
MHC类分子与多肽亲和力预测数据的处理方法和装置


[0001]本专利技术涉及数据处理
,特别涉及一种MHC类分子与多肽亲和力预测数据的处理方法和装置。

技术介绍

[0002]主要组织相容性复合体(major histocompatibility complex,MHC)是指存在于脊椎动物某一染色体上的一组紧密连锁的基因群,人类白细胞抗原(human leukocyte antigen,HLA)是人类MHC的表达产物,HLA与特异性免疫应答的发生密切相关。
[0003]MHCI类分子(MHC class I molecule)是由一条MHCI类基因编码的重链(α链)和一条非MHCI类基因编码的轻链(β2微球蛋白)通过二硫键形成的异源二聚体分子。MHCII类分子(MHC class II molecule)是由两条多肽链组成,分别称为α链和β链;与I类分子不同的是,II类分子的两条链均为HLA基因编码。在T细胞介导的免疫应答中MHCI类和MHCII类分子与多肽的结合是必不可少的步骤:MHCI类分子主要呈递内源性抗原给CD8+T细胞,MHCII类分子则主要呈递外源性抗原给CD4+T细胞,MHCI类和MHCII类分子与多肽的亲和力可以影响T细胞免疫应答的效果和强度。因此,研究MHCI类和MHCII类分子与多肽的亲和力具有重要意义。
[0004]MHCI类和MHCII类分子与多肽的亲和力研究包括两个研究部分:1)对MHCI类和MHCII类分子与多肽是否完成正确结合进行分析;2)对MHCI类和MHCII类分子与多肽的结合请强度进行分析。目前,常用的实验方法包括结晶学、核磁共振、表面等离子共振等,这些方法虽然能够提供高分辨率的结构信息,但其复杂的样品制备和结构分析过程使得这些常规实验方法很难较好地完成上述分析任务。

技术实现思路

[0005]本专利技术的目的,就是针对现有技术的缺陷,提供一种MHC类分子与多肽亲和力预测数据的处理方法、装置、电子设备及计算机可读存储介质,使用蛋白质预训练模型对包括了MHC类分子与多肽的分子序列进行氨基酸序列特征编码得到对应的第一特征张量,并使用Uni

Fold微调模型对分子序列进行三维结构预测得到生成对应的三维结构,并在预测处理过程中将Uni

Fold微调模型的指定模块输出张量提取出来组成对应的第二特征张量,并对三维结构中MHC类分子与多肽的氢键、盐桥、范德华作用力、电荷特征、相对溶剂可接触表面积和二级结构特征进行提取生成对应的第三特征张量,并基于张量拼接方式对第一、第二和第三特征张量进行多模态特征融合;并使用亲和力预测模型根据融合特征对分子序列中MHC类分子与多肽的结合状态进行预测;并根据预测结果对三维结构进行结构优化。通过本专利技术基于人工智能算法模型的预测方式,一方面可在常规实验方法之外新增一种技术方案用于对MHCI类和MHCII类分子与多肽的亲和力进行研究,达到降低该类研究操作复杂度的目的;另一方面,还能基于预测结果对三维结构进行优化。
[0006]为实现上述目的,本专利技术实施例第一方面提供了一种MHC类分子与多肽亲和力预
测数据的处理方法,所述方法包括:
[0007]接收第一分子序列;所述第一分子序列包括MHC类分子与多肽的分子序列;所述MHC类分子包括MHCI类分子和MHCII类分子;
[0008]使用预设的蛋白质预训练模型对所述第一分子序列进行氨基酸序列特征编码处理生成对应的第一特征张量;并使用预设的Uni

Fold微调模型对所述第一分子序列进行三维结构预测处理生成对应的第一三维结构;并在三维结构预测处理过程中将所述Uni

Fold微调模型的指定模块输出张量提取出来组成对应的第二特征张量;并对所述第一三维结构中的所述MHC类分子与所述多肽的氢键、盐桥、范德华作用力、电荷特征、相对溶剂可接触表面积和二级结构特征进行提取生成对应的第三特征张量;并对所述第一、第二和第三特征张量进行特征张量拼接生成对应的第一融合张量;
[0009]使用预设的亲和力预测模型根据所述第一融合张量对所述MHC类分子与所述多肽的结合状态进行预测处理生成对应的第一预测向量;并根据所述第一预测向量对所述第一三维结构进行优化处理;所述第一预测向量包括第一结合概率和第一未结合概率;所述第一结合概率为所述MHC类分子与所述多肽结合的预测概率;所述第一未结合概率为所述MHC类分子与所述多肽未结合的预测概率。
[0010]优选的,所述蛋白质预训练模型包括ESM2模型,ESM

1b模型,ESM

1v模型,ESM

IF1模型和protBERT模型;
[0011]所述Uni

Fold微调模型为基于Uni

Fold模型的微调模型;所述Uni

Fold微调模型包括Evoformer网络和Structure模块,所述Evoformer网络的输出张量为所述Structure模块的输入张量;
[0012]所述亲和力预测模型包括Transformer模型和预测神经网络。
[0013]优选的,所述在三维结构预测处理过程中将所述Uni

Fold微调模型的指定模块输出张量提取出来组成对应的第二特征张量,具体包括:
[0014]在三维结构预测处理过程中,将所述Uni

Fold微调模型的所述Evoformer网络和所述Structure模块的输出张量提取出来作为对应的第一、第二提取张量;并由所述第一、第二提取张量组成对应的所述第二特征张量。
[0015]优选的,所述对所述第一三维结构中的所述MHC类分子与所述多肽的氢键、盐桥、范德华作用力、电荷特征、相对溶剂可接触表面积和二级结构特征进行提取生成对应的第三特征张量,具体包括:
[0016]对所述第一三维结构中的所述MHC类分子与所述多肽间的氢键作用力进行计算生成对应的第一子特征张量;并对所述第一三维结构中的所述MHC类分子与所述多肽间的盐桥作用力进行计算生成对应的第二子特征张量;并对所述第一三维结构中的所述MHC类分子与所述多肽间的范德华作用力进行计算生成对应的第三子特征张量;并对所述第一三维结构中的所述MHC类分子与所述多肽的电荷特征进行提取得到对应的第四子特征张量;并对所述第一三维结构中的所述MHC类分子与所述多肽的相对溶剂可接触表面积特征进行提取得到对应的第五子特征张量;并对所述第一三维结构中的所述MHC类分子与所述多肽的二级结构特征进行提取得到对应的第六子特征张量;并由得到的所述第一、第二、第三、第四、第五和第六子特征张量组成对应的所述第三特征张量。
[0017]优选的,所述使用预设的亲和力预测模型根据所述第一融合张量对所述MHC类分
子与所述多肽的结合状态进行预测处理生成对应的第一预测向量,具体包括:
[0018]将所述第一融合张量输入所述亲和力预测模型本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种MHC类分子与多肽亲和力预测数据的处理方法,其特征在于,所述方法包括:接收第一分子序列;所述第一分子序列包括MHC类分子与多肽的分子序列;所述MHC类分子包括MHCI类分子和MHCII类分子;使用预设的蛋白质预训练模型对所述第一分子序列进行氨基酸序列特征编码处理生成对应的第一特征张量;并使用预设的Uni

Fold微调模型对所述第一分子序列进行三维结构预测处理生成对应的第一三维结构;并在三维结构预测处理过程中将所述Uni

Fold微调模型的指定模块输出张量提取出来组成对应的第二特征张量;并对所述第一三维结构中的所述MHC类分子与所述多肽的氢键、盐桥、范德华作用力、电荷特征、相对溶剂可接触表面积和二级结构特征进行提取生成对应的第三特征张量;并对所述第一、第二和第三特征张量进行特征张量拼接生成对应的第一融合张量;使用预设的亲和力预测模型根据所述第一融合张量对所述MHC类分子与所述多肽的结合状态进行预测处理生成对应的第一预测向量;并根据所述第一预测向量对所述第一三维结构进行优化处理;所述第一预测向量包括第一结合概率和第一未结合概率;所述第一结合概率为所述MHC类分子与所述多肽结合的预测概率;所述第一未结合概率为所述MHC类分子与所述多肽未结合的预测概率。2.根据权利要求1所述的MHC类分子与多肽亲和力预测数据的处理方法,其特征在于,所述蛋白质预训练模型包括ESM2模型,ESM

1b模型,ESM

1v模型,ESM

IF1模型和protBERT模型;所述Uni

Fold微调模型为基于Uni

Fold模型的微调模型;所述Uni

Fold微调模型包括Evoformer网络和Structure模块,所述Evoformer网络的输出张量为所述Structure模块的输入张量;所述亲和力预测模型包括Transformer模型和预测神经网络。3.根据权利要求2所述的MHC类分子与多肽亲和力预测数据的处理方法,其特征在于,所述在三维结构预测处理过程中将所述Uni

Fold微调模型的指定模块输出张量提取出来组成对应的第二特征张量,具体包括:在三维结构预测处理过程中,将所述Uni

Fold微调模型的所述Evoformer网络和所述Structure模块的输出张量提取出来作为对应的第一、第二提取张量;并由所述第一、第二提取张量组成对应的所述第二特征张量。4.根据权利要求1所述的MHC类分子与多肽亲和力预测数据的处理方法,其特征在于,所述对所述第一三维结构中的所述MHC类分子与所述多肽的氢键、盐桥、范德华作用力、电荷特征、相对溶剂可接触表面积和二级结构特征进行提取生成对应的第三特征张量,具体包括:对所述第一三维结构中的所述MHC类分子与所述多肽间的氢键作用力进行计算生成对应的第一子特征张量;并对所述第一三维结构中的所述MHC类分子与所述多肽间的盐桥作用力进行计算生成对应的第二子特征张量;并对所述第一三维结构中的所述MHC类分子与所述多肽间的范德华作用力进行计算生成对应的第三子特征张量;并对所述第一三维结构中的所述MHC类分子与所述多肽的电荷特征进行提取得到对应的第四子特征张量;并对所述第一三维结构中的所述MHC类分子与所述多肽的相对溶剂可接触表面积特征进行提取得到对应的第五子特征张量;并对所述第一三维结构中的所述MHC类分子与所述多肽的二级
结构特征进行提取得到对应的第六子特征张量;并由得到的所述第一、第二、第三、第四、第五和第六子特征张量组成对应的所述第三特征张量...

【专利技术属性】
技术研发人员:温翰郭律均李永歌张林峰孙伟杰
申请(专利权)人:北京深势科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1