【技术实现步骤摘要】
一种基于蛋白质结构域特征嵌入的肽与MHC I类蛋白亲和力预测方法
[0001]本专利技术涉及肽与MHC I类蛋白亲和力预测
,具体涉及到一种基于蛋白质结构域特征嵌入的肽与MHC I类蛋白亲和力预测方法。
技术介绍
[0002]肽与MHC I类蛋白结合亲和力在肿瘤药物、疫苗研发、免疫性疾病早期诊断、移植排异反应筛查、生物进化学和神经科学中起着至关重要的作用。在肿瘤药物和疫苗研发领域,肽与MHC I类分子结合亲和力的变化可以影响抗原呈递和识别,从而影响肿瘤免疫治疗效果;在免疫性疾病早期诊断和移植排异反应筛查领域,可以通过肽与MHC I类蛋白结合亲和力预测自身免疫疾病肽段,从而对免疫性疾病和移植排异进行诊断;在生物进化学和神经科学中,肽与MHC I类蛋白结合亲和力的变化还会影响神经元和神经胶质细胞的功能和活性,同时帮助更好理解生物进化和免疫适应机制。
[0003]随着新抗原癌症疫苗发展至今,如何有效、准确快速识别出新抗原是人类攻克癌症亟需解决的问题。而有效预测肽与MHC I类分子亲和力是能够有效识别新抗原的基础。伴随着测序技术的快速发展,大量蛋白质序列被测出,大量的测序数据和肿瘤免疫数据已经准备好了数据原料。如何有效利用这些蛋白质的测序数据,构建一套肽与MHC I类分子亲和力预测分析的方法,从而快速精准的识别抗原肽,是所有该领域学者的共性需求。
[0004]已有研究表明,某些肿瘤比其他肿瘤具有更高的突变负荷。因此不同癌症类型的新抗原疫苗诱导的免疫原性反应可能不同。在癌症基因组测序出现前,很难确定每种癌 ...
【技术保护点】
【技术特征摘要】
1.一种基于蛋白质结构域特征嵌入的肽与MHC I类蛋白亲和力预测方法,其特征在于:所述方法包括以下步骤:步骤1、构建蛋白质结构域词符词典;步骤2、将给定MHC I类蛋白唯一表示符(ID),找到其对应的氨基酸序列;步骤3、获取肽序列及MHC I类蛋白结构域序列,并对其进行分词,在获得MHC I类蛋白的氨基酸序列后,对该序列进一步处理,通过hmmscan方法得到MHC I类蛋白所有结构域的起始和终止位置,通过已知的起始和终止位置提取结构域氨基酸序列并依据自主构建的蛋白质结构域词符词典,对这些结构域氨基酸序列分词;步骤4、构建氨基酸词符嵌入模型;步骤5、提取肽序列和MHC I类蛋白氨基酸词符嵌入特征,特征表示为肽和MHC I类蛋白结合嵌入矩阵;步骤6、预测肽与MHC I类蛋白结合亲和力。2.根据权利要求1所述的方法,其特征在于:在步骤1中,统计蛋白质结构域氨基酸序列中出现频率最高的氨基酸序列对,组成氨基酸词符,取出前10000个氨基酸词符组成蛋白质结构域词符词典。3.根据权利要求1所述的方法,其特征在于:在步骤2中,使用免疫表位数据库中的结合亲和力数据,该结合亲和力由半抑制浓度表示,单位为微摩尔,半抑制浓度值转换为0到1区间的数值,计算公式为:其中affinity是实验测得的肽与MHC I类分子结合亲和力。4.根据权利要求1所述的方法,其特征在于:在步骤3中,对肽序列和MHC I类蛋白分子氨基酸序列进行分词,分词基于自主构建的分词词典进行;通过统计蛋白质结构域序列中出现频率最高的氨基酸序列对,组成氨基酸词符,取出前10000个氨基酸词符组成蛋白质结构域词符词典;当取10000个氨基酸词符时,蛋白质结构域词典的词符长度大多为3或4个氨基酸字母的长度;这些蛋白质结构域词符更能适应环境而被保留,能够携带蛋白的演化特征;分词后的序列分别表示为和其中氨基酸词符的上标1表示肽序列,上标2表示MHC I类蛋白氨基酸序列,下标表示氨基酸词符的数量,通过插入特殊词符将他们组合成一个序列:其中[CLS]、[SEP]和[EOS]为特殊词符,分别表示类别符、分隔符和结束符;肽序列和MHC I类蛋白分子氨基酸序列组合后,将其最大组合长度规范为512。5.根据权利要求1所述的方法,其特征在于:在步骤4中,基于Bert模型构建基于蛋白质结构域特征嵌入的肽与MHC I类蛋白亲和力预测模型,该模型通过预训练深度表示Uniprot数据库中的蛋白质氨基酸序列,通过微调模型计算肽序列和MHC I类蛋白特征空间距离表示肽与MHC I类蛋白亲和力;模型采用LAMB优化器,设置优化器的超参数为默认值,即β1=0.9,β2=0.999,∈=1E
‑
8,重量衰减率λ=0.01。
6.根据权利要求1所述的方法,其特征在于:在步骤5中,利用多头注意力机制提取肽与MHC I类蛋白氨基酸序列嵌入特征;给定氨基酸词符向量输入列表X=<x1,x2,
…
x
n
>,每个氨基酸词符向量x
i
首先通过多头注意力机制计算,根据计算出的结果与x
i
上下氨基酸词符的相关性来识别和关注X中的某些位置;根据...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。