对新表位的主要组织相容性复合物(MHC)-肽结合预测的改进方法和系统技术方案

技术编号：43616198 阅读：22 留言：0更新日期：2024-12-11 14:58

提供了使用递归神经网络编码器和注意力加权来改进对新表位的主要组织相容性复合物(MHC)‑肽结合预测的方法和系统。提供了用于预测MHC‑肽结合亲和力的技术。获得多个训练肽序列，并且使用训练肽序列训练神经网络模型以预测MHC‑肽结合亲和力。包括RNN的神经网络模型的编码器被配置为处理输入训练肽序列以通过将RNN的最终隐藏状态应用于RNN的中间状态输出从而生成注意力加权输出、并且线性组合注意力加权输出来生成编码固定维数的输出。在编码器之后的完全连接层被配置为处理编码固定维数的输出以生成MHC‑肽结合亲和力预测输出。计算装置被配置为使用经训练的神经网络来预测针对测试肽序列的MHC‑肽结合亲和力。

全部详细技术资料下载

【技术实现步骤摘要】

本公开总体上涉及预测主要组织相容性复合物(mhc)-肽结合，并且更具体地涉及采用一个或多个递归神经网络来生成mhc-肽结合亲和力预测的神经网络模型。

技术介绍

1、t细胞或t淋巴细胞是一种在细胞介导的免疫中起核心作用的淋巴细胞(白细胞的亚型)类型。t细胞的独特特征是它们区分体内健康细胞和异常细胞(例如感染的细胞或癌细胞)的能力。健康细胞通常在其细胞表面表达大量自身衍生型肽-主要组织相容性复合物(pmhc)，尽管t细胞抗原受体可与这些自身衍生型pmhc的至少一部分相互作用，但t细胞通常会忽略这些健康细胞。但是，当同一细胞含有甚至微量的病原体衍生的pmhc时，t细胞就会被激活并引发免疫应答。阳性选择的t细胞将与pmhc具有亲和力，并在体内发挥有用的功能，包括与mhc和肽复合物相互作用以实现免疫应答，而与mhc分子上表达的自身抗原结合太强的阴性选择的t细胞则被消除以允许免疫系统的自身耐受。

2、细胞毒性t细胞(又称tc细胞、ctl、t杀伤细胞、杀伤t细胞)破坏病毒感染的细胞和肿瘤细胞。这些细胞(因为它们在其表面表达cd8糖蛋白，也称为cd8 t细胞)通过与非自身蛋白(肽抗原)的片段结合而识别病毒感染的或肿瘤细胞靶标，这些非自身蛋白的片段通常长度为8-15个氨基酸并由主要组织相容性复合物(mhc)i类分子呈递。特定长度的肽通常简称为“n聚体”。例如，长度为9个氨基酸的肽序列可以被称为9聚体。

3、i类mhc分子是主要组织相容性复合物(mhc)分子的两种主要类别中的一种(另一种是ii类mhc)，并且存在于人类所有有

4、免疫学中的当前挑战是理解哪种肽与哪种i类mhc分子良好结合，即哪种肽最适合激活细胞毒性t细胞应答，特别是因为mhc化合物的每个等位基因(变体形式)具有不同的特性。如果可以准确预测各种长度的蛋白质片段的这种mhc-肽结合亲和力，则可以例如基于确定哪种肿瘤抗原最有可能触发免疫系统应答来开发新的免疫疗法。

5、神经网络已被用于预测mhc-肽结合亲和力。虽然i类mhc分子可以结合长度为6-20个氨基酸的肽(尽管它们通常长度为8-15个氨基酸)且ii类mhc分子可以结合长度为10-30个氨基酸的肽(尽管它们通常长度为12-25个氨基酸)，但当前的一个缺点是，这些神经网络模型的输入通常是固定长度的，并且在不填充(即，将一个或多个‘0’或空值添加到编码的肽序列中以匹配神经网络的固定输入长度)的情况下不能适应可变的肽序列长度。虽然当使用单长度肽序列(例如，仅包含9聚体肽序列、仅包含10聚体肽序列等的数据集)训练神经网络时，这种填充已显示出对预测性能没有影响，但当使用可变长度的肽序列进行训练时，目前使用这种填充的神经网络模型无法达到其完全预测性能潜力。因此，当使用可变长度的肽序列训练神经网络时，仍然需要改进mhc-肽结合亲和力预测性能的技术。此外，它将改进mhc-肽结合亲和力预测性能，从而能够确定对于预测mhc-肽结合亲和力而言最重要的、测试输入序列的肽位置。

技术实现思路

1、本文描述了涉及使用神经网络模型来预测mhc-肽结合亲和力的设备、系统、方法和制品。各个实施例基于神经网络模型，该神经网络模型采用递归神经网络编码器和注意力加权来当用可变长度的肽序列训练时以提高的准确性生成mhc-肽结合亲和力预测。这样，可以对测试肽序列进行准确的mhc-肽结合亲和力预测，这些测试肽序列类似于结合亲和力数据已知的训练肽序列，但是长度不同。

2、在一个实施例中，获得多个训练肽序列，并且将神经网络模型配置为使用这些训练肽序列进行训练来预测mhc-肽结合亲和力。包括递归神经网络(rnn)的神经网络模型的编码器被配置为处理输入训练肽序列以通过将rnn的最终隐藏状态应用于rnn的中间状态输出从而生成注意力加权输出、并且线性组合注意力加权输出来生成编码固定维数的输出。每个注意力加权输出可以是单个值，并且对应于输入训练肽序列的氨基酸位置。使用多批训练肽序列来训练神经网络模型，并且将计算装置配置为使用经训练的神经网络模型来对测试肽序列预测mhc-肽结合亲和力。

3、在一些实施例中，rnn可以包括长短期记忆(lstm)rnn或门控递归单元(gru)rnn、或其任何变体。

4、在一些实施例中，rnn可以包括双向rnn，并且编码固定维数的输出可以通过级联双向rnn的输出来确定。

5、在一些实施例中，将最终隐藏状态应用于rnn的中间状态输出以生成注意力加权输出可以包括取最终隐藏状态与中间状态输出的点积。

6、在一些实施例中，在将最终隐藏状态应用于rnn的中间状态输出以生成注意力加权输出之前，可以将通过训练神经网络模型而获知的权重应用于最终隐藏状态。

7、在一些实施例中，在将最终隐藏状态应用于rnn的中间状态输出以生成注意力加权输出之前，可以将最终隐藏状态与第二神经网络模型的编码器的最终隐藏状态进行级联。可以将第二神经网络模型配置为预测mhc等位基因输入的mhc-肽结合亲和力。

8、在一些实施例中，训练肽序列可以包含长度在6-20或10-30个氨基酸之间的多个序列长度，并且可以是独热编码、blosum编码、pam编码或学习嵌入编码的序列中的一种。每个训练肽序列可以是正mhc-肽结合实例。

9、在一些实施例中，测试肽序列的序列长度可以是6-20或10-30个氨基酸长度。测试肽序列可以具有与训练肽序列中的至少一个的序列长度不同的序列长度，并且可以是独热编码、blosum编码、pam编码或学习嵌入编码的序列中的一种。

10、在一些实施例中，每个mhc-肽结合预测输出可以是单个预测，并且对于测试肽序列的mhc-肽结合亲和力预测可以与激活t细胞对肿瘤的应答相关。

11、在一些实施例中，编码器之后的至少一个完全连接层(例如，两个完全连接层)可以被配置为处理编码固定维数的输出，以生成mhc-肽结合亲和力预测输出。至少一个完全连接层可以包括深度卷积神经网络、残差神经网络、紧密连接的卷积神经网络、完全卷积神经网络或rnn中的一种。

12、在一些实施例中，对测试肽序列预测mhc-肽结合亲和力可以包括使用经训练的神经网络模型的编码器来处理测试训练肽序列，以通过将rnn的最终隐藏状态应用于rnn的中间状态输出从而生成注意力加权输出、并且线性组合注意力加权输出来生成编码固定维数的输出，以及使用经训练的神经网络模型的至少一个完全连接层处理编码固定维数的输出来生成mhc-肽结合亲和力预测输出。

13、根据以下说明书以及附图，本专利技术主题的各种目的、特征、方面和优点将变得更加明显，在附图中相同的数字表示相同的部件。

本文档来自技高网...

【技术保护点】

1.一种计算系统实施的预测主要组织相容性复合物(MHC)-肽结合亲和力的方法，所述方法包括：

2.根据权利要求1所述的方法，其中将所述最终隐藏状态应用于神经网络的中间状态包括取所述最终隐藏状态与所述中间状态的点积、加权积或其他函数。

3.根据权利要求1所述的方法，其进一步包括在将所述最终隐藏状态应用于神经网络的中间状态之前，将通过训练神经网络而获知的权重应用于所述最终隐藏状态。

4.根据权利要求1所述的方法，其进一步包括在将所述最终隐藏状态应用于神经网络的中间状态之前，将所述最终隐藏状态与第二神经网络模型的编码器的最终隐藏状态进行级联。

5.根据权利要求4所述的方法，其中所述第二神经网络模型基于经训练的神经网络的参数组被配置为预测MHC等位基因输入的MHC-肽结合亲和力。

6.根据权利要求1所述的方法，其中通过神经网络生成的编码固定维数的输出包括各自对应于输入到神经网络中的训练肽序列的氨基酸位置的一个或多个位置。

7.根据权利要求6所述的方法，其中编码固定维数的输出的一个或多个位置中的每一个是单个值。

8.根据权利要求1所述的方法，其中所述多个可变长度的训练肽序列包括两个或更多个序列长度。

9.根据权利要求1所述的方法，其中所述多个训练肽序列是独热编码、BLOSUM编码、PAM编码或学习嵌入编码的序列中的一种。

10.根据权利要求1所述的方法，其中所述多个训练肽序列中的每个训练肽序列的长度为6-20个氨基酸。

11.根据权利要求1所述的方法，其中所述多个训练肽序列中的每个训练肽序列的长度为10-30个氨基酸。

12.根据权利要求1所述的方法，其中使用单一“0”或空值填充方法来填充所述至少一些所述训练肽序列。

13.根据权利要求1所述的方法，其中所述多个训练肽序列中的每个训练肽序列为正MHC-肽结合实例。

14.根据权利要求1所述的方法，其中所述测试肽序列的长度为6-20个氨基酸。

15.根据权利要求1所述的方法，其中所述测试肽序列的长度为10-30个氨基酸。

16.根据权利要求1所述的方法，其中所述测试肽序列具有与所述多个训练肽序列中的至少一个的序列长度不同的序列长度。

17.根据权利要求1所述的方法，其中所述测试肽序列为独热编码、BLOSUM编码、PAM编码或学习嵌入编码的序列中的一种。

18.根据权利要求1所述的方法，其中测试预测输出值是单个预测值。

19.根据权利要求18所述的方法，其中所述单个预测值与激活T细胞对肿瘤的应答的可能性相关。

20.根据权利要求1所述的方法，其中通过经训练的神经网络生成测试预测输出值包括：

21.一种嵌入在非暂时性计算机可读介质中的计算机程序产品，其包括可由计算机处理器执行以预测主要组织相容性复合物(MHC)-肽结合亲和力的指令，所述指令当由处理器执行时，使所述处理器执行一个或多个步骤，所述步骤包括：

22.一种预测主要组织相容性复合物(MHC)-肽结合亲和力的计算系统，其包括：

23.一种计算装置，其包括：

...

【技术特征摘要】

1.一种计算系统实施的预测主要组织相容性复合物(mhc)-肽结合亲和力的方法，所述方法包括：

5.根据权利要求4所述的方法，其中所述第二神经网络模型基于经训练的神经网络的参数组被配置为预测mhc等位基因输入的mhc-肽结合亲和力。

7.根据权利要求6所述的方法，其中编码固定维数的输出的一个或多个位置中的每一个是单个值。

8.根据权利要求1所述的方法，其中所述多个可变长度的训练肽序列包括两个或更多个序列长度。

9.根据权利要求1所述的方法，其中所述多个训练肽序列是独热编码、blosum编码、pam编码或学习嵌入编码的序列中的一种。

10.根据权利要求1所述的方法，其中所述多个训练肽序列中的每个训练肽序列的长度为6-20个氨基酸。

11.根据权利要求1所述的...

【专利技术属性】
技术研发人员：J·苏多尔，K·弗努克，
申请(专利权)人：南托米克斯有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人