利用泛等位基因模型进行的新抗原鉴别制造技术

技术编号:26180331 阅读:30 留言:0更新日期:2020-10-31 14:40
一种用于鉴别可能被MHC等位基因呈递在受试者的肿瘤细胞表面上的新抗原的方法。通过对所述受试者的肿瘤细胞进行测序来获得肿瘤新抗原的肽序列和MHC等位基因的肽序列。将所述肿瘤新抗原的肽序列和所述MHC等位基因的肽序列输入机器学习呈递模型中以产生所述肿瘤新抗原的呈递可能性,每个呈递可能性代表了新抗原被所述MHC等位基因中的至少一个呈递在所述受试者的肿瘤细胞表面上的可能性。基于所述呈递可能性选择所述新抗原的子集。

【技术实现步骤摘要】
【国外来华专利技术】利用泛等位基因模型进行的新抗原鉴别相关申请的交叉引用本申请要求于2018年2月27日提交的美国临时申请号62/636,061的权益和优先权。上面引用的申请的内容通过引用整体并入。
技术介绍
基于肿瘤特异性新抗原的治疗性疫苗和T细胞疗法作为下一代个性化癌症免疫疗法具有广阔的前景。1–3鉴于产生新抗原的可能性相对较高,具有高突变负荷的癌症,如非小细胞肺癌(NSCLC)和黑素瘤成为此类疗法的特别值得关注的靶标。4,5早期有证据显示,基于新抗原的疫苗接种能够引起T细胞应答6并且靶向新抗原的T细胞疗法在某些情况下能够在选择的患者中引起肿瘤消退。7I类MHC和II类MHC都对T细胞响应具有影响70-71。但是,鉴别新抗原和识别新抗原的T细胞已成为评估肿瘤响应77,110、检查肿瘤进展111和设计下一代个性化疗法112的主要挑战。目前的新抗原鉴别技术是费时和费力的84,96,或者不够精确87,91–93。尽管最近已证明识别新抗原的T细胞是TIL的主要成分84,96,113,114并且在癌症患者的外周血中循环107,但目前用于鉴别新抗原反应性T细胞的方法具有以下三个局限性的组合:(1)其依赖于难以获得的临床试样,例如TIL97,98或白细胞分离术(leukaphereses)107(2)其需要筛选不切实际的大肽库95或(3)其依赖于MHC多聚体,这实际上只对很小数量MHC等位基因数可用。另外,提出的初步方法并入了使用下一代测序的基于突变的分析、RNA基因表达及候选新抗原肽的MHC结合亲和力预测8。然而,提出的这些方法都无法模拟整个表位产生过程,该过程除含有基因表达和MHC结合外,还含有许多步骤(例如TAP转运、蛋白酶体裂解、MHC结合、将肽-MHC复合物转运至细胞表面和/或TCR对MHC-I的识别;内吞或自噬、通过细胞外或溶酶体蛋白酶(例如组织蛋白酶)裂解、与CLIP肽竞争HLA-DM催化的HLA结合、将肽-MHC复合物转运至细胞表面和/或TCR对MHC-II的识别)9。因此,现有的方法可能会有低阳性预测值(PPV)降低的问题。(图1A)事实上,多个研究团队所进行的关于由肿瘤细胞呈递的肽的分析显示,预计使用基因表达和MHC结合亲和力呈递的肽中不到5%可以在肿瘤表面MHC上发现10,11(图1B)。近期观察到的仅针对突变数量的检查点抑制剂反应无法提高对结合受限的新抗原的预测准确性进一步支持了结合预测与MHC呈递之间的这一低相关性。12现有的呈递预测方法的这一低阳性预测值(PPV)提出了有关基于新抗原的疫苗设计和基于新抗原的T细胞疗法的问题。如果使用PPV低的预测方法来设计疫苗,则大多数患者不太可能接受治疗性新抗原,且少数患者可能要接受一种以上新抗原(即使假设所有呈递的肽都具有免疫原性)。同样,如果治疗性T细胞是基于低PPV的预测设计的,则大多数患者不太可能接受对肿瘤新抗原具有反应性的T细胞,以及使用下游实验室技术在预测后鉴定预测性新抗原的时间和物理资源成本可能过高。因此,用当前方法进行新抗原疫苗接种和T细胞疗法不太可能在众多具有肿瘤的受试者中取得成功。(图1C)此外,先前的方法仅使用顺式作用突变来产生候选新抗原,而在很大程度上忽视了考虑neo-ORF的其它来源,包括在多种肿瘤类型中出现且导致许多基因异常剪接的剪接因子突变13,及产生或移除蛋白酶裂解位点的突变。最后,由于文库构建、外显子组和转录组捕捉、测序或数据分析的条件并非最佳条件,故肿瘤基因组和转录组分析的标准方法可能会遗漏产生候选新抗原的体细胞突变。同样,标准肿瘤分析方法可能会无意中促成序列伪影或生殖系多态现象作为新抗原,而分别导致疫苗能力的低效使用或自身免疫的风险。
技术实现思路
本文公开了一种鉴别和选择用于个性化癌症疫苗、用于T细胞疗法或其二者的新抗原的优化方法。首先,提出了使用下一代测序(NGS)鉴别新抗原候选物的优化的肿瘤外显子组和转录组分析方法。这些方法建立在标准NGS肿瘤分析方法的基础之上,以确保在所有类别的基因组变化内推进最高敏感性和特异性的新抗原候选物。其次,提出了选择高PPV新抗原的新颖方法来克服特异性问题并确保打算包括在疫苗中和/或作为T细胞疗法的靶标的新抗原较大可能地引发抗肿瘤免疫。取决于实施方案,这些方法包括训练的统计回归或非线性深度学习模型,该模型被配置成预测多种长度的肽的呈递,从而在泛等位基因(pan-allele)的基础上共享跨越不同长度的肽的统计强度。该模型能够预测肽将被任何MHC等位基因(包括该模型先前在训练过程中未遇到的未知MHC等位基因)呈递的可能性。非线性深度学习模型可以被特别地设计和训练成将同一细胞中的不同MHC等位基因视为独立的,由此解决了线性模型所具有的不同MHC等位基因会相互干扰的问题。最后,解决了基于新抗原的个性化疫苗设计和制造以及用于T细胞疗法的个性化新抗原特异性T细胞生产的其它需要考虑的问题。本文公开的模型优于在结合亲和力上训练的最新预测器和基于MS肽数据的早期预测器多达一个数量级。通过更可靠地预测肽的呈递,该模型可以使用临床实践方法以更具时间和成本效益的方式鉴别用于个性化疗法的新抗原特异性或肿瘤抗原特异性T细胞,其使用有限量的患者外周血,每位患者筛查少量的肽,并且不一定依赖于MHC多聚体。然而,在另一个实施方案中,本文公开的模型可通过减少为了鉴别新抗原或肿瘤抗原特异性T细胞而需要筛选的与MHC多聚体结合的肽的数目,来使用MHC多聚体以更具时间和成本效益的方式鉴别肿瘤抗原特异性T细胞。本文公开的模型在TIL新表位数据集上的预测性能和前瞻性新抗原反应性T细胞鉴别任务证明,现在有可能通过对HLA处理和呈递进行建模来获得治疗上有用的新表位预测。总而言之,这项工作为抗原靶向免疫治疗提供了实用的计算机模拟抗原鉴别,从而加快了治愈患者的进程。附图说明参照以下描述和附图将更好地理解本专利技术的这些和其它特征、方面及优势,在附图中:图1A显示当前用于鉴别新抗原的临床方法。图1B显示<5%的预测结合肽被呈递在肿瘤细胞上。图1C显示新抗原预测特异性问题的影响。图1D显示结合预测不足以进行新抗原鉴别。图1E显示MHC-I呈递的概率随肽长度的变化。图1F显示由Promega动态范围标准(dynamicrangestandard)生成的示例性肽谱。图1G显示添加特征如何增加模型阳性预测值。图2A是根据一个实施方案,用于鉴别患者体内肽呈递的可能性的环境的概述。图2B和2C示出了根据一个实施方案的获得呈递信息的方法。图3是一个高级框图,示出了根据一个实施方案的呈递鉴别系统的计算机逻辑组件。图4示出了根据一个实施方案的一组示例训练数据。图5示出了与MHC等位基因相关联的示例网络模型。图6示出了根据一个实施方案的由MHC等位基因共享的示例网络模型NNH(·)。图7示出了使用示例网络模型生成与一个MHC等位基因相关联的肽的呈递可能性。图8示出了使用示例网络模型生成与一个MHC等位基本文档来自技高网
...

【技术保护点】
1.一种用于鉴别来自受试者的一个或多个肿瘤细胞的可能被一个或多个MHC等位基因呈递在所述肿瘤细胞表面上的至少一种新抗原的方法,所述方法包括以下步骤:/n从所述受试者的所述肿瘤细胞和正常细胞获得外显子组、转录组或全基因组核苷酸测序数据中的至少一种,其中所述核苷酸测序数据被用于获得代表通过比较来自所述肿瘤细胞的核苷酸测序数据和来自所述正常细胞的核苷酸测序数据鉴别的新抗原集合中每一种新抗原的肽序列的数据,其中每种新抗原的肽序列包含至少一个使其不同于从所述受试者的正常细胞鉴别的相应野生型肽序列的变化;/n将所述新抗原中的每一种的肽序列编码成相应的数字矢量,每个数字矢量包含有关构成所述肽序列的多个氨基酸和所述氨基酸在所述肽序列中的位置的集合的信息;/n从所述受试者的所述肿瘤细胞获得外显子组、转录组或全基因组核苷酸测序数据中的至少一种,其中所述核苷酸测序数据被用于获得代表所述受试者的所述一个或多个MHC等位基因中的每一个的肽序列的数据;/n将所述受试者的所述一个或多个MHC等位基因中的每一个的肽序列编码成相应的数字矢量,每个数字矢量包含有关构成所述肽序列的多个氨基酸和所述氨基酸在所述肽序列中的位置的集合的信息;/n使用计算机处理器将编码所述新抗原中的每一种的肽序列的数字矢量和编码所述一个或多个MHC等位基因中的每一个的肽序列的数字矢量输入机器学习呈递模型中,以产生对于所述新抗原集合的呈递可能性集合,所述集合中的每个呈递可能性代表了相应的新抗原被所述一个或多个MHC等位基因呈递在所述受试者的肿瘤细胞表面上的可能性,所述机器学习呈递模型包含:/n至少基于训练数据集鉴别的多个参数,所述训练数据集包含:/n对于多个样品中的每个样品,通过质谱测量与被鉴别为存在于所述样品中的MHC等位基因集合中的至少一个MHC等位基因结合的肽的存在而获得的标记;/n对于每个样品,编码为包含有关构成所述肽的多个氨基酸和所述氨基酸在所述肽中的位置的集合的信息的数字矢量的训练肽序列;以及/n对于每个样品,编码为包含有关构成与所述样品的所述肽结合的至少一个MHC等位基因的多个氨基酸以及所述氨基酸在所述至少一个MHC等位基因中的位置的集合的信息的数字矢量的训练肽序列;/n代表作为输入接收的编码所述新抗原中的每一种的肽序列的数字矢量和编码所述一个或多个MHC等位基因中的每一个的肽序列的数字矢量与基于所述数字矢量和所述参数作为输出生成的呈递可能性之间的关系的函数;/n基于所述呈递可能性集合选择所述新抗原集合的子集,以产生选定的新抗原的集合;以及/n回收所述选定的新抗原的集合。/n...

【技术特征摘要】
【国外来华专利技术】20180227 US 62/636,0611.一种用于鉴别来自受试者的一个或多个肿瘤细胞的可能被一个或多个MHC等位基因呈递在所述肿瘤细胞表面上的至少一种新抗原的方法,所述方法包括以下步骤:
从所述受试者的所述肿瘤细胞和正常细胞获得外显子组、转录组或全基因组核苷酸测序数据中的至少一种,其中所述核苷酸测序数据被用于获得代表通过比较来自所述肿瘤细胞的核苷酸测序数据和来自所述正常细胞的核苷酸测序数据鉴别的新抗原集合中每一种新抗原的肽序列的数据,其中每种新抗原的肽序列包含至少一个使其不同于从所述受试者的正常细胞鉴别的相应野生型肽序列的变化;
将所述新抗原中的每一种的肽序列编码成相应的数字矢量,每个数字矢量包含有关构成所述肽序列的多个氨基酸和所述氨基酸在所述肽序列中的位置的集合的信息;
从所述受试者的所述肿瘤细胞获得外显子组、转录组或全基因组核苷酸测序数据中的至少一种,其中所述核苷酸测序数据被用于获得代表所述受试者的所述一个或多个MHC等位基因中的每一个的肽序列的数据;
将所述受试者的所述一个或多个MHC等位基因中的每一个的肽序列编码成相应的数字矢量,每个数字矢量包含有关构成所述肽序列的多个氨基酸和所述氨基酸在所述肽序列中的位置的集合的信息;
使用计算机处理器将编码所述新抗原中的每一种的肽序列的数字矢量和编码所述一个或多个MHC等位基因中的每一个的肽序列的数字矢量输入机器学习呈递模型中,以产生对于所述新抗原集合的呈递可能性集合,所述集合中的每个呈递可能性代表了相应的新抗原被所述一个或多个MHC等位基因呈递在所述受试者的肿瘤细胞表面上的可能性,所述机器学习呈递模型包含:
至少基于训练数据集鉴别的多个参数,所述训练数据集包含:
对于多个样品中的每个样品,通过质谱测量与被鉴别为存在于所述样品中的MHC等位基因集合中的至少一个MHC等位基因结合的肽的存在而获得的标记;
对于每个样品,编码为包含有关构成所述肽的多个氨基酸和所述氨基酸在所述肽中的位置的集合的信息的数字矢量的训练肽序列;以及
对于每个样品,编码为包含有关构成与所述样品的所述肽结合的至少一个MHC等位基因的多个氨基酸以及所述氨基酸在所述至少一个MHC等位基因中的位置的集合的信息的数字矢量的训练肽序列;
代表作为输入接收的编码所述新抗原中的每一种的肽序列的数字矢量和编码所述一个或多个MHC等位基因中的每一个的肽序列的数字矢量与基于所述数字矢量和所述参数作为输出生成的呈递可能性之间的关系的函数;
基于所述呈递可能性集合选择所述新抗原集合的子集,以产生选定的新抗原的集合;以及
回收所述选定的新抗原的集合。


2.根据权利要求1所述的方法,其中将编码所述新抗原中的每一种的肽序列的数字矢量和编码所述一个或多个MHC等位基因中的每一个的肽序列的数字矢量输入所述机器学习呈递模型中包括:
将所述机器学习呈递模型应用于所述新抗原的所述肽序列并应用于所述一个或多个MHC等位基因的所述肽序列,以生成所述一个或多个MHC等位基因中的每一个的依赖性分数,所述依赖性分数指示所述MHC等位基因是否会基于所述肽序列的特定位置处的特定氨基酸呈递所述新抗原。


3.根据权利要求2所述的方法,其中将编码所述新抗原中的每一种的肽序列的数字矢量和编码所述一个或多个MHC等位基因中的每一个的肽序列的数字矢量输入所述机器学习呈递模型中进一步包括:
变换所述依赖性分数以产生每一MHC等位基因的相应独立等位基因可能性,由此指示所述相应MHC等位基因会呈递所述相应新抗原的可能性;及
将所述独立等位基因可能性组合以产生所述新抗原的呈递可能性。


4.根据权利要求3所述的方法,其中变换所述依赖性分数将所述新抗原的呈递建模为在所述一个或多个MHC等位基因之间相互排斥。


5.根据权利要求2所述的方法,其中将编码所述新抗原中的每一种的肽序列的数字矢量和编码所述一个或多个MHC等位基因中的每一个的肽序列的数字矢量输入所述机器学习呈递模型中进一步包括:
变换所述依赖性分数的组合以产生呈递可能性,其中变换所述依赖性分数的组合将所述新抗原的呈递建模为在所述一个或多个MHC等位基因之间存在干扰。


6.根据权利要求2-5中任一项所述的方法,其中所述呈递可能性集合通过至少一个或多个等位基因非相互作用特征进一步鉴别,并且进一步包括:
将所述机器学习呈递模型应用于所述等位基因非相互作用特征,以产生所述等位基因非相互作用特征的依赖性分数,所述依赖性分数指示所述相应新抗原的肽序列是否将基于所述等位基因非相互作用特征而被呈递。


7.根据权利要求6所述的方法,其进一步包括:
将所述一个或多个MHC等位基因的每个MHC等位基因的依赖性分数与所述等位基因非相互作用特征的依赖性分数组合;
变换每个MHC等位基因的所述组合的依赖性分数以产生每个MHC等位基因的独立等位基因可能性,由此指示所述相应MHC等位基因将呈递所述相应新抗原的可能性;及
组合所述独立等位基因可能性以产生所述呈递可能性。


8.根据权利要求6所述的方法,其进一步包括:
组合所述MHC等位基因中每一个的所述依赖性分数与所述等位基因非相互作用特征的所述依赖性分数;及
变换所述组合的依赖性分数以产生所述呈递可能性。


9.根据权利要求1-8中任一项所述的方法,其中所述一个或多个MHC等位基因包括两个或更多个不同的MHC等位基因。


10.根据权利要求1-9中任一项所述的方法,其中所述肽序列包括长度不为9个氨基酸的肽序列。


11.根据权利要求1-10中任一项所述的方法,其中编码肽序列包括使用独热编码方案编码所述肽序列。


12.根据权利要求1-11中任一项所述的方法,其中所述多个样品包括以下中的至少一种:
(a)被工程改造成表达单个MHC等位基因的一种或多种细胞系;
(b)被工程改造成表达多个MHC等位基因的一种或多种细胞系;
(c)从多个患者获得或得到的一种或多种人细胞系;
(d)从多个患者获得的新鲜或冷冻的肿瘤样品;以及
(e)从多个患者获得的新鲜或冷冻的组织样品。


13.根据权利要求1-12中任一项所述的方法,其中所述训练数据集还包含以下中的至少一种:
(a)与所述肽中的至少一种的肽-MHC结合亲和力测量值相关的数据;及
(b)与所述肽中的至少一种的肽-MHC结合稳定性测量值相关的数据。


14.根据权利要求1-13中任一项所述的方法,其中所述呈递可能性集合进一步通过至少由RNA-seq或质谱法测量的所述受试者中所述一个或多个MHC等位基因的表达水平鉴别。


15.根据权利要求1-14中任一项所述的方法,其中所述呈递可能性集合通过特征进一步鉴别,所述特征包括以下中的至少一种:
(a)预测的...

【专利技术属性】
技术研发人员:T·F·鲍彻B·布里克沙利文J·巴斯比M·斯科伯恩R·耶冷斯凯
申请(专利权)人:磨石肿瘤生物技术公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1