用于与抗原无关地从头预测与癌症相关联的TCR组库的计算机化系统和方法技术方案

技术编号:31565342 阅读:27 留言:0更新日期:2021-12-25 10:59
公开了用于泛癌早期检测工具的系统和方法,该工具能够通过分析和理解血液T细胞受体(TCR)组库中的变化来增强从早期和/或晚期癌症发出的小信号。所公开的系统和方法实施了一种基于免疫的癌症检测技术,该技术可以从外周免疫组库的签名中检测癌症信号,该技术即使在疾病的早期阶段也可以高准确度地执行。采用了改进的框架,其通过新颖的机器学习算法实施,该算法可以基于患者的外周血TCR组库预测癌症状态,使得对白血细胞的基因组DNA进行深度TCR测序,从而使得能够与肿瘤抗原无关地进行与癌症相关联的TCR的检测(预测或确定)。这为在各种疾病中的早期和晚期癌症提供了鲁棒的生物标志物。标志物。标志物。

【技术实现步骤摘要】
【国外来华专利技术】用于与抗原无关地从头预测与癌症相关联的TCR组库的计算机化系统和方法
[0001]本申请包含受版权保护的材料。版权所有者不反对任何人按照本专利公开登载在专利商标局的文件或记录中那样传真复制本专利公开,但在其他方面保留所有版权。
[0002]相关应用的交叉引用
[0003]本申请要求于2019年3月28日提交的美国临时专利申请No.62/825,235的优先权权益,该申请的全部内容通过引用并入。
[0004]政府利益
[0005]这项工作没有政府的利益或支持。


[0006]本公开一般而言涉及基于免疫组库(repertoire)的癌症诊断技术,更特别地涉及一种用于诊断癌症患者并利用外周血T细胞受体(TCR)组库确定他/她的癌症状态的新颖系统和方法。

技术介绍

[0007]免疫组库测序数据在癌症诊断和预后方面的临床效用尚未得到充分探索。当前的技术主要集中在检测人体内与癌症相关的物质的大阈值。例如,传统的癌症检测方法依赖于癌症生物标志物(例如,血清中的CA抗原)、循环脱氧核糖核酸(DNA)、癌细胞、癌症病变的成像扫描等的识别。但是,这些不仅很大程度上不准确且效率低下,而且它们仅限于在疾病后期检测癌症的范围。

技术实现思路

[0008]本公开提供了一种改进的计算机化框架,用于与抗原无关地从头预测与癌症相关联的TCR组库。所公开的框架是一种泛癌早期检测工具,其能够通过分析和理解血液T细胞组库中的变化来增强早期癌症发出的小信号。所公开的系统和方法提供了在最早阶段检测许多当前技术无法识别的癌症—例如肾癌、卵巢癌和胰腺癌的能力。如本文所讨论的,除了用于早期癌症检测的改进能力之外,所公开的框架还提供用于改进检测患者晚期癌症的准确度的能力,例如,它可以与放射线图像一起使用以增加它们的诊断准确性(包括上面提到的现有传统方法)。
[0009]所公开的系统和方法实施了第一种基于免疫的癌症检测技巧或技术。即,当个体患有癌症时,免疫系统会通过癌症特异性T细胞的增殖做出反应,并使它们在血液和淋巴系统中循环。虽然这种身体反应是自然发生的,但它在血液数据中的呈现和分析不是,因此需要改进的自动化框架来执行此类分析。所公开的框架使用特定的自动化技巧从外周免疫组库的签名中检测癌症信号,该特定的自动化技巧即使在疾病的早期阶段,也可以比目前的自动化方法以更高的准确度执行。
[0010]根据本公开的一些实施例,所公开的框架执行一种新颖的机器学习算法,该算法
可以基于患者的外周血TCR组库预测癌症状态。如下文更详细讨论的,从正常量的血样(例如,3

10ml)开始,所公开的框架可以对白细胞的基因组DNA进行深度TCR测序,这使得能够与肿瘤抗原无关地检测(预测或确定)与癌症相关联的TCR。然后利用它来识别反映患者免疫组库的患者的“癌症分数”。该分数是自动化处理的输出,该自动化处理输出表示各种疾病中早期和晚期癌症的稳健生物标志物,并且预测患者对检查点封锁疗法的反应。因此,所确定的分数是患者是否患有癌症以及癌症程度的有力指标。
[0011]根据一个或多个实施例,本公开提供了用于利用外周血TCR组库诊断癌症状态的新颖框架的计算机化方法。根据一个或多个实施例,本公开提供了一种用于执行框架功能的上述技术步骤的非暂态计算机可读存储介质。该非暂态计算机可读存储介质在其上有形地存储或有形地编码有计算机可读指令,该指令在由设备执行时,使至少一个处理器执行用于利用外周血TCR组库诊断癌症状态的新颖且改进的框架的方法。
[0012]根据一个或多个实施例,提供了一种系统,该系统包括一个或多个计算设备,该计算设备被配置为提供根据这些实施例的功能。根据一个或多个实施例,功能实施在由至少一个计算设备执行的方法的步骤中。根据一个或多个实施例,由计算设备的(一个或多个)处理器执行以实现根据一个或多个此类实施例的功能的程序代码(或程序逻辑)实施在非暂态计算机可读介质中、由非暂态计算机可读介质实施和/或实施在非暂态计算机可读介质上。
附图说明
[0013]本公开的前述和其它目的、特征和优点将从以下对附图中所示的实施例的描述中变得明显,在附图中,在各个视图中,附图标记指代相同的部分。附图不一定按比例绘制,而是强调图示本公开的原理:
[0014]图1是图示根据本公开的一些实施例的可以在其中实现本文公开的系统和方法的网络的示例的示意图;
[0015]图2是图示根据本公开的一些实施例的示例性系统的组件的框图;
[0016]图3A是图示根据本公开的一些实施例的所公开的系统和方法的示例数据流的示意图;
[0017]图3B图示了根据本公开的一些实施例的所选择特征的非限制性示例实施例;
[0018]图4描绘了图示根据本公开的一些实施例的所公开的系统和方法的非限制性数据流的示意图;
[0019]图5A、图5B和图5C图示了根据本公开的一些实施例的预测癌症相关性数据的非限制性示例;
[0020]图6图示了根据本公开的一些实施例的训练和测试数据的数据资源表;
[0021]图7图示了根据本公开的一些实施例的序列保守模式的非限制性示例;
[0022]图8图示了根据本公开的一些实施例的TCR的生化特征的非限制性示例;
[0023]图9图示了根据本公开的一些实施例的ROC曲线的非限制性示例;
[0024]图10图示了根据本公开的一些实施例的

6残基的3维位置变化的非限制性示例;
[0025]图11A、图11B和图11C图示了根据本公开的一些实施例的癌症分数和香农熵的性能评估的非限制性示例;
[0026]图12图示了根据本公开的一些实施例的预测癌症状态的非限制性示例;
[0027]图13A和图13B图示了根据本公开的一些实施例的癌症分数的随机波动的非限制性示例;以及
[0028]图14图示了根据本公开的一些实施例的癌症患者的癌症分数分布的非限制性示例。
具体实施方式
[0029]现在将在下文中参考附图更全面地描述本公开,附图形成本公开的一部分并且以非限制性说明的方式示出了某些示例实施例。但是,主题可以以各种不同的形式实施,因此,所涵盖或要求保护的主题旨在被解释为不限于本文阐述的任何示例实施例;提供示例实施例仅仅是为了说明。同样,要求保护或涵盖的主题的范围相当广泛。其中,例如,主题可以实施为方法、设备、组件或系统。因此,实施例可以例如采用硬件、软件、固件或其任何组合的形式(软件本身除外)。因此,下面的详细描述不应被理解为限制性的。
[0030]在整个说明书和权利要求中,术语可能具有超出明确陈述含义的上下文中暗示或隐含的细微含义。同样,如本文使用的短语“在一个实施例中”不一定指代相同的实施例,并且如本文使用的短语“在另一个实施例中”不一定指代不同的实施例。例如,所要求保护的主题旨在整体或部分地包括示例实施例的组合。
[0031]一般来说,术语可以至少部分地从上下文中的用法来理解本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,包括以下步骤:经由计算设备识别一组核糖核酸序列(RNA

seq)数据;经由计算设备识别与一组抗原特异性T细胞受体(TCR)相关联的数据;经由计算设备执行用于调用TCR转录高变互补确定区3(CDR3区)的算法,分析所述RNA

seq数据和所述TCR数据;经由计算设备基于所述分析确定一组氨基酸指标;经由计算设备基于所述氨基酸指标训练集成树分类器;经由计算设备识别一组TCR seq样本数据,所述一组TCR seq样本数据通过由计算设备执行的深度学习算法根据抗原特异性组进行预处理和聚类,所述一组TCR seq样本数据;经由计算设备将训练的所述树分类器应用于所述一组TCR seq样本数据;以及经由计算设备基于所述应用确定癌症分数,所述癌症分数提供免疫组库为癌性的可能性的指示。2.如权利要求1所述的方法,还包括:通过网络识别人类参考基因组信息;分析人类参考基因组信息;以及基于对人类参考基因组信息的所述分析,提取CDR3序列。3.如权利要求2所述的方法,还包括:经由计算设备执行CDR3序列的成对比对,其中所述癌症分数基于所述成对比对。4.如权利要求3所述的方法,还包括:基于所述成对比对生成CDR3序列的连接矩阵,其中所述聚类基于生成的所述矩阵,其中将所述TCR分组为抗原特异性簇,其中所述癌症分数的确定基于所述抗原特异性簇。5.如权利要求2所述的方法,其中所述提取在所述分析期间由计算设备执行用于调用TCR转录高变互补确定区3(CDR3区)的算法来执行。6.如权利要求2所述的方法,还包括:基于所述计算设备执行用于调用TCR转录高变互补确定区3(CDR3区)的算法,从所述一组氨基酸指标确定指示癌性CDR3和非癌性CDR3的信息。7.如权利要求1所述的方法,其中集成树分类器的所述训练包括最小化训练周期和最小化交叉验证(CV)误差。8.如权利要求7所述的方法,其中所述CV误差是基于到独立的验证数据值的CDR3长度计算的。9.如权利要求7所述的方法,其中所述CV误差的所述最小化基于预定的采样轮数。10.如权利要求1所述的方法,其中所述训练包括应用自适应推进算法。11.如权利要求1所述的方法,其中所述训练包括应用深度神经网络算法。12.一种用计算机可执行指令有形地编码的非暂态计算机可读存储介质,所述指令在由与计算设备相关联的处理器执行时,执行包括以下步骤的方法:经由计算设备识别一组核糖核酸序列(RNA

seq)数据;经由计算设备识别与一组抗原特异性T细胞受体(TCR)相关联的数据;经由计算设备执行用于调用TCR转录高变互补确定区3(CDR3区)的算法来分析所述RNA

seq数据和所述TCR数据;
经由计算设备基于所述分析确定一组氨基酸指标;经由计算设备基于所述氨基酸指标训练集成树分类器;经由计算设备识别一组TCR seq样本数据,所述一组TCR seq样本数据通过由计算设备执行的深度学习算法根据抗原特异性组进行预处理和聚类,所述一组TCR seq样本数据;经由计算设备将训练的所述树分类器应用于所述一组TCR seq样本数据;以及经由计算设备基于所述应用确定癌症分...

【专利技术属性】
技术研发人员:李博
申请(专利权)人:得克萨斯大学体系董事会
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1