提供了来自不匹配的生物样品的体细胞变异调用的方法。方法可以包括获得对应于对象的生物样品的核酸序列数据。方法还可以包括将核酸序列数据与参考基因组比对。方法还可以包括基于比对的核酸序列数据鉴定所述核酸序列数据中的一组候选变异。该组候选变异可以包括一种或多种体细胞变异和一种或多种生殖系变异。方法还可以包括在不使用来自对象的匹配生物样品的核酸测序数据的情况下,使用经过训练的机器学习模型来处理候选变异的集合,以鉴定体细胞变异。方法还可以包括输出鉴定体细胞变异的报告。的报告。
【技术实现步骤摘要】
【国外来华专利技术】来自不匹配的生物样品的体细胞变异调用
相关申请的交叉引用
[0001]本申请要求2019年11月5日提交的第62/931,100号美国临时专利申请的优先权,该申请在此通过引用整体并入本文中,用于所有目的。
[0002]本公开总体上涉及用于鉴定生物样品中的体细胞变异的系统和方法。更具体地,但并非通过限制的方式,本公开涉及通过使用经过训练的机器学习模型从检测到的一组候选变异中过滤假阳性来鉴定生物样品中的体细胞变异。
技术介绍
[0003]DNA序列中的体细胞变异可以指示一种或多种导致癌症发展的突变。对于肿瘤样品的许多分析,鉴定体细胞变异有助于改善癌症诊断、预后、治疗决策和治疗效果。为了鉴定生物样品中的体细胞变异,可以区分生殖系序列变异和体细胞变异。传统的体细胞变异调用技术在很大程度上依赖于肿瘤样品和匹配的正常样品之间的变异的对比证据。然而,在许多情况下,其中匹配的正常样品无法用于分析。
[0004]因此,需要在不依赖正常对照样品的情况下准确鉴定生物样品中的体细胞变异,并将体细胞变异与生殖系变异区分开来。专利技术概述
[0005]在一些实施方案中,提供了从生物样品中鉴定体细胞变异的方法。方法可以包括获得对应于对象的生物样品的核酸序列数据。方法还可以包括将核酸序列数据与参考基因组(例如,基于来自其他对象的样品产生的)进行比对。方法还可以包括基于比对的核酸序列数据鉴定所述核酸序列数据中的一组候选变异。在一些情况下,该组候选变异包括一种或多种体细胞变异和一种或多种生殖系变异。
[0006]方法还可以包括在不使用来自对象的匹配生物样品的核酸测序数据的情况下,使用经过训练的机器学习模型来处理候选变异的集合,以鉴定体细胞变异。对象的匹配生物样品表明不存在肿瘤。方法还可以包括输出鉴定体细胞变异的报告。
[0007]在一些实施方案中,提供了系统,其包括一个或多个数据处理器和包含指令的非暂时性计算机可读存储介质,当在一个或多个数据处理器上执行这些指令时,使一个或多个数据处理器执行本文公开的一种或多种方法的一部分或全部。
[0008]在一些实施方案中,提供了计算机程序产品,其有形地体现在非暂时性机器可读存储介质中,并且包括配置为使一个或多个数据处理器执行本文公开的一种或多种方法的一部分或全部的指令。
[0009]本公开的一些实施方案包括系统,其包括一个或多个数据处理器。在一些实施方案中,系统包括包含指令的非暂时性计算机可读存储介质,当在一个或多个数据处理器上执行这些指令时,使一个或多个数据处理器执行本文公开的一种或多种方法的一部分或全部,和/或本文公开的一个或多个过程的一部分或全部。本公开的一些实施方案包括有形地
体现在非暂时性机器可读存储介质中的计算机程序产品,包括配置为使一个或多个数据处理器执行本文公开的一种或多种方法的一部分或全部和/或本文公开的一个或多个过程的一部分或全部的指令。
[0010]已使用的术语和表达被用作描述性术语而不是限制性术语,并且在使用这些术语和表达时无意排除所示和描述的特征或其一部分的任何等同物,但应认识到,可能在要求保护的本专利技术的范围内进行各种修改。因此,应当理解,尽管要求保护的本专利技术已通过实施方案和任选特征具体公开,但是本领域技术人员可以对本文公开的概念进行修改和变化,并且这样的修改和变化被认为在由所附权利要求限定的本专利技术范围内。附图的简要说明
[0011]当参考以下附图阅读以下详细描述时,将更好地理解本公开的特征、实施方案和优点。专利或申请文件包含至少一幅彩色绘图。专利局将根据请求和支付必要的费用提供本专利或专利申请公开的彩色附图副本。
[0012]图1显示了根据一些实施方案的配置为鉴定配对肿瘤/正常序列数据中的体细胞变异的示例性界面
[0013]图2显示了根据一些实施方案的鉴定经过训练的梯度提升决策树模型和基线之间的精度和召回差值的图。
[0014]图3示出了根据一些实施例方案可以被训练以鉴定不匹配的生物样品中的体细胞变异的两个分类模型。
[0015]图4显示了根据一些实施方案的对应于用于从一组候选体细胞变异中滤除假阳性的经过训练的过滤模型的精确召回曲线。
[0016]图5显示了根据一些实施方案的鉴定来自属性表的哪些属性影响经过训练的过滤模型的输出的Shapley Additive exPlanations(SHAP)图表500。
[0017]图6显示了根据一些实施方案的对应于用于从一组候选体细胞变异中滤除假阴性的经过训练的救援模型的精确召回曲线。
[0018]图7显示了根据一些实施方案的鉴定来自属性表的哪些属性影响经过训练的救援模型的输出的SHAP图表。
[0019]图8显示了根据一些实施方案的在训练和阈值调整之前和之后机器学习模型与过滤模型和救援模型的性能比较。
[0020]图9示出了根据一些实施方案的用于鉴定不匹配的生物样品中的体细胞变异的流程图。
[0021]图10示出了用于实施本文公开的一些实施方案的计算机系统的实例。专利技术详述I.概述
[0022]如上文所述,当匹配的正常样本不可用于分析时,预测生物样品的体细胞变异变得困难。为了说明,图1显示了根据一些实施方案的配置为鉴定配对肿瘤/正常序列数据中的体细胞变异的示例性界面100。示例性界面100可以包括代表肿瘤样品105的核酸序列数据的下图和代表正常样品110的核酸序列数据的下图。灰色条可以代表与参考基因组比对的重叠序列读段。候选变异可以在读段中使用不同的颜色突出显示。在读段的上图中,可以看到在50%到100%的读段中存在三个变异。由于这些读段来自匹配的正常样品,因此可以
将这些变异鉴定为生殖系变异。在读段的下图中,可以鉴定三个相同的变异,并且在读段子集中存在一个额外的变异(由框标识)。由于这种变异存在于肿瘤样品中,但不存在于匹配的正常样品中,因此可以将其鉴定为体细胞变异。
[0023]如图1中所示,传统的体细胞变异调用技术依赖于对象的肿瘤样品和匹配的正常样品之间的变异的对比证据。匹配的正常样品110的缺失阻止了鉴定肿瘤样品105中的体细胞变异,这可能大大降低常规体细胞变异调用技术的准确性。例如,从示例性图100中去除匹配的正常样品100可能导致难以确定下图中的哪些候选变异是生殖系变异以及哪些是体细胞变异。缺乏匹配的正常样品110可能会增加确定体细胞变异时假阳性(例如,生殖系变异)的数量。在一些情况下,体细胞变异调用输出中由生殖系污染(例如)引起的假阳性显著增加。
[0024]为了至少解决常规系统的上述缺陷,本技术可用于鉴定不匹配的生物样品中的体细胞变异并将体细胞变异与生殖系变异区分开来。包括一个或多个分类模型的经过训练的机器学习模型可用于基于从不匹配的生物样品获得的核酸测序数据中提取的特征来预测体细胞变异。在一些情况下,额外的数据源(例如,数据库)被用于预测体细胞变异。例如,可以使用高灵敏度算法来鉴定核酸测序数据中的候选变异。可以生成属性表,其中属性表可以包括为每个候选变异鉴定的一个本文档来自技高网...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.方法,包括:获得对象的生物样品的核酸序列数据;将所述核酸序列数据与参考基因组比对;基于所述比对的核酸序列数据,鉴定所述核酸序列数据中的一组候选变异,其中所述一组候选变异包括一个或多个体细胞变异和一个或多个生殖系变异;在不使用所述对象的匹配生物样品的核酸测序数据的情况下,使用经过训练的机器学习模型处理所述一组候选变异以鉴定所述体细胞变异,其中所述对象的匹配生物样品指示不存在肿瘤;和输出鉴定所述体细胞变异的报告。2.如权利要求1所述的方法,其中所述生物样品是所述对象的肿瘤样品。3.如权利要求2所述的方法,其中所述对象是人类对象。4.如权利要求1所述的方法,其中所述经过训练的机器学习模型包括梯度提升的决策树。5.如权利要求1所述的方法,其中所述经过训练的机器学习模型包括两个分类模型。6.如权利要求1所述的方法,其中所述经过训练的机器学习模型包括过...
【专利技术属性】
技术研发人员:帕特里克,
申请(专利权)人:佩索纳里斯公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。