System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 利用机器学习架构集成来自多个测序管道的变体检出制造技术_技高网

利用机器学习架构集成来自多个测序管道的变体检出制造技术

技术编号:43597975 阅读:2 留言:0更新日期:2024-12-11 14:47
本公开描述了可从用于处理来自多个读段类型/源的核苷酸读段的组合管道生成基因型检出以实现稳健、准确的基因型检出的方法、非暂态计算机可读介质和系统。例如,所公开的系统可训练和/或利用基因型检出集成机器学习模型来基于与第一类型的核苷酸读段(例如,短读段)和第二类型的核苷酸读段(例如,长读段)相关联的数据生成针对基因型检出的预测。如所公开的,所公开的系统可确定测序度量并可利用基因型检出集成机器学习模型来生成用于基于测序度量生成输出基因型检出的预测(例如,基因型概率、变体检出分类)。所公开的系统可利用多个此类基因型检出集成机器学习模型来生成针对不同变体类型诸如SNP和插入缺失的基因型检出,其中基因型检出集成机器学习模型生成针对每个变体类型的不同预测。

【技术实现步骤摘要】
【国外来华专利技术】


技术介绍

1、近年来,生物技术公司和研究机构已改进用于对核苷酸进行测序并确定读段的核苷酸碱基检出、以及随后确定基因组样品的变体检出和基因型检出的硬件和软件。例如,一些现有的核碱基测序平台通过使用常规桑格测序或通过使用边合成边测序(sbs)方法来确定序列内的各个核苷酸碱基(或“核碱基”)。当使用sbs时,现有的平台可监测平行合成的数千个核酸聚合物,以根据更大碱基检出数据集来预测基因型检出。例如,许多sbs平台中的相机捕获掺入寡核苷酸中的辐照荧光标签的图像,以用于确定核碱基检出。在捕获此类图像之后,现有的sbs平台向计算设备发送碱基检出数据(或图像数据),以应用确定核酸聚合物的核碱基序列的测序数据分析软件。基于比对的核苷酸读段与参考基因组之间的差异,现有系统可进一步利用变体检出器来识别基因组样品的变体,诸如单核苷酸多态性(snp)、插入和缺失(插入缺失)和/或结构变体、以及基因型检出。

2、尽管最近在测序和变体检出方面取得了这些进展,但现有的测序系统通常包括变体检出器,这些变体检出器不能准确地确定变体检出,特别是对于snp和插入缺失而言。例如,许多现有系统生成变体检出,这些变体检出包括针对snp和插入缺失的过量的假阳性检出和/或假阴性检出。造成这种不准确性的原因是,一些现有测序系统的约束规定它们从单流处理管道生成变体检出,这些管道一次只关注一个读段源。例如,如上文所提出,一些现有系统仅基于来自sbs测序的核苷酸读段来执行变体检出和/或变体检出过滤。再如,一些现有系统仅基于来自某些类型的长读段诸如循环共有测序(circular consensussequencing,ccs)读段或纳米孔长读段的核苷酸读段来执行变体检出。因此,仅依赖读段数据的单一源会导致许多现有系统生成的变体检出包括针对某些临床基准的过多假阳性检出和/或假阴性检出,这些假阳性检出和/或假阴性检出原本可以通过更准确的系统来减少。使问题进一步复杂化的是,诸如当现有系统基于ccs读段和纳米孔长读段,相对于使用其他类型的读段的测序系统生成具有更高插入缺失误差的变体检出时,不同的测序系统表现出不同的误差分布。

3、使这种变体检出的不准确性复杂化的是,一些现有的测序系统利用的模型需要对数百万或数十亿个碱基检出数据进行训练,而这些数据要么不可用,要么不完整。更具体地,一些现有的测序系统利用深度学习模型,这些深度学习模型需要大量的训练数据来实现可接受的准确测量。然而,对于某些变体类型(例如,结构变体),变体的训练数据相对有限,并且使用不完整或不充分的数据的训练模型会导致变体检出预测不准确且不可靠。因此,依赖于深度学习模型的一些现有系统可能产生不准确的变体检出,包括snp和插入缺失。

4、除了不准确地确定变体检出之外,一些现有的测序系统还因模型过于复杂而低效地消耗了计算资源。具体地,一些现有测序系统的变体检出器计算成本昂贵且缓慢。实际上,一些现有的测序系统利用具有深度学习架构的变体检出器,这些变体检出器需要大量的计算资源(例如,计算时间、处理能力和存储器)来训练和应用深度学习架构。例如,一些现有的测序系统需要花费数百个小时和多个图形处理单元(gpu)来训练复杂的卷积神经网络或其他深度学习架构,这些复杂的卷积神经网络或其他深度学习架构即使在训练后也需要跨多个计算设备花费许多小时(例如,多达24小时)才能生成针对单个样品序列的变体检出或基因型检出。

5、作为具有复杂深度学习网络的现有测序系统的另一个缺点,许多此类系统利用使得序列数据不可解释的模型架构。更具体地,作为生成变体检出的基础,一些现有的深度神经网络多次转变和操纵序列数据,在处理期间跨各个层和神经元从一个不可解释的潜在向量转变为另一个这样的潜在向量。在许多情况下,这些深度神经网络的内部数据是不可解释的,并且很难在神经网络架构本身之外以任何方式利用。


技术实现思路

1、本公开描述了可利用机器学习模型来基于来自不同类型的核苷酸读段的数据生成针对基因型检测的预测的方法、非暂态计算机可读介质和系统的实施方案。具体地,所公开的系统可从用于处理来自多个读段类型/源的核苷酸读段的组合管道生成基因型检出,以实现稳健、准确的基因型检出(包括组成变体检出)。例如,所公开的系统可训练或利用基因型检出集成机器学习模型来基于与第一类型的核苷酸读段(例如,短读段)和第二类型的核苷酸读段(例如,长读段)相关联的数据生成对基因型检出的预测。如所公开的,该系统可确定针对对应于第一类型的核苷酸读段的第一基因型检出和对应于第二类型的核苷酸读段的第二基因型检出的测序度量。基于对应于第一基因型检出和第二基因型检出的不同或共享的测序度量,所公开的系统利用基因型检出集成机器学习模型来生成预测(例如,基因型概率、变体检出分类),以用于更新或确认第一基因型检出或第二基因型检出、或确定不同的基因型检出。在一些情况下,所公开的系统可利用多个此类基因型检出集成机器学习模型来更新或确认针对不同变体类型(诸如snp和插入缺失)的基因型检出,其中该基因型检出集成机器学习模型针对每个变体类型生成不同的预测。

本文档来自技高网...

【技术保护点】

1.一种系统,所述系统包括:

2.根据权利要求1所述的系统,其中:

3.根据权利要求1所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统进行以下操作:

4.根据权利要求1所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统通过如下方式来生成所述输出基因型检出:

5.根据权利要求1所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统通过如下方式来生成所述基因型概率:

6.根据权利要求1所述的系统,其中所述第一基因型检出包括第一变体检出或第一参考检出,并且所述第二基因型检出包括第二变体检出或第二参考检出。

7.根据权利要求1所述的系统,其中所述第一基因型检出或所述第二基因型检出包括空数据指示符。

8.根据权利要求1所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统进行以下操作:

9.根据权利要求1所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统通过如下方式选择所述第一基因型检出而不是所述第二基因型检出来生成所述输出基因型检出:

10.根据权利要求1所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统通过如下方式选择所述第二基因型检出而不是所述第一基因型检出来生成所述输出基因型检出:

11.根据权利要求1所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统通过识别以下中的一者或多者来识别对应于所述第一基因型检出或所述第二基因型检出的所述测序度量:

12.根据权利要求1所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统通过确定以下中的一者或多者来识别对应于所述第一基因型检出或所述第二基因型检出的所述测序度量:基于读段的测序度量、检出模型生成的测序度量、外部来源的测序度量或与对应于所述第二类型的核苷酸读段的所述第二基因型检出相关联的第二读段类型测序度量。

13.根据权利要求1所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统通过识别基于读段的测序度量来识别对应于所述第一基因型检出或所述第二基因型检出的所述测序度量,所述基于读段的测序度量包括以下中的一者或多者:

14.根据权利要求1所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统通过识别检出模型生成的测序度量来识别对应于所述第一基因型检出或所述第二基因型检出的所述测序度量,所述检出模型生成的测序度量包括以下中的一者或多者:根据所述第一类型的核苷酸读段确定的所述第一基因型检出或根据所述第二类型的核苷酸读段确定的所述第二基因型检出的基因型度量、碱基检出质量度量、基因型质量度量、基因型概率度量或PHRED缩放可能性度量。

15.根据权利要求1所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统通过识别外部来源的测序度量来识别对应于所述第一基因型检出或所述第二基因型检出的所述测序度量,所述外部来源的测序度量包括以下中的一者或多者:

16.根据权利要求1所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统进行以下操作:

17.根据权利要求1所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统进行以下操作:

18.一种系统,所述系统包括:

19.根据权利要求18所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统进行以下操作:

20.根据权利要求18所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统通过生成以下中的一者或多者来生成针对所述候选变体的所述变体检出分类:

21.根据权利要求20所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统进行以下操作:

22.根据权利要求18所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统通过如下方式来生成所述输出基因型检出:

23.根据权利要求18所述的系统,其中:

24.根据权利要求18所述的系统,其中所述第一基因型检出包括第一变体检出或第一参考检出,并且所述第二基因型检出包括第二变体检出或第二参考检出。

25.根据权利要求18所述的系统,其中所述第...

【技术特征摘要】
【国外来华专利技术】

1.一种系统,所述系统包括:

2.根据权利要求1所述的系统,其中:

3.根据权利要求1所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统进行以下操作:

4.根据权利要求1所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统通过如下方式来生成所述输出基因型检出:

5.根据权利要求1所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统通过如下方式来生成所述基因型概率:

6.根据权利要求1所述的系统,其中所述第一基因型检出包括第一变体检出或第一参考检出,并且所述第二基因型检出包括第二变体检出或第二参考检出。

7.根据权利要求1所述的系统,其中所述第一基因型检出或所述第二基因型检出包括空数据指示符。

8.根据权利要求1所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统进行以下操作:

9.根据权利要求1所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统通过如下方式选择所述第一基因型检出而不是所述第二基因型检出来生成所述输出基因型检出:

10.根据权利要求1所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统通过如下方式选择所述第二基因型检出而不是所述第一基因型检出来生成所述输出基因型检出:

11.根据权利要求1所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统通过识别以下中的一者或多者来识别对应于所述第一基因型检出或所述第二基因型检出的所述测序度量:

12.根据权利要求1所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统通过确定以下中的一者或多者来识别对应于所述第一基因型检出或所述第二基因型检出的所述测序度量:基于读段的测序度量、检出模型生成的测序度量、外部来源的测序度量或与对应于所述第二类型的核苷酸读段的所述第二基因型检出相关联的第二读段类型测序度量。

13.根据权利要求1所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统通过识别基于读段的测序度量来识别对应于所述第一基因型检出或所述第二基因型检出的所述测序度量,所述基于读段的测序度量包括以下中的一者或多者:

14.根据权利要求1所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统通过识别检出模型生成的测序度量来识别对应于所述第一基因型检出或所述第二基因型检出的所述测序度量,所述检出模型生成的测序度量包括以下中的一者或多者:根据所述第一类型的核苷酸读段确定的所述第一基因型检出或根据所述第二类型的核苷酸读段确定的所述第二基因型检出的基因型度量、碱基检出质量度量、基因型质量度量、基因型概率度量或phred缩放可能性度量。

15.根据权利要求1所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统通过识别外部来源的测序度量来识别对应于所述第一基因型检出或所述第二基因型检出的所述测序度量,所述外部来源的测序度量包括以下中的一者或多者:

16.根据权利要求1所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统进行以下操作:

17.根据权利要求1所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统进行以下操作:

18.一种系统,所述系统包括:

19.根据权利要求18所述的系统,所述系统进一步存储指令,所述指令在...

【专利技术属性】
技术研发人员:G·D·帕纳比S·哈希米杜拉比A·L·哈尔彭M·吕勒
申请(专利权)人:因美纳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1