分子标记计数调整方法技术

技术编号:19878476 阅读:34 留言:0更新日期:2018-12-22 18:01
本文披露的是用于确定靶的数量的方法和系统。在一些实施例中,该方法包括:使用随机条形码对靶进行随机地条形码化;获得测序数据;对于这些靶中的一个或多个:对具有与该测序数据中的靶相关的不同序列的分子标记的数量进行计数;使用定向邻接鉴定靶的分子标记的簇;使用鉴定的靶的分子标记的簇对测序数据进行折叠;并估计靶的数量。

【技术实现步骤摘要】
【国外来华专利技术】分子标记计数调整方法相关申请的交叉引用本申请根据35U.S.C.§119(e)要求于2016年5月26日提交的美国临时专利号62/342137、2016年8月31日提交美国临时专利号62/381945、和2016年9月29日提交的美国临时专利号62/401720的优先权,其每个的内容通过引用以其整体明确地并入本文。专利技术背景
本披露总体上涉及分子条形码的领域,并更具体地涉及使用分子标记校正PCR和测序错误。相关技术说明如随机条形码化的方法和技术对于细胞分析有用,特别是使用例如逆转录、聚合酶链反应(PCR)扩增、和下一代测序(NGS)以解密基因表达谱来确定细胞的状态。然而,这些方法和技术可能引入错误(如取代错误(包括一个或多个碱基)和非取代错误),如果未校正其可导致过高估计的分子计数。因此,需要能够校正各种错误的方法和技术以获得使用随机条形码化来估计的准确的分子计数。
技术实现思路
本文披露的是用于确定靶的数量的方法。在一些实施例中,该方法包括:(a)使用多个随机的条形码来随机地条形码化多个靶以创造多个随机地条形码化的靶,其中该多个随机条形码的每个包含分子标记;(b)获得随机地条形码化的靶的测序数据;以及(c)对于该多个靶中的一个或多个:(i)对具有与测序数据中的靶相关的不同序列的分子标记的数量进行计数;(ii)确定(b)中获得的测序数据中靶的质量状态;(iii)确定(b)中获得的测序数据中的一个或多个测序数据错误,其中确定测序数据中一个或多个测序数据错误包含确定以下的一个或多个:具有与测序数据中靶相关的不同序列的分子标记的数量、测序数据中靶的质量状态、多个随机条形码中具有不同序列的分子标记的数量;以及(iv)估计靶的数量,其中经估计的靶的数量与分子标记的数量关联,这些分子标记具有与根据(iii)中确定的一个或多个测序数据错误进行调整的(i)中计数的测序数据中的靶相关的不同的序列。可以对该多个靶中的每个进行步骤(i)、(ii)、(iii)、和(iv)。该方法可以是多路复用的。在一些实施例中,该方法进一步包括:在确定一个或多个测序数据错误之前,对(b)中获得的测序数据进行折叠。对(b)中获得的测序数据进行折叠,包含:对于该多个靶将具有相似分子标记以及具有小于预定的折叠出现阀值的出现的靶的拷贝指定为具有相同的分子标记,其中如果靶的两个拷贝的分子标记在序列中具有至少一个碱基差异,则该靶的两个拷贝具有相似的分子标记。在一些实施例中,如果随机条形码包含具有不同序列的约6561个分子标记,则预定的折叠出现阀值可以是7。如果随机条形码包含具有不同序列的约65536个分子标记,则预定的折叠出现阀值可以是17。如果靶的两个拷贝的分子标记在序列中具有至少一个碱基差异,则靶的两个拷贝具有相似的分子标记。在一些实施例中,分子标记包含5-20个核苷酸。不同随机条形码的分子标记可以彼此不同。多个随机条形码包含具有不同序列的约6561个分子标记。多个随机条形码包含具有不同序列的约65536个分子标记。在一些实施例中,测序数据包含具有读取长度为50个或更多个核苷酸的多个靶的序列。测序数据包含具有读取长度为75个或更多个核苷酸的多个靶的序列。测序数据包含具有读取长度为100个或更多个核苷酸的多个靶的序列。(b)中获得的测序数据可以通过对多个随机地条形码化的靶进行聚合酶链式反应(PCR)扩增来产生。在一些实施例中,一个或多个测序数据错误可以是PCR引入的错误、测序引入的错误、由条形码污染引起的错误、文库制备错误、或其任何组合。PCR引入的错误可以是PCR扩增错误、PCR扩增偏差、PCR扩增不足、或其任何组合的结果。测序引入的错误可以是不精确的碱基调用、测序不足、或其任何组合的结果。在一些实施例中,测序数据中的靶的质量状态可以是完全测序、不完全测序、或饱和的测序。测序数据中的靶的质量状态可以通过多个随机条形码中具有不同序列的分子标记的数量、以及具有与计数的测序数据中的靶相关的不同序列的分子标记的数量来确定。如果(b)中获得的测序数据中的靶的质量状态不是完全测序且不是饱和的测序,则测序数据中的靶的质量状态可以被归类为不完全测序。在一些实施例中,完全测序质量状态可以通过相对于泊松分布的分散指数大于或等于预定的完全测序离散阀值确定,其中预定的完全测序离散阀值可以是0.9、1、或4。完全测序质量状态可以进一步通过具有大于或等于(b)中获得的测序数据中的预定的完全测序出现阀值的出现的分子标记确定,其中预定的完全测序出现阀值可以是10或18。在一些实施例中,饱和的测序质量状态可以通过具有大于预定的饱和阀值的数量的分子标记的靶来确定,这些分子标记具有不同序列。饱和的测序质量状态可以进一步通过该多个靶的另一个靶确定,其具有大于预定的饱和阀值的大量的具有不同序列的分子标记。如果随机条形码包含具有不同序列的约6561个分子标记,则预定的饱和阀值可以是6557。如果随机条形码包含具有不同序列的约65536个分子标记,则预定的饱和阀值可以是65532。在一些实施例中,将具有与(i)中计数的测序数据中的靶相关的不同序列的分子标记的数量在(iv)中通过以下调整:如果靶具有完全测序质量状态,则确定对于一个或多个亲本分子标记的所有子分子标记;对至少一个子分子标记和亲本分子标记进行第一统计分析;以及如果接受第一统计分析的零假设,则将子分子标记的出现归因于亲本分子标记。在一些实施例中,一个或多个亲本分子标记包含具有大于或等于预定的完全测序亲本阀值的出现的分子标记,其中预定的完全测序亲本阀值等于预定的完全测序出现阀值。子分子标记包含与亲本分子标记具有一个碱基差异且具有小于或等于预定的完全测序子阀值出现的分子标记,其中预定的完全测序子阀值可以是3或5。如果零假设为真的概率低于假发现率,则可以接受第一统计分析的零假设,其中假发现率是5%或10%。第一统计分析可以是多重二项检验。在一些实施例中,将具有与(i)中计数的测序数据中的靶相关的不同序列的分子标记的数量在(iv)中通过以下调整:如果靶具有完全测序质量状态,则限定靶的分子标记的阀值以确定与(b)中获得的测序数据中的靶相关的真分子标记和假分子标记。限定靶的分子标记的阀值包含对靶的分子标记进行第二统计分析。在一些实施例中,进行第二统计分析包含:将靶的分子标记及其出现的分布拟合至两个泊松分布;使用两个泊松分布确定真分子标记的数量n;以及从(b)中获得的测序数据中去除假分子标记,其中这些假分子标记包含具有其出现低于第n个最丰富分子标记的出现的分子标记,并且其中这些真分子标记包含具有其出现大于或等于第n个最丰富分子标记的出现的分子标记。两个泊松分布包含对应于真分子标记的第一泊松分布、和对应于假分子标记的第二泊松分布。在一些实施例中,具有与(i)中计数的测序数据中的靶相关的不同序列的分子标记的数量可以在(iv)中通过以下确定:如果(b)中获得的测序数据中的靶的质量状态是不完全测序质量状态,则确定(b)中获得的测序数据中的靶是否是噪音;以及从(b)中获得的测序数据中去除噪音靶。如果噪音靶的分子标记的出现小于或等于不完全测序噪音靶阀值,则该靶可以是噪音,其中该不完全测序噪音基因阀值是5。不完全测序噪音靶阀值可以等于具有完全测序的质量本文档来自技高网...

【技术保护点】
1.一种用于确定靶的数量的方法,该方法包括:(a)使用多个随机的条形码来随机地条形码化多个靶以创造多个随机地条形码化的靶,其中该多个随机条形码的每个包含分子标记;(b)获得该随机地条形码化的靶的测序数据;以及(c)对于该多个靶中的一个或多个:(i)对具有与该测序数据中的靶相关的不同序列的分子标记的数量进行计数;(ii)使用定向邻接鉴定靶的分子标记的簇;(iii)使用(ii)中鉴定的靶的分子标记的簇对(b)中获得的测序数据进行折叠;以及(iv)估计靶的数量,其中在对(ii)中的测序数据进行折叠后,该经估计的靶的数量与分子标记的数量关联,这些分子标记具有与(i)中计数的测序数据中的靶相关的不同的序列。

【技术特征摘要】
【国外来华专利技术】2016.05.26 US 62/342,137;2016.08.31 US 62/381,945;1.一种用于确定靶的数量的方法,该方法包括:(a)使用多个随机的条形码来随机地条形码化多个靶以创造多个随机地条形码化的靶,其中该多个随机条形码的每个包含分子标记;(b)获得该随机地条形码化的靶的测序数据;以及(c)对于该多个靶中的一个或多个:(i)对具有与该测序数据中的靶相关的不同序列的分子标记的数量进行计数;(ii)使用定向邻接鉴定靶的分子标记的簇;(iii)使用(ii)中鉴定的靶的分子标记的簇对(b)中获得的测序数据进行折叠;以及(iv)估计靶的数量,其中在对(ii)中的测序数据进行折叠后,该经估计的靶的数量与分子标记的数量关联,这些分子标记具有与(i)中计数的测序数据中的靶相关的不同的序列。2.如权利要求1所述的方法,其中该多个靶包含细胞的整个转录组的靶。3.如权利要求1-2中任一项所述的方法,其中簇中的靶的分子标记在彼此的预定的定向邻接阀值内。4.如权利要求3所述的方法,其中该定向邻接阀值是一汉明距离。5.如权利要求1-4中任一项所述的方法,其中在该簇内的靶的分子标记包含一个或多个亲本分子标记和该一个或多个亲本分子标记的子分子标记,并且其中该亲本分子标记的出现大于或等于预定的定向邻接出现阀值。6.如权利要求5所述的方法,其中该预定的定向邻接出现阀值是少于一的子分子标记的出现的两倍。7.如权利要求1-6中任一项所述的方法,其中使用(ii)中鉴定的靶的分子标记的簇对(b)中获得的测序数据进行折叠,包括:将子分子标记的出现归因于亲本分子标记。8.如权利要求1-7中任一项所述的方法,该方法进一步包括:确定靶的测序深度。9.如权利要求8所述的方法,其中如果靶的测序深度高于预定的测序深度阀值,则对靶的数量进行估计包括调整(i)中计数的测序数据。10.如权利要求9所述的方法,其中该预定的测序深度阀值在15与20之间。11.如权利要求9-10中任一项所述的方法,其中对(i)中计数的测序数据进行调整包括:限定靶的分子标记的阀值以确定与(b)中获得的测序数据中的靶相关的真分子标记和假分子标记。12.如权利要求11所述的方法,其中限定靶的分子标记的阀值包括对靶的分子标记进行统计分析。13.如权利要求12所述的方法,其中进行该统计分析包括:将靶的分子标记及其出现的分布拟合至两个负二项分布;使用这两个负二项分布来确定真分子标记的数量n;以及从(b)中获得测序数据中去除假分子标记,其中这些假分子标记包含其出现低于第n个最丰富分子标记的出现的分子标记,并且其中这些真分子标记包含其出现大于或等于第n个最丰富分子标记的出现的分子标记。14.如权利要求13所述的方法,其中这两个负二项分布包含对应于这些真分子标记的第一负二项分布、和对应于这些假分子标记的第二负二项分布。15.一种用于确定靶的数量的方法,该方法包括:(a)使用多个随机的条形码来随机地条形码化多个靶以创造多个随机地条形码化的靶,其中该多个随机条形码的每个包含分子标记;(b)获得该随机地条形码化的靶的测序数据;以及(c)对于该多个靶中的一个或多个:(i)对具有与该测序数据中的靶相关的不同序列的分子标记的数量进行计数;(ii)确定具有与该测序数据中的靶相关的不同序列的噪音分子标记的数量;以及(iii)估计靶的数量,其中经估计的靶的数量与根据(ii)中确定的噪音分子标记的数量进行调整的分子标记的数量关联,这些分子标记具有与(i)中计数的测序数据中的靶相关的不同序列。16.如权利要求15所述的方法,该方法进一步包括确定测序数据中的靶的测序状态。17.如权利要求16所述的方法,其中该测序数据中的靶的测序状态是饱和的测序、测序不足、或过度测序。18.如权利要求17所述的方法,其中该饱和的测序状态是通过具有大于预定的饱和阀值的数量的分子标记的靶确定的,这些分子标记具有不同序列。19.如权利要求18所述的方法,其中如果这些随机条形码包含具有不同序列的约6561个分子标记,则该预定的饱和阀值是约6557。20.如权利要求18-19中任一项所述的方法,其中如果这些随机条形码包含具有不同序列的约65536个分子标记,则该预定的饱和阀值是约65532。21.如权利要求17-20中任一项所述的方法,其中如果该测序数据中的靶的测序状态是饱和的测序状态,则(ii)中确定的噪音分子标记的数量是零。22.如权利要求17-21中任一项所述的方法,其中该测序不足状态通过具有小于预定的测序不足阀值的深度的靶来确定,其中靶的深度包含具有与该测序数据中的靶相关的不同序列的分子标记的平均、最小、或最大深度。23.如权利要求22所述的方法,其中该测序不足阀值是约四。24.如权利要求23所述的方法,其中该测序不足阀值独立于具有不同序列的分子标记的数量。25.如权利要求17-24中任一项所述的方法,其中如果该测序数据中的靶的测序状态是测序不足状态,则(ii)中确定的噪音分子标记的数量是零。26.如权利要求17-25中任一项所述的方法,其中该过度测序状态通过具有大于预定的过度测序阀值的深度的靶来确定,其中靶的深度包含具有与该测序数据中的靶相关的不同序列的分子标记的平均、最小、或最大深度。27.如权利要求26所述的方法,其中如果这些随机条形码包含具有不同序列的约6561个分子标记,则该过度测序阀值是约250。28.如权利要求26-27中任一项所述的方法,如果该测序数据中的靶的测序状态是过度测序状态,则该方法进一步包括:将具有与该测序数据中的靶相关的不同序列的分子标记的数量进行二次取样至约预定的过度测序阀值。29.如权利要求17-28中任一项所述的方法,其中确定具有与该测序数据中的靶相关的不同序列的噪音分子标记的数量包括:如果满足负二项分布拟合条件,(iv)将信号负二项分布拟合至具有与(i)中计数的测序数据中的靶相关的不同序列的分子标记的数量,其中该信号负二项分布对应于作为信号分子标记的、具有与(i)中计数的测序数据中的靶相关的不同序列的分子标记的数量;(v)将噪音负二项分布拟合至具有与(i)中计数的测序数据中的靶相关的不同序列的分子标记的数量,其中该噪音负二项分布对应于作为噪音分子标记的、具有与(i)中计数的测序数据中的靶相关的不同序列的分子标记的数量;以及(vi)使用(v)中拟合的信号负二项分布以及(vi)中拟合的噪音负二项分布来确定噪音分子标记的数量。30.如权利要求29所述的方法,其中该负二项分布拟合条件包含:该测序数据中的靶的测序状态不是测序不足状态或过度测序状态。31.如权利要求29-30中任一项所述的方法,使用(v)中拟合的信号负二项分布以及(vi)中拟合的噪音负二项分布来确定噪音分子标记的数量包括:对与该测序数据中的靶相关的不同序列的每个:确定该不同序列在该信号负二项分布中的信号概率;确定该不同序列在该噪音负二项分布中的噪音概率;以及如果该信号概率小于该噪音概率,则将该不同序列确定为噪音分子标记。32.如权利要求17-31中任一项所述的方法,其中确定具有与该测序数据中的靶相关的不同序列的噪音分子标记的数量包括:如果测序数据中的靶的测序状态不是测序不足状态或过度测序状态且具有与(i)中计数的测序数据中的靶相关的不同序列的分子标记的数量小于伪点阀值,则在确定具有与(ii)中的测序数据中的靶相关的不同序列的噪音分子标记的数量之前,向具有与测序数据中的靶相关的不同序列的分子标记的数量中添加伪点。33.如权利要求32所述的方法,其中该伪点阀值是十。34.如权利要求17-33中任一项所述的方法,其中确定具有与该测序数据中的靶相关的不同序列的噪音分子标记的数量包括:如果测序数据中的靶的测序状态不是测序不足状态或过度测序状态且具有与(i)中计数的测序数据中的靶相关的不同序列的分子标记的数量不小于伪点阀值,则当确定具有与(ii)中的测序数据中的靶相关的不同序列的噪音分子标记的数量时,去除非独特分子标记。35.如权利要求34所述的方法,其中去除非独特分子标记包括:如果具有与测序数据中的靶相关的不同序列的分子标记的数量大于预定的再循环分子标记阀值,则当确定具有与(ii)中的测序数据中的靶相关的不同序列的噪音分子标记的数量时,去除非独特分子标记。36.如权利要求35所述的方法,其中如果随机条形码包含具有不同序列的约6561个分子标记,该该再循环分子标记阀值是约650。37.如权利要求34-36中任一项所述的方法,其中去除非独特分子标记包括:针对具有与该测序数据中的靶相关的不同序列的分子标记的数量确定非独特分子标记的理论数量;以及以及去除分子标记,该分子标记的出现大于具有与该测序数据中的靶相关的不同序列的分子标记的第n个最丰富分子标记,其中n是非独特分子标记的理论数量。38.一种用于确定靶的数量的计算机系统,该计算机系统包含:硬件处理器;和具有存储在其上的指令的非暂时性存储器,这些指令当通过该硬件处理器执行时使得该处理器执行如权利要求1-37中任一项所述的方法。39.一种计算机可读介质,其包含软件程序,该软件程序包含用于执行如权利要求1-37中任一项所述的方法的代码。40.一种用于确定靶的数量的方法,该方法包括:(a)使用多个随机的条形码来随机地条形码化多个靶以创造多个随机地条形码化的靶,其中该多个随机条形码的每个包含分子标记;(b)获得该随机地条形码化的靶的测序数据;和(c)对于该多个靶中的一个或多个:(i)对具有与该测序数据中的靶相关的不同序列的分子标记的数量进行计数;(ii)确定(b)中获得的测序数据中的靶的质量状态;(iii)确定(b)中获得的测序数据中的一个或多个测序数据错误,其中确定该测序数据中一个或多个测序数据错误包括确定以下的一个或多个:具有与该测序数据中的靶相关的不同序列的分子标记的数量、该测序数据中的靶的质量状态、该多个随机条形码中具有不同序列的分子标记的数量;以及(iv)估计靶的数量,其中经估计的靶的数量与根据(iii)中确定的一个或多个测序数据错误进行调整的分子标记的数量关联,这些分子标记具有与(i)中计数的测序数据中的靶相关的不同序列。41.如权利要求40所述的方法,该方法进一步包括:在确定该一个或多个测序数据错误之前,对(b)中获得的测序数据进行折叠。42.如权利要求41所述的方法,其中对(b)中获得的测序数据进行折叠包括:对于该多个靶将具有相似分子标记以及具有小于预定的折叠出现阀值的出现的靶的拷贝指定为具有相同的分子标记,其中如果靶的两个拷贝的分子标记在序列中具有至少一个碱基差异,则该靶的两个拷贝具有相似的分子标记。43.如权利要求42所述的方法,其中如果该随机条形码包含具有不同序列的约6561个分子标记,则该预定的折叠出现阀值是7。44.如权利要求42所述的方法,其中如果该随机条形码包含具有不同序列的约65536个分子标记,则该预定的折叠出现阀值是17。45.如权利要求42-44中任一项所述的方法,其中如果靶的两个拷贝的分子标记在序列中具有至少一个碱基差异,则靶的两个拷贝具有相似的分子标记。46.如权利要求40-45中任一项所述的方法,其中该分子标记包含5-20个核苷酸。47.如权利要求40-46中任一项所述的方法,其中不同的随机条形码的分子标记彼此不同。48.如权利要求40-47中任一项所述的方法,其中该多个随机条形码包含具有不同序列的约6561个分子标记。49.如权利要求40-47中任一项所述的方法,其中该多个随机条形码包含具有不同序列的约65536个分子标记。50.如权利要求40-49中任一项所述的方法,其中该测序数据包含具有读数长度为50个或更多个核苷酸的多个靶的序列。51.如权利要求40-49中任一项所述的方法,其中该测序数据包含具有读数长度为75个或更多个核苷酸的多个靶的序列。52.如权利要求40-49中任一项所述的方法,其中该测序数据包含具有读数长度为100个或更多个核苷酸的多个靶的序列。53.如权利要求40-52中任一项所述的方法,其中(b)中获得的测序数据是通过对该多个随机地条形码化的靶进行聚合酶链式反应(PCR)扩增产生的。54.如权利要求40-53中任一项所述的方法,其中该一个或多个测序数据错误是PCR引入的错误、测序引入的错误、由条形码污染引起的错误、文库制备错误、或其任何组合。55.如权利要求54所述的方法,其中该PCR引入的错误是PCR扩增错误、PCR扩增偏差、PCR扩增不足、或其任何组合的结果。56.如...

【专利技术属性】
技术研发人员:范珏詹尼弗·蔡艾琳·夏姆邓丽莎格伦·K·弗
申请(专利权)人:赛卢拉研究公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1