用于检测遗传变异的方法和系统技术方案

技术编号:25262007 阅读:49 留言:0更新日期:2020-08-14 22:58
本文公开了用于确定多核苷酸样品中的遗传变异(例如,拷贝数变异)的方法和系统。用于确定拷贝数变异的方法包括用双链体标记物标记双链多核苷酸,对来自样品的多核苷酸进行测序,以及估算定位至选定遗传基因座的多核苷酸的总数。多核苷酸总数的估算可以包括估算原始样品中没有生成序列阅读值的双链多核苷酸的数目。该数目可以采用两条互补链的阅读值都被检测到和两条互补链中仅一条的阅读值被检测到的多核苷酸的数目来生成。

【技术实现步骤摘要】
用于检测遗传变异的方法和系统本申请是申请日为2014年12月24日、申请号为201480076496.9、专利技术名称为“用于检测遗传变异的方法和系统”的中国专利申请(PCT申请号为PCT/US2014/072383)的分案申请。交叉引用本申请根据35U.S.C.§119(e)要求2013年12月28日提交的美国临时申请号61/921,456和2014年3月5日提交的美国临时申请号61/948,509的权益,每一个临时申请均通过引用全文并入本文。
多核苷酸的检测和定量对于分子生物学和医学应用如诊断学是重要的。遗传检测特别可用于许多诊断方法。例如,由稀有遗传改变(例如,序列变异体)或外遗传标记物的改变引起的病症,如癌症和部分或完全的非整倍性,可以用DNA序列信息进行检测或更准确地表征。遗传性疾病如癌症的早期检测和监测在疾病的成功治疗或管理中通常是有用的或需要的。一种方法可以包括监测来源于无细胞的核酸的样品,即可在不同类型的体液中发现的多核苷酸群体。在一些情况下,可以基于检测遗传异常,如一个或多个核酸序列的拷贝数变异和/或序列变异,或其他某些稀有遗传改变的发展,来表征或检测疾病。无细胞的DNA(cfDNA)可以包含与特定疾病相关的遗传异常。随着测序和操纵核酸的技术的改进,本领域中存在对使用无细胞的DNA来检测和监测疾病的改进方法和系统的需求。具体而言,已开发了许多方法用于精确的拷贝数变异估算,尤其针对异质基因组样品如肿瘤衍生的gDNA或cfDNA,以用于许多应用(例如,产前、移植、免疫、宏基因组学或癌症诊断学)。这些方法中的大多数包括样品制备,由此将原始核酸转化为可测序文库,然后进行大规模平行测序,并最终用生物信息学来估算在一个或多个基因座处的拷贝数变异。
技术实现思路
尽管这些方法中的许多对于经转化并测序的所有分子能够减少或阻止由样品制备和测序过程引入的错误,但这些方法不能推断出经转化但未测序的分子的计数。因为转化但未测序的分子的这种计数可能在基因组区之间高度可变,所以这些计数可显著且不利地影响能达到的灵敏度。为了解决这一问题,可通过标记(在一些情况下差异性地标记)单个双链分子的两条链的过程转化输入双链脱氧核糖核酸(DNA)。这可以使用多种技术来进行,包括连接发夹、气泡或叉状衔接子或具有双链和单链区段的其他衔接子(气泡、叉状或发夹衔接子的未杂交的部分在此被认为是单链的)。如果正确地标记,则输入双链DNA分子的每个原始的Watson和Crick(即,链)侧可被差异性地标记并通过测序仪和后续的生物信息学来鉴定。对于特定区域中的所有分子,可以记录其中与仅找回(recover)一半的那些分子(“单态(Singlet))”)相比Watson和Crick侧均找回的分子(“对态(Pair)”)的计数。可以根据检测到的对态和单态的数目来估算未发现的分子的数目。本公开内容的一个方面提供了一种用于检测和/或定量原始DNA片段的异质群体中的稀有脱氧核糖核酸(DNA)的方法,其包括使用多个不同标记物的文库在单一反应中标记原始DNA片段,使得超过30%的片段在两端被标记,其中每个标记物包含分子条形码。所述单一反应可以在单个反应器皿中。超过50%的片段可以在两端被标记。所述多个不同的标记物可以不超过100、500、1000、10,000或100,000个中的任意个不同的标记物。另一个方面提供了可用于标记感兴趣的分子(例如,通过连接、杂交等)的一组文库衔接子。这组文库衔接子可包含具有分子条形码的多个多核苷酸分子,其中所述多个多核苷酸分子为小于或等于80个核苷酸碱基的长度,其中所述分子条形码为至少4个核苷酸碱基的长度,并且其中(a)所述分子条形码彼此不同,并且彼此之间具有至少为1的编辑距离;(b)所述分子条形码位于距离其各自的多核苷酸分子的末端至少一个核苷酸碱基处;(c)任选地,在所有多核苷酸分子中至少一个末端碱基是相同的;并且(d)所述多核苷酸分子均不含有完整的测序仪基序(sequencermotif)。在一些实施方案中,除了分子条形码之外,所述文库衔接子(或衔接体)彼此相同。在一些实施方案中,所述多个文库衔接子中的每一个均包含至少一个双链部分和至少一个单链部分(例如,非互补部分或突出端)。在一些实施方案中,所述双链部分具有选自不同分子条形码的集合的分子条形码。在一些实施方案中,给定的分子条形码是随机寡核苷酸(randomer)。在一些实施方案中,每个文库衔接子进一步在至少一个单链部分上包含链标识条形码。在一些实施方案中,所述链标识条形码包含至少4个核苷酸碱基。在一些实施方案中,所述单链部分具有部分测序仪基序。在一些实施方案中,所述文库衔接子不包含完整的测序仪基序。在一些实施方案中,所述文库衔接子均不含有用于与流动池杂交或形成发夹以供测序的序列。在一些实施方案中,所有文库衔接子均具有含有相同核苷酸的末端。在一些实施方案中,所述相同的末端核苷酸为超过两个或更多个核苷酸碱基的长度。在一些实施方案中,每个文库衔接子均为Y形、气泡形或发夹形。在一些实施方案中,该文库衔接子均不含有样品标识基序。在一些实施方案中,每个文库衔接子均包含可与通用引物选择性杂交的序列。在一些实施方案中,每个文库衔接子均包含至少5、6、7、8、9和10个核苷酸碱基长度的分子条形码。在一些实施方案中,每个文库衔接子均为10个至80个核苷酸碱基的长度,或30至70个核苷酸碱基的长度,或40至60个核苷酸碱基的长度。在一些实施方案中,在所有的文库衔接子中至少1、2、3或4个末端碱基是相同的。在一些实施方案中,在所有的文库衔接子中至少4个末端碱基是相同的。在一些实施方案中,所述文库衔接子的分子条形码的编辑距离为汉明距离(Hammingdistance)。在一些实施方案中,该编辑距离为至少1、2、3、4或5。在一些实施方案中,该编辑距离是就所述多个多核苷酸分子的单个碱基而言的。在一些实施方案中,该分子条形码位于距离衔接子的末端至少10个核苷酸碱基处。在一些实施方案中,所述多个文库衔接子包含至少2、4、6、8、10、20、30、40或50个不同的分子条形码,或2-100、4-80、6-60或8-40个不同的分子条形码。在本文的任何实施方案中,待标记的多核苷酸(例如,cfDNA片段)多于不同的分子条形码,使得所述标记不是独特的。在一些实施方案中,衔接子的末端被配置用于连接(例如,与靶核酸分子连接)。在一些实施方案中,衔接子的末端是平端。在一些实施方案中,对衔接子进行纯化并分离。在一些实施方案中,所述文库包含一个或多个非天然存在的碱基。在一些实施方案中,所述多核苷酸分子包含相对于分子条形码位于5’的引物序列。在一些实施方案中,该组文库衔接子基本上由所述多个多核苷酸分子组成。在另一个方面,一种方法包括(a)用来自衔接子的文库的多个多核苷酸分子标记多核苷酸的集合以创建标记的多核苷酸的集合;以及(b)在测序衔接子的存在下扩增标记的多核苷酸的集合,其中该测序衔接子具有引物,该引物具有可与所述多个多核苷本文档来自技高网
...

【技术保护点】
1.一种用于确定指示样品中单独双链脱氧核糖核酸(DNA)分子数目的定量量度的方法,其包括:/n(a)确定两条链均被检测到的单独DNA分子的定量量度;/n(b)确定仅一条DNA链被检测到的单独DNA分子的定量量度;/n(c)从以上(a)和(b)推断两条链均未被检测到的单独DNA分子的定量量度;以及/n(d)使用(a)-(c)确定指示所述样品中单独双链DNA分子数目的定量量度。/n

【技术特征摘要】
20131228 US 61/921,456;20140305 US 61/948,5091.一种用于确定指示样品中单独双链脱氧核糖核酸(DNA)分子数目的定量量度的方法,其包括:
(a)确定两条链均被检测到的单独DNA分子的定量量度;
(b)确定仅一条DNA链被检测到的单独DNA分子的定量量度;
(c)从以上(a)和(b)推断两条链均未被检测到的单独DNA分子的定量量度;以及
(d)使用(a)-(c)确定指示所述样品中单独双链DNA分子数目的定量量度。


2.一种用于减少测序分析中的失真的方法,其包括:
(a)用第一标记物组标记对照亲本多核苷酸以产生标记的对照亲本多核苷酸;
(b)用第二标记物组标记测试亲本多核苷酸以产生标记的测试亲本多核苷酸;
(c)使标记的对照亲本多核苷酸与标记的测试亲本多核苷酸混合以形成集合库;
(d)确定标记的对照亲本多核苷酸和标记的测试亲本多核苷酸的量;以及
(e)使用标记的对照亲本多核苷酸的量减少标记的测试亲本多核苷酸的量的失真。


3.一组文库衔接子,其包含具有分子条形码的多个多核苷酸分子,其中所述多个多核苷酸分子为小于或等于80个核苷酸碱基的长度,其中所述分子条形码为至少4个核苷酸碱基的长度,并且其中:
(a)所述分子条形码彼此不同,并且彼此之间具有至少为1的编辑距离;
(b)所述分子条形码位于距离其各自的多核苷酸分子的末端至少一个核苷酸碱基处;
(c)任选地,在所有所述多核苷酸分子中至少一个末端碱基是相同的;并且
(d)所述多核苷酸分子均不含有完整的测序仪基序。


4.一种方法,其包括:
(a)用来自如权利要求14中的衔接子文库的多个多核苷酸分子标记多核苷酸的集合,以创建标记的多核苷酸的集合;以及
(b)在测序衔接子的存在下扩增所述标记的多核苷酸的集合,其中所述测序衔接子具有引物,该引物具有能与所述多个多核苷酸分子中的互补序列选择性杂交的核苷酸序列。


5.一种用于检测或定量原始DNA片段的异质群体中的稀有脱氧核糖核酸(DNA)的方法,其中所述稀有DNA具有小于1%的浓度,该方法包括:
(a)在单一反应中标记所述原始DNA片段,使得超过30%的所述原始DNA片段在两端被包含分子条形码的文库衔接子标记,从而提供标记的DNA片段;
(b)对所述标记的DNA片段进行高保真度扩增;
(c)任选地,选择性地富集所述标记的DNA片段的亚组;
(d)对所述标记、扩增并任选地选择性富集的DNA片段中的一条或两条链进行测序,以获得包含所述分子条形码的核苷酸序列和所述原始DNA片段的至少一部分的序列阅读值;
(e)从所述序列阅读值确定代表所述原始DNA片段的单链的共有阅读值;以及
(f)定量所述共有阅读值以便以大于99.9%的特异性检测或定量所述稀有DNA。


6.一种用于处理和/或分析受试者的核酸样品的方法,其包括:
(a)将来自所述核酸样品的多核苷酸片段暴露于一组文库衔接子,以生成标记的多核苷酸片段;以及
(b)在产生扩增的多核苷酸片段作为所述标记的多核苷酸片段的扩增产物的条件下,使所述标记的多核苷酸片段经历核酸扩增反应,
其中该组文库衔接子包含具有分子条形码的多个多核苷酸分子,其中所述多个多核苷酸分子为小于或等于80个核苷酸碱基的长度,其中所述分子条形码为至少4个核苷酸碱基的长度,并且其中:
(1)所述分子条形码彼此不同,并且彼此之间具有至少为1的编辑距离;
(2)所述分子条形码位于距离其各自的多核苷酸分子的末端至少一个核苷酸碱基处;
(3)任选地,在所有所述多核苷酸分子中至少一个末端碱基是相同的;并且
(4)所述多核苷酸分子均不含有完整的测序仪基序。


7.一种方法,其包括:
(a)由多个多核苷酸分子生成多个序列阅读值,其中所述多个多核苷酸分子覆盖靶基因组的基因组基因座,其中所述基因组基因座对应于选自下组的多个基因:ALK、APC、BRAF、CDKN2A、EGFR、ERBB2、FBXW7、KRAS、MYC、NOTCH1、NRAS、PIK3CA、PTEN、RB1、TP53、MET、AR、ABL1、AKT1、ATM、CDH1、CSF1R、CTNNB1、ERBB4、EZH2、FGFR1、FGFR2、FGFR3、FLT3、GNA11、GNAQ、GNAS、HNF1A、HRAS、IDH1、IDH2、JAK2、...

【专利技术属性】
技术研发人员:埃尔米·埃尔图凯阿米尔阿里·塔拉萨兹
申请(专利权)人:夸登特健康公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1