使用经破碎的核苷酸的高通量多重测序确定基因拷贝数制造技术

技术编号:19073741 阅读:29 留言:0更新日期:2018-09-29 16:58
本发明专利技术提供了SMASH(短多重聚合序列同源性),其是一种设计用于将多个独立的映射包含在每个读段中的技术。具体而言,本发明专利技术涉及一种组合物,所述组合物包含不同嵌合基因组核酸片段的第一混合物,其中所述混合物中的不同片段各自包含随机连接的DNA区段,其中片段中的每个DNA区段是长度为至少27个碱基对的核酸分子,由单个基因组的随机片段化产生。本发明专利技术还涉及产生所述组合物的方法和所述组合物用于获得诸如拷贝数变异的基因组信息的用途。

【技术实现步骤摘要】
【国外来华专利技术】使用经破碎的核苷酸的高通量多重测序确定基因拷贝数本申请要求于2016年2月5日提交的第62/292,151号美国临时申请、于2015年11月3日提交的第62/250,405号美国临时申请以及于2015年9月8日提交的第62/215,540号美国临时申请的优先权,它们的内容通过引用并入本文。在本申请全文中,引用了各种出版物,包括在括号中引用的那些。对在括号中引用的出版物的完整引用可以在权利要求书之前的说明书末尾找到。所有引用的出版物的公开内容全部通过引用并入到本申请中,以更全面地描述本专利技术所属领域的状态。
技术介绍
在基因组尺度上分析拷贝数变异体(CNV)可用于评估癌症进展和鉴定先天性遗传异常。CNV通常通过微阵列杂交鉴定,但也可以通过下一代测序(NGS)检测(Alkan等,2009;Sudmant等,2010)。这通常使用测量映射(mapping)到特定区域的序列读段(reads)的数量的算法来完成。因此,基于序列的拷贝数方法的分辨率在很大程度上取决于独立映射的数量。下一代测序技术目前的趋势是增加每单位成本读取的碱基数量。这通过增加流动池中每条泳道的序列读段总数以及增加每个读段中的碱基数来完成。由于拷贝数测定方法的准确性是由独立读段的数量决定的,增加的序列读段长度不会提高拷贝数分析的分辨率。大部分基因组被短的读段很好地映射,短的读段大约25-30个碱基对(bp)。目前,高通量测序仪正在产生约150bp的读段长度,远远超过了满足唯一映射所需的读段长度。
技术实现思路
为了利用不断增加的读段长度,SMASH(短多重聚合序列同源性,ShortMultiplyAggregatedSequenceHomologies)被开发为优化用于将多个独立映射包含在每个读段中的技术。这是通过将基因组DNA破碎成小但仍可映射的区段来实现的,区段平均长度为约40bp。将这些小的区段组合成长度适合于产生NGS文库(300-700bp)的DNA嵌合片段。使用具有时效性的内存密集型映射算法处理由SMASH产生的嵌合序列读段,该算法将长的片段读段保守划分为组成型区段映射序列(map)。在下游拷贝数分析中以与使用读段映射序列相同的方式使用该区段映射序列。对于150-bp双末端读段,目前为止最具成本效益的测序平台的全基因组测序(WGS)平均数小于每读段对一个映射序列,而SMASH平均数>4。SMASH映射序列的质量,即由样品制备、序列仪和映射偏差引入的不一致性,与WGS映射所观察到的不一致性具有相同的数量级。使用对WGS数据最有利的修正和测试方案时,基于映射的SMASH被证明能以WGS几分之一的成本产生与WGS具有几乎同等质量的拷贝数据。附图说明图1.SMASH方法和尺寸分析的示意图。A)以黑色、白色和方格框显示的三种代表性的基因组DNA分子来源于不同染色体或同一染色体相隔较远的区域。B)通过超声处理和限制酶切割,这些分子被片段化成平均长度为40-50bp的短双链DNA区段,如右侧的生物分析仪结果所示。C)然后将这些短的DNA区段部分地末端修复并组合成长度为50bp-7kb的更长的DNA片段。因此,每个所得的嵌合DNA片段含有来自不同位置的短DNA区段(如上述不同的框类型所示)。D)将这些DNA片段连接到含有样品条形码的测序接头上,所述测序接头以虚线和垂直条纹框表示,“条形码”框指示样品条形码。E)进行尺寸选择以富集尺寸为250-700bp的DNA片段,这在生物分析仪中得到证实。F)在最终的PCR后,文库准备好用于测序。图2.SMASH信息管线。图A显示将读段对分解成一组最大唯一可映射区段。与箭头所示的映射序列相比,其他映射序列满足“20,4”规则(请参见正文)并且被视为可计数的映射序列。图B显示一段染色体5,其中选择了分箱边界以使每个分箱的精确匹配数与来自参考基因组所有50-聚体(50-mer)的精确匹配数相同。将重复读段排除在外,每个分箱中存在的“20,4”可映射区段的数量在图C中计数。针对样品特有的GC偏好,使用LOESS归一化来调整分箱计数(图D)。最后,在图E中,使用对GC归一化的数据进行的循环二进制分段(CBS)分割数据。图3.SSCquad的SMASH和WGS拷贝数f分布图(profile)。图A显示家族中四个成员的全基因组图(常染色体和X染色体)。点显示WGS和SMASH的参考物和GC归一化的比率值。类似地,重叠线显示WBS和SMASH中通过CBS(循环二进制分段)进行的拷贝数分割。黑框突出显示在B图中放大示出的染色体5上的缺失。通过两种方法鉴定的缺失发生在父亲中并且被传递给家族中的兄弟姐妹。图C显示来自WGS和SMASH的父亲的归一化比率值的分箱比较。暗点和亮点显示数据点中越来越稀疏的子样品。图4.SKBR3的SMASH和WGS拷贝数分布图。SKBR3乳腺癌细胞系具有复杂的拷贝数模式。图A以对数标度显示带有拷贝数的全基因组视图。点显示WGS和SMASH的GC归一化的比率值,而重叠线显示WGS和SMASH的拷贝数分割。图B以线性标度放大14号染色体。整数拷贝数状态分割和区段平均值的分散在WGS和SMASH之间存在很强的一致性。图C显示用于分箱比较来自WGS和SMASH的归一化的比率值的分箱。暗点和亮点显示数据点中越来越稀疏的子样品以说明密度。图5.使用独立样品的SMASH方案的生物分析仪结果。按照图1的右图,我们示出了使用独立样品的SMASH方案的生物分析仪结果。用箭头表示下部(35bp)和上部标记(10.38kb)。在每个图中,十条曲线中的两条(蓝色和深绿色)显示质量差的DNA样品的结果。剩下的曲线质量很好。(A)DNA片段化后DNA分子的尺寸分布。蓝色和深绿色曲线显示比其余样品更宽的长度范围和更长的DNA区段平均长度。(B)随机连接DNA区段后,来自好样品的曲线显示DNA多联体的宽长度范围。(C)对于最终的DNA文库,来自好样品的曲线显示250bp-700bp的长度范围,非常适合测序。失败的文库主要显示测序接头二聚体,用星号突出显示。图6.替代的SMASH方法的示意图(左图)和生物分析仪结果(右图)。在生物分析仪结果中,x轴表示DNA区段的长度。(A)以黑色、白色和方格框显示的三种基因组DNA分子来自不同染色体或同一染色体的不同位置。(B)通过dsDNA片段化酶(fragmentase)切割,将这些DNA分子片段化成短的双链区段,平均长度为约35bp,如右图中的生物分析仪结果所示。(C)然后将这些短的DNA区段部分地末端修复并随机连接成长度为50bp-7kb的更长的DNA片段。因此,如上所述,每个DNA片段含有以上述的不同框类型示出的来自不同位置/染色体的几个短DNA区段。(D)将这些DNA片段与含有样品条形码的测序接头连接,以与以空心框表示的“条形码”连接的虚线和垂直条纹框表示。E)进行尺寸选择以获得具有250-700bp的合适尺寸的DNA片段,这在最终DNA文库的生物分析仪结果中得到证实。F)在最终通过测序接头进行的PCR之后,文库准备好用于测序。图7.在SKBR3上比较SMASH2与WGS和SMASH。类似于图4,图A和B,显示新的SMASH方案与WGS和先前的SMASH方案的一致性。这三种方法本文档来自技高网...

【技术保护点】
1.组合物,其包含不同嵌合基因组核酸片段的第一混合物,其中所述混合物中的每个不同片段包含随机连接的DNA区段,其中片段中的每个DNA区段是长度为至少27个碱基对的核酸分子,由单个基因组的随机片段化产生。

【技术特征摘要】
【国外来华专利技术】2015.09.08 US 62/215,540;2015.11.03 US 62/250,405;1.组合物,其包含不同嵌合基因组核酸片段的第一混合物,其中所述混合物中的每个不同片段包含随机连接的DNA区段,其中片段中的每个DNA区段是长度为至少27个碱基对的核酸分子,由单个基因组的随机片段化产生。2.根据权利要求1所述的组合物,其中区段彼此直接连接以形成片段,其中DNA区段的长度为约30-50个碱基对,和/或其中片段中至少50%的区段的长度为约30-50个碱基对。3.根据权利要求1-2中任一项所述的组合物,富集长度小于约1000个碱基对的嵌合基因组核酸片段,和/或富集长度为约250至约700个碱基对、优选400-500个碱基对的嵌合基因组核酸片段,和/或其中所述混合物中至少50%的嵌合基因组核酸片段的长度为约250至约700个碱基对,优选400-500个碱基对。4.根据权利要求1-3中任一项所述的组合物,其中所述不同嵌合基因组核酸片段的混合物包含至少1,000个不同片段、至少10,000个不同片段、至少100,000个不同片段。5.根据权利要求1-4中任一项所述的组合物,其中所述不同嵌合基因组核酸片段的混合物包含由奇数个区段组成的片段,和/或其中所述嵌合基因组核酸片段的混合物包含连接的区段,所述连接的区段的两个连接点形成除限制酶识别位点外的序列。6.根据权利要求1-5中任一项所述的组合物,所述组合物还包含被连接至嵌合基因组核酸片段的末端的接头序列,优选地,其中所述被连接至嵌合基因组核酸片段末端的接头序列包含条形码,所述条形码鉴别片段的基因组来源,和/或包含用于扩增的引物结合位点,更优选地,其中使所述组合物富集长度为约250至约700个碱基对、优选400至500个碱基对的连接有接头序列的嵌合基因组核酸片段。7.根据权利要求1-6中任一项所述的组合物,其包含经扩增的连接有接头序列的嵌合基因组核酸片段。8.根据权利要求1-7中任一项所述的组合物,其还包含不同嵌合基因组核酸片段的第二混合物,其中片段的第二混合物从与第一混合物不同的基因组获得,任选地,所述组合物包含不同嵌合基因组核酸片段的多种混合物的集合,其中所述集合中片段的每种混合物获自不同于集合中任何其他混合物的基因组,其中嵌合基因组核酸片段的每种混合物包含具有测序接头的片段,所述测序接头包含仅连接至该种混合物内的片段的独特条形码,使得可以多元化混合物的所述集合。9.获得权利要求1-8中任一项所述的来自单个基因组的不同嵌合基因组核酸片段的混合物的方法,其包括i)对单个基因组进行随机片段化以获得来自所述基因组的随机区段;和ii)对来自步骤(i)的区段进行连接以产生不同嵌合基因组核酸片段,由此获得来自单个基因组的不同基因组核酸片段的混合物。10.根据权利要求9所述的方法,其还包括在连接之前按尺寸选择长度约30-50个碱基对的区段的子集,和/或其中使用珠纯化来选择区段的子集。11.根据权利要求9-10中任一项所述的方法,其中在步骤(i)中机械剪切基因组核酸以获得随机片段化的DNA区段,优选地,其中所述机械剪切是通过超声处理进行的,和/或所述方法还包括对基因组核酸的区段进行酶促消化,所述酶促消化优选通过限制酶CvikI-1和NlaIII进行。12.根据权利要求9-11中任一项所述的方法,其中在步骤(i)中,通过以下操作酶促片段化基因组核酸:a)在基因组中产生随机DNA切口;和b)切割切口对面的DNA链,从而在基因组核酸中产生dsDNA断裂,得到DNA区段。13.根据权利要求9-12中任一项所述的方法,其中所得DNA区段在基因组片段化后直接被末端修复,和/或其中嵌合基因组核酸片段在通过随机的区段连接形成后被末端修复。14.根据权利要求9-13中任一项所述的方法,其还包括减小嵌合基因组核酸片段的尺寸,其还包括选择长度约250至约700个碱基对的片段,其还包括任选地通过珠纯化来纯化嵌合基因组核酸片段...

【专利技术属性】
技术研发人员:迈克尔·H·魏格勒丹·利维王自华
申请(专利权)人:美国冷泉港实验室
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1