构建测序文库的方法及其应用技术

技术编号:12053585 阅读:157 留言:0更新日期:2015-09-16 17:47
公开了构建测序文库的方法及其应用,该方法包括:(a)在双链DNA片段的两端分别连接接头,以便获得连接产物;(b)将所述连接产物裂解为单链DNA片段;(c)利用探针对所述单链DNA片段进行筛选;(d)利用第一引物对所述单链DNA片段进行链延伸反应,以便获得链延伸产物;(e)对所述链延伸产物进行扩增,以便获得扩增产物,所述扩增产物构成所述测序文库。还公开了测序方法、确定核酸序列的方法、构建测序文库的装置、测序设备以及确定核酸序列的系统。

【技术实现步骤摘要】
构建测序文库的方法及其应用
本专利技术涉及生物医学领域。具体而言,本专利技术涉及构建测序文库的方法、测序方法、确定核酸序列的方法、构建测序文库的装置、测序设备以及确定核酸序列的系统。
技术介绍
高通量测序日益被关注,但是目前高通量测序用于低频率突变的检测仍有待改进。
技术实现思路
本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,根据本专利技术的实施例,本专利技术提出了用于构建测序文库的方法以及检测低频率突变的手段。在本专利技术的第一方面,本专利技术提出了一种构建测序文库的方法。根据本专利技术的实施例,该方法包括:(a)在双链DNA片段的两端分别连接接头,以便获得连接产物,其中,所述接头包括第一链和第二链,所述第一链和第二链部分匹配并且所述第一链包含第一标签序列,以便所述接头上限定出双链区和两个单链尾部,所述两个单链尾部之一的序列中包含第一标签;(b)将所述连接产物裂解为单链DNA片段;(c)利用探针对所述单链DNA片段进行筛选,其中,所述探针特异性识别预定区域,其中,所述预定区域包括下列之一:(1)表1所示基因的至少之一;(2)(1)的CDS区域;以及(3)(2)的上下游至少10bp的区域;(d)利用第一引物对所述单链DNA片段进行链延伸反应,以便获得链延伸产物,其中,所述第一引物包括第二标签序列,并且所述第一引物适于与所述接头的第一链形成双链结构,只是所述第一标签序列与所述第二标签序列之间存在错配;(e)对所述链延伸产物进行扩增,以便获得扩增产物,所述扩增产物构成所述测序文库,其中,所述扩增采用适于同时扩增所述第一标签序列和所述第二标签序列的引物。。由此,利用根据本专利技术实施例的构建测序文库的方法,能够有效地构建测序文库,同时,所构建的测序文库中,针对相同的双链DNA片段(在本文中也被称为“源序列”)的每条链,分别获得了具有第一标签序列和第二标签序列的扩增产物,由此,在后续测序结果的分析中,可以依据两种标签的测序结果进行互相校正,提高分析结果的可靠性。根据本专利技术的实施例,所述双链DNA片段是通过下列步骤获得的:将核酸样本进行末端修复,以便获得经过修复的核酸样本;以及在所述核酸样本的5’末端添加碱基A,以便获得两端分别具有粘性末端碱基A的核酸样本,所述两端分别具有粘性末端碱基A的核酸样本构成所述双链DNA片段。由此,可以在后续操作中,方便地在所述双链DNA片段的两端添加接头。从而,提高了构建测序文库的效率。根据本专利技术的实施例,所述核酸样本为人基因组DNA的至少一部分或游离核酸。根据本专利技术的实施例,所述人游离核酸是从患者的外周血提取的。根据本专利技术的实施例,所述患者患有妇科生殖道肿瘤(即妇科癌症),所述妇科生殖道肿瘤为选自下列的至少之一:卵巢癌、子宫内膜癌和宫颈癌。由此,利用本专利技术实施例的方法,能够有效地对人类疾病患者的基因突变进行有效的分析,进而能够有效用于常见肿瘤的早诊、个体化用药、以及术后监控等。根据本专利技术的实施例,所述人基因组DNA的至少一部分是通过对人基因组DNA进行随机打断而获得的。由此,可以在后续操作中,方便地在所述双链DNA片段的两端添加接头。从而,提高了构建测序文库的效率。根据本专利技术的实施例,所述接头具有3’碱基T粘性末端。由此,可以在后续操作中,方便地在所述双链DNA片段的两端添加接头。从而,提高了构建测序文库的效率。根据本专利技术的实施例,所述单链DNA片段是通过将所述连接产物进行变性处理获得的。由此,可以快速有效的获得单链DNA片段。根据本专利技术的一些实施例,所述变性处理可以为热变性处理或碱变性处理。根据本专利技术的实施例,所述探针是以芯片的形式提供的。由此,可以提高探针筛选的效率。根据本专利技术的实施例,在存在UDG酶/FPG酶时,进行所述链延伸反应。由此,可以有效地对存在损伤的DNA在链延伸过程中进行修复,减少假阳性的产生,提高构建测序文库的质量。根据本专利技术的实施例,所述第一标签序列和所述第二标签序列分别独立地长度为4~10nt。根据本专利技术的实施例,所述第一标签序列和所述第二标签序列的长度均为8nt。根据本专利技术的实施例,所述第一标签序列和所述第二标签序列之间存在至少2nt的错配。专利技术人惊奇地发现,采用如此设置,能够有效地提高在后续分析中,利用第一标签序列和第二标签序列进行校正的效率。根据本专利技术的实施例,所述接头的第一链具有SEQIDNO:1所示的序列,所述接头的第二链具有SEQIDNO:2所示的序列,所述第一标签具有SEQIDNO:3-6中任一项所示的序列,所述第二标签具有SEQIDNO:7-10中至少之一所示的序列,所述第一引物具有SEQIDNO:11所示的序列,所述适于同时扩增所述第一标签序列和所述第二标签序列的引物具有SEQIDNO:12和SEQIDNO:13所示的序列。其中,接头的第一链的序列中“XXXXXXXX”表示第一标签序列,第一引物中序列中的“XXXXXXXX”表示第二标签序列。根据本专利技术的实施例,标签包括但不限于上述所述的4对,可以根据需要涉及多对标签以用于多样品的同时检测。在本专利技术的第二方面,本专利技术提出了一种测序方法,该方法包括:根据前面所述的方法构建测序文库;对所述测序文库进行测序。根据本专利技术的实施例,在Hiseq2000或Hiseq2500上进行所述测序。由此,可以有效地提高测序的效率。另外,前面关于构建测序文库的方法所描述的特征和优点,同样适用该测序方法,在此不再赘述。在本专利技术的第三方面,本专利技术提出了一种确定核酸序列的方法,该方法包括:针对核酸样本,根据权利要求前面所述的方法进行测序,以便获得由多个测序数据构成的测序结果;基于所述测序结果,构建至少一个测序数据子集,其中,每个测序数据子集中的所有测序数据均对应核酸样本上相同的源序列;针对每一个测序数据子集,分别确定与所述第一标签序列对应的测序数据为正链测序数据,与所述第二标签序列对应的测序数据为负链测序数据;针对每一个测序数据子集,分别基于所述正链测序数据和所述负链测序数据,对测序数据进行校正,以便确定经过校正的测序数据;以及基于所述经过校正的测序数据,确定所述核酸样本的序列。由此,可以有效地基于正链测序数据和负链测序数据进行校正,提高分析结果的可靠性。根据本专利技术的实施例,所述测序为双末端测序,所述测序结果由多对成对的测序数据构成。根据本专利技术的实施例,基于所述测序结果,构建至少一个测序数据子集是通过下列步骤进行的:针对所述多对成对的测序数据的每一对,确定成对测序数据索引,所述成对测序数据索引由成对的测序数据的每一个的最初N个碱基构成,其中,N为10~20之间的整数;基于所述成对测序数据索引,构建至少一个初步测序数据子集,其中,所述初步测序数据子集中的每一个测序数据均具有相同的成对测序数据索引;以及基于所述初步测序数据子集中测序数据之间的汉明距离,对所述至少一个初步测序数据子集进行细分,以便获得多个所述测序数据子集。根据本专利技术的实施例,N为12。根据本专利技术的实施例,在所述多个测序数据子集的每一个中,任意两对成对测序数据的汉明距离不超过20。根据本专利技术的实施例,在所述多个测序数据子集的每一个中,正链测序数据和负链测序数据分别为至少两个。根据本专利技术的实施例,基于所述正链测序数据和所述负链测序数据,确定经过校正的测序数据是基于下列原则进行本文档来自技高网...
构建测序文库的方法及其应用

【技术保护点】
一种构建测序文库的方法,其特征在于,包括:(a)在双链DNA片段的两端分别连接接头,以便获得连接产物,其中,所述接头包括第一链和第二链,所述第一链和第二链部分匹配并且所述第一链包含第一标签序列,以便所述接头上限定出双链区和两个单链尾部,所述两个单链尾部之一的序列中包含第一标签;(b)将所述连接产物裂解为单链DNA片段;(c)利用探针对所述单链DNA片段进行筛选,其中,所述探针特异性识别预定区域,其中,所述预定区域包括下列之一:(1)表1所示基因的至少之一;(2)(1)的CDS区域;以及(3)(2)的上下游至少10bp的区域;(d)利用第一引物对所述单链DNA片段进行链延伸反应,以便获得链延伸产物,其中,所述第一引物包括第二标签序列,并且所述第一引物适于与所述接头的第一链形成双链结构,只是所述第一标签序列与所述第二标签序列之间存在错配;(e)对所述链延伸产物进行扩增,以便获得扩增产物,所述扩增产物构成所述测序文库,其中,所述扩增采用适于同时扩增所述第一标签序列和所述第二标签序列的引物。

【技术特征摘要】
1.一种构建测序文库的方法,其特征在于,包括:(a)在双链DNA片段的两端分别连接接头,以便获得连接产物,其中,所述接头包括第一链和第二链,所述第一链和第二链部分匹配并且所述第一链包含第一标签序列,以便所述接头上限定出双链区和两个单链尾部,所述两个单链尾部之一的序列中包含第一标签;(b)将所述连接产物裂解为单链DNA片段;(c)利用探针对所述单链DNA片段进行筛选,其中,所述探针特异性识别预定区域,其中,所述预定区域包括下列之一:(1)选自AFF3、BRCA2、MED12、PDE4DIP、AKAP9、CDK12、MLL2、MLL3、PIK3R1、CREBBP、FOXL2、MSH6、PPP2R1A、ARID1A、CSMD3、GNAS、BCOR、RNF213、BRCA1、FAT3、NSD1、RNF43基因的至少之一;(2)(1)的CDS区域;以及(3)(2)的上下游至少10bp的区域;(d)利用第一引物对所述单链DNA片段进行链延伸反应,以便获得链延伸产物,其中,所述第一引物包括第二标签序列,并且所述第一引物适于与所述接头的第一链形成双链结构,只是所述第一标签序列与所述第二标签序列之间存在错配;(e)对所述链延伸产物进行扩增,以便获得扩增产物,所述扩增产物构成所述测序文库,其中,所述扩增采用适于同时扩增所述第一标签序列和所述第二标签序列的引物。2.根据权利要求1所述的方法,其特征在于,所述双链DNA片段是通过下列步骤获得的:将核酸样本进行末端修复,以便获得经过修复的核酸样本;以及在所述核酸样本的5’末端添加碱基A,以便获得两端分别具有粘性末端碱基A的核酸样本,所述两端分别具有粘性末端碱基A的核酸样本构成所述双链DNA片段。3.根据权利要求2所述的方法,其特征在于,所述核酸样本为人基因组DNA的至少一部分或游离核酸。4.根据权利要求3所述的方法,其特征在于,所述游离核酸是从患者的外周血提取的。5.根据权利要求4所述的方法,其特征在于,所述患者患有妇科癌症,所述妇科癌症为选自下列的至少之一:卵巢癌、子宫内膜癌、以及宫颈癌。6.根据权利要求3所述的方法,其特征在于,所述人基因组DNA的至少一部分是通过对人基因组DNA进行随机打断而获得的。7.根据权利要求1所述的方法,其特征在于,所述接头具有3’碱基T粘性末端。8.根据权利要求1所述的方法,其特征在于,所述单链DNA片段是通过将所述连接产物进行变性处理获得的。9.根据权利要求1所述的方法,其特征在于,所述探针是以芯片的形式提供的。10.根据权利要求1所述的方法,其特征在于,在存在UDG酶/FPG酶时,进行所述链延伸反应。11.根据权利要求1所述的方法,其特征在于,所述第一标签序列和所述第二标签序列分别独立地长度为4~10nt。12.根据权利要求11所述的方法,其特征在于,所述第一标签序列和所述第二标签序列的长度均为8nt。13.根据权利要求11所述的方法,其特征在于,所述第一标签序列和所述第二标签序列之间存在至少2nt的错配。14.根据权利要求1所述的方法,其特征在于,所述接头的第一链的核苷酸序列为SEQIDNO:1所示的序列,所述接头的第二链的核苷酸序列为SEQIDNO:2所示的序列,所述第一标签的核苷酸序列为SEQIDNO:3-6中至少之一所示的序列,所述第二标签的核苷酸序列为SEQIDNO:7-10中至少之一所示的序列,所述第一引物的核苷酸序列为SEQIDNO:11所示的序列。15.一种测序方法,所述方法用于非诊断目的,其特征在于,包括:根据权利要求1-14任一所述的方法构建测序文库;对所述测序文库进行测序。16.根据权利要求15所述的方法,其特征在于,在Hiseq2000或Hiseq2500上进行所述测序。17.一种确定核酸序列的方法,所述方法用于非诊断目的,其特征在于,包括:针对核酸样本,根据权利要求15或16所述的方法进行测序,以便获得由多个测序数据构成的测序结果;基于所述测序结果,构建至少一个测序数据子集,其中,每个测序数据子集中的所有测序数据均对应核酸样本上相同的源序列;针对每一个测序数据子集,分别确定与所述第一标签序列对应的测序数据为正链测序数据,与所述第二标签序列对应的测序数据为负链测序数据;针对每一个测序数据子集,分别基于所述正链测序数据和所述负链测序数据,对测序数据进行校正,以便确定经过校正的测序数据;以及基于所述经过校正的测序数据,确定所述核酸样本的序列。18.根据权利要求17所述的方法,其特征在于,所述测序为双末端测序,所述测序结果由多对成对的测序数据构成。19.根据权利要求18所述的方法,其特征在于,基于所述测序结果,构建至少一个测序数据子集是通过下列步骤进行的:针对所述多对成对的测序数据的每一对,确定成对测序数据索引,所述成对测序数据索引由成对的测序数据的每一个的最初N个碱基构成,其中,N为10~20之间的整数;基于所述成对测序数据索引,构建至少一个初步测序数据子集,其中,所述初步测序数据子集中的每一个测序数据均具有相同的成对测序数据索引;以及基于所述初步测序数据子集中测序数据之间的汉明距离,对所述至少一个初步测序数据子集进行细分,以便获得多个所述测序数据子集。20.根据权利要求19所述的方法,其特征在于,N为12。21.根据权利要求19所述的方法,其特征在于,在所述多个测序数据子集的每一个中,任意两对成对测序数据的汉明距离不超过20。22.根据权利要求19所述的方法,其特征在于,在所述多个测序数据子集的每一个中,正链测序数据和负链测序数据分别为至少两个。23.根据权利要求17所述的方法,其特征在于,基于所述正链测序数据和所述负链测序数据,确定经过校正的测序数据是基于下列原则进行的:经过校正的测序数据中的每一个碱基同时获得至少50%正链测序数据和至少50%负链测序数据的支持。24.根据权利要求17所述的方法,其特征在于,经过校正的测序数据中的每一个碱基同时获得至少80%正链测序数据和至少80%负链测序数据的支持。25.根据权利要求23所述的方法,其特征在于,进一步包括:将所述经过校正的测序数据比对至参考序列上,并删除比对质量小于30的测序数据。26...

【专利技术属性】
技术研发人员:易鑫吕小星钱朝阳管彦芳杨玲朱红梅
申请(专利权)人:天津华大基因科技有限公司深圳华大基因科技有限公司
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1