用于高通量测序样本溯源的质控品及其设计和使用方法技术

技术编号:23042412 阅读:68 留言:0更新日期:2020-01-07 13:32
本发明专利技术属于分子生物学领域,涉及一种基于全外显子组捕获二代测序过程中,用于质量监控,特别是样本溯源的标准质控品。具体而言,本发明专利技术公开了一种用于高通量测序样本溯源的质控品的设计方法,包括设计一段DNA序列,将其分成3~5段人工序列,在第一段人工序列前设置GAPDH基因序列Ⅰ、在第一段人工序列和在第二段人工序列之间设置标签序列,在其余的相邻的人工序列之间设置标签序列和GAPDH基因序列Ⅱ,在最后一段人工序列后设置标签序列和GAPDH基因序列Ⅲ。本发明专利技术还同时提供了一种用于高通量测序样本溯源的质控品,以及提供了该质控品的使用方法。

Quality control materials for high throughput sequencing sample traceability and their design and use

【技术实现步骤摘要】
用于高通量测序样本溯源的质控品及其设计和使用方法
本专利技术属于分子生物学领域,具体是涉及一种基于全外显子组捕获二代测序过程中,用于质量监控,特别是样本溯源的标准质控品。
技术介绍
人类基因组计划已经完成20年,近十近来,随着高通量测序技术的发展,基因组学已经从科研向临床应用方面发展。同时随着测序成本的进一步下降,高通量测序技术已经广泛应用在遗传病检测、产前筛查、产前诊断、植入前诊断等领域。人类基因组有30亿碱基对,即3GB,但真正起作用的,编码氨基酸的外显子部分只占1-2%,约有3千万碱基对,即30M区域。因此,通过对人类2万多个基因的全外显子捕获后,再进行高通量测序,既降低了测序成本,同时又能保证外显子部分的测序深度,尽多可能的解释遗传病因。因此,全外显子组捕获测序近几年来应用越来越广泛。由于全外显子组捕获测序步骤多,各种转管频繁,很容易在中间过程将样本混错,或者污染了不同的样本。特别是随着现在分工的进一步细化,医院端只负责采血,样本室负责收样与DNA提取,样本处理组负责文库构建,上机测序组负责文库的鉴定与上机测序,生物信息组负责数据的区分。步骤多了之后,就更容易造成原始样本与数据不一致,且这种样本混错还非常难发现,一旦发生,溯源也相对麻烦。目前高通量测序的溯源机制还不够完善,更多是依赖于实验室的质量体系,以及出错之后的溯源,比如通过sanger测序采取多个SNP位点的方式与高通量测序结果进行比较,从而来确定样本有没出错。但这种情况只有当质疑样本混错的情况下才会采用。如果没发现样本出错,就不会触发这种纠错机制。同时通过这种方法,额外增加了相当高的成本,以及人力和物力。
技术实现思路
本专利技术要解决的技术问题是提供一种用于全外显子组捕获后高通量测序的质控品,用于监控最终的数据与初始的DNA样本是否一致,样本之间是否有混错,或者不同样本之间是否存在交叉污染。为了解决上述技术问题,本专利技术提供一种用于高通量测序样本溯源的质控品的设计方法,包括以下:一、设计一段DNA序列,将其分成3~5段人工序列,每段人工序列的长度为35~45bp长,每段人工序列的GC含量在45-65%;每段人工序列在NCBI核酸数据库进行blast比对,均检索不到;即,确保所设计的该段DNA序列满足以下条件:与世界上已知物种基因组均不同;二、在第一段人工序列前设置GAPDH基因序列Ⅰ、在第一段人工序列和在第二段人工序列之间设置标签序列(barcode),在其余的相邻的人工序列之间设置标签序列(barcode)和GAPDH基因序列Ⅱ,在最后一段人工序列后设置标签序列(barcode)和GAPDH基因序列Ⅲ。作为本专利技术的用于高通量测序样本溯源的质控品的设计方法的改进:GAPDH基因序列Ⅰ、II、III的GC含量为45~65%,与正常人DGV数据库对比,该区域不存在整个外显子缺失/重复,也没有SNP,且至少包括一个STS,即唯一序列;标签序列(barcode)为8bp长。即,GAPDH基因序列Ⅰ、II、III每一段在核酸数据库中都含有一段独一无二的序列。本专利技术还同时提供了一种用于高通量测序样本溯源的质控品:带方框的序列为人工序列;40-50bp长,GC含量在45-65%,在NCBI上与核酸数据库进行blast比对,均检索不到;GAPDH-ex3(即,GAPDH基因序列Ⅰ),表示GAPDH基因第3号外显子的一段39~40bp序列:CG含量60%;GAPDH-ex4(即,GAPDH基因序列Ⅱ),表示GAPDH基因第4号外显子的一段35~60bp的序列:GC含量43%;GAPDH-ex5(即,GAPDH基因序列Ⅲ),表示GAPDH基因第5号外显子的一段35~60bp的序列:GC含量56%;barcode序列为8碱基的一段序列。注:同一类的若干个标准品,除barcode序列不同,其他固有序列均相同。即,本专利技术设计一段250bp左右长的,且与世界上已知物种基因组均不同的DNA序列,同时在这段序列中,每隔40-50bp,设计进去1段GAPDH基因序列,以及一个8bp长的标签序列(barcode),如上。作为本专利技术的用于高通量测序样本溯源的质控品的改进:GAPDH-ex3:ATTTGGTCGTATTGGGCGCCTGGTCACCAGGGCTGCTTT;GAPDH-ex4:GTTTACATGTTCCAATATGATTCCACCCATGGCAAATTCC;GAPDH-ex5:GCGAGATCCCTCCAAAATCAAGTGGGGCGATGCTGGCGCT;barcode1:TAGATCGC,barcode2:CTCTCTAT,barcode3:TATCCTCT。因此,当使用barcode1时,标准品1的序列为:当使用barcode2时,标准品2的序列为:当使用barcode3时,标准品3的序列为:本专利技术的双链DNA序列由杭州擎科生物公司负责合成。本专利技术还同时公开了上述质控品的使用方法,包括以下步骤:1)、对于批量检测的一系列基因组DNA样品,针对每个基因组DNA样品放入一个具有唯一性的标准品溶液;上述标准品属于同一类的若干个标准品(即,除barcode序列不同,其他固有序列均相同);所述标准品:基因组DNA样品=100:1的摩尔比;标准品溶液中,标注品的摩尔浓度约为10~100pmole/ul;具体而言:将合成所得的DNA(标准品),用去离子水溶解至浓度为10-100pmole/ul,检测浓度后备用;计算将要做全外显子组测序的基因组DNA摩尔浓度,如1ug的基因组DNA,摩尔浓度计算方式为1*10-6/(650*3*109)=5.12*10-19mole,标准品以100:1的浓度加入到基因组DNA中,即加入5.12*10-19*100=5.12*10-17mole,因此,每1ug的基因组DNA,加0.00512pmole的标准品。0.00512pmole换算为质量为5.12*10-17*650*259=0.00812ng;其中259为这段序列的碱基长度,650为一bp的分子量。2)、将步骤1)所得的每个混了标准品的基因组DNA作为样本,进行全外显子捕获测序,从而获得上机前的基因组文库;具体为:混了标准品的基因组DNA,按全外显子捕获测序的流程进行实验,参考illuminaTruSeqExomeLibraryPrepReferenceGuide进行捕获建库,下载链接:https://support.illumina.com/content/dam/illumina-support/documents/documentation/chemistry_documentation/samplepreps_truseq/truseqexome/truseq-exom本文档来自技高网
...

【技术保护点】
1.一种用于高通量测序样本溯源的质控品的设计方法,其特征在于包括以下:/n一、设计一段DNA序列,将其分成3~5段人工序列,每段人工序列的长度为35~45bp长,每段人工序列的GC含量在45-65%;每段人工序列在NCBI核酸数据库进行blast比对,均检索不到;/n二、在第一段人工序列前设置GAPDH基因序列Ⅰ、在第一段人工序列和在第二段人工序列之间设置标签序列,在其余的相邻的人工序列之间设置标签序列和GAPDH基因序列Ⅱ,在最后一段人工序列后设置标签序列和GAPDH基因序列Ⅲ。/n

【技术特征摘要】
1.一种用于高通量测序样本溯源的质控品的设计方法,其特征在于包括以下:
一、设计一段DNA序列,将其分成3~5段人工序列,每段人工序列的长度为35~45bp长,每段人工序列的GC含量在45-65%;每段人工序列在NCBI核酸数据库进行blast比对,均检索不到;
二、在第一段人工序列前设置GAPDH基因序列Ⅰ、在第一段人工序列和在第二段人工序列之间设置标签序列,在其余的相邻的人工序列之间设置标签序列和GAPDH基因序列Ⅱ,在最后一段人工序列后设置标签序列和GAPDH基因序列Ⅲ。


2.根据权利要求1所述的用于高通量测序样本溯源的质控品的设计方法,其特征在于:GAPDH基因序列Ⅰ、II、III的GC含量为45~65%,与正常人DGV数据库对比,该区域不存在整个外显子的缺失/重复,也没有SNP,且至少包括一个STS,即唯一序列;
标签序列(barcode)为8bp长。


3.用于高通量测序样本溯源的质控品,其特征在于:



带方框的序列为人工序列;
GAPDH-ex3,表示GAPDH基因第3号外显子的一段39~40bp序列:CG含量60%;
GAPDH-ex4,表示GAPDH基因第4号外显子的一段35~60bp的序列:GC含量43%;
GAPDH-ex5,表示GAPDH基因第5号外显子的一段35~60bp的序列:GC含量56%;
barcode序列为8碱基的一段序列。


4.根据权利要求3所述的用于高通量测序样本溯源的质控品,其特征在于:
GAPDH-ex3:ATTTGGTCGTATTGGGCGCCTGGTCACCAGGGCTGCTTT;
GAPDH-ex4:GTTTACATGTTCCAAT...

【专利技术属性】
技术研发人员:何杨陈亮刘俊岳平
申请(专利权)人:重庆市人口和计划生育科学技术研究院
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1