基于宏基因组16S高可变区V3的分类方法和装置制造方法及图纸

技术编号:7474324 阅读:942 留言:0更新日期:2012-07-03 06:08
本发明专利技术公开一种基于宏基因组16S高可变区V3的分类方法和装置。该方法包括:提取微生物样品中的DNA;对宏基因组16S?rDNA的高可变区V3进行扩增,对扩增产物进行Solexa建库,同时在建库过程中通过加上带有标签序列的接头,对每个样品进行标记;将带有标签序列的不同样品进行混合,混合后使用Solexa测序工具进行测序,得到按照标签区分的原始的测序序列reads;利用reads的重叠关系组装得到高可变区V3的全长序列unique?reads;对unique?reads进行分类分析,以实现对微生物群体的分类。本发明专利技术的方法和装置,对微生物群体的分类准确,且大大降低了测序成本。

【技术实现步骤摘要】

本专利技术涉及生物信息学分析
,尤其涉及一种基于宏基因组16S高可变区 V3的分类方法和装置。
技术介绍
为了研究生物环境中微生物群体的种类,一般传统的方法包括直接对微生物进行培养,变性梯度凝胶电泳(DGGE,Denaturing Gradient Gel Electrophoresis),末端限制性内切酶片段长度多态性(T-RFLP,^Terminal Restriction Fragment Length Polymorphism),焚光原位杂交(FISH, Fluorescence In Situ Hybridization),对可能的微生物种类进行PCR(聚合酶链式反应,Polymerase Chain Reaction);但这些方式都只能揭露环境中很小一部分微生物种类。如果能进行宏基因组的分析,通过直接对环境中的微生物群体进行基因组研究,得到一个比较全面的微生物种类目录,将有助于对微生物群体的后续研究和应用。由于原核生物中 16S rRNA(核蛋白核糖核酸,ribosomal RNA(RiboNucleicAcid)) 的序列高度保守,可精确指示细菌之间的亲缘关系;16S rRNA的大小为1500bp(碱基对, Base Pair)左右,所含信息能反映生物界进化关系,易操作,适用于各级分类单元;所以在宏基因组的研究中,16S区测序是最常用的聚类和分类方法。传统的宏基因组的测序是通过 Sanger技术测序16S rRNA gene(16S rDNA)得到至少500bp的读长,这个读长的长度足够长,能够装配出近乎完整的16S rDNA序列,帮助我们去精准地研究每一条序列的物种来源, 但它容易产生嵌合体,而且测序成本比较高,费时又费力。随着新开发出的测序技术以及测序成本的逐步降低,宏基因组的研究变得越来越实用,所涉及的技术包括Pyrosequencing、Solexa等。对于这些革命性的技术的一个主要挑战就是读长太短,无法对每个个体的16S rDNA进行测序,因而它的测序信息不足以让我们去精准地对微生物进行分类。为了解决读长的问题,有研究(Bacterial flora-typing with targeted, chip-based Pyrosequencing, BMC Microbiology 2007,7 108doi 10. 1186/1471-2180-7-108,公开于 2007 年 11 月 30 日)通过 Genome Sequencer 20 system(454 Life Sciences)测序16S rDNA可变区来对微生物进行分类,通过设计特定的通用引物对16S可变区进行特定的PCR(聚合酶链式反应,Polymerase Chain Reaction), 然后用妨4序仪测序,建立在这种方法上的系统树显示了很好的生物多样性,但它的测序成本高,虽然是传统毛细管测序法费用的1/10,但却是其他新一代测序仪测序费用的10倍左右ο综上所述,提供一种更加准确地对微生物进行聚类分析的方法且方便快捷、成本低廉成为本领域亟待解决的技术问题。
技术实现思路
本专利技术要解决的一个技术问题是提供一种基于宏基因组16S高可变区V3的分类方法和装置,通过对16S的高可变区V3区进行solexa测序,并通过对这些16S可变区的短序列进行系统分类,可以在成本低廉的基础上准确反映物种的丰度信息。本专利技术的第一方面提供了一种基于宏基因组16S高可变区V3的分类方法,该方法包括提取微生物样品中的脱氧核糖核酸(DNA);对提取DNA的宏基因组16S核糖体脱氧核糖核酸(rDNA)的高可变区(V3)进行扩增,得到作为扩增产物的DNA片段;对DNA片段进行PCR-FreeSolexa建库,建库过程中在DNA片段上加上标签序列以对每个样品进行标记; 将各个样品的带有标签序列的DNA片段进行混合,使用Solexa测序工具对混合后的DNA片段进行测序,得到按照标签区分的测序序列reads ;利用reads的重叠关系组装得到高可变区V3的全长序列unique reads ;对unique reads进行分类分析,以实现对微生物群体的分类。优选地,该方法还包括在步骤“提取微生物样品中的脱氧核糖核酸DNA”之前,执行微生物群体的取样。优选地,所述对unique reads进行分类分析包括计算unique reads之间的序列差异度;根据序列差异度执行操作分类学单元OTU的分类,将unique reads分配到OTU中; 将每一个OTU分类中的unique reads比对到16S rDNA的v3数据库中,将比对结果根据众数原则对OTU进行物种注释。优选地,根据序列差异度执行操作分类学单元(OTU)的分类是指根据本领域公知的OTU分类中“种”水平之间的差异度将unique reads分配到相应的OTU中。在本专利技术的一个实施方案中,将序列差异度在3%以内的unique reads分配到一个OTU中。优选地,将比对结果根据众数原则对OTU进行物种注释是指如果一个OTU中66% 以上的比对结果均为同一个物种,则将该OTU注释为该物种;如果未达到该比例,则将物种分类信息上移一个水平(例如从“种”上移到“属”,或从“属”继续上移到“科”)再进行统计,直到达到66%的比例标准为止。优选地,该方法还包括在步骤“对unique reads进行分类分析”之后,基于分类分析结果,进行种群多样性分析和/或统计得到微生物群体的相对丰度值。优选地,步骤“对宏基因组16S rDNA的高可变区V3进行扩增”是指利用本领域公知的方法扩增DNA序列,在本专利技术的一个实施方案中,采用聚合酶链式反应(PCR)扩增16S rDNA的高可变区V3,所述PCR反应的引物为引物338F :ACTCCTACGGGAGGCAGCAG和533R TTACCGCGGCTGCTGGCAC。优选地,步骤“对DNA片段进行PCR-Free Solexa建库,建库过程中在DNA片段上加上标签序列,对每个样品进行标记”进一步包括将所述DNA片段进行纯化,对纯化后的 DNA片段进行浓度定量,定量后不同样品取等浓度的量分别进行末端修复,在3’端加上碱基A,然后加上标签序列,再进一步加上PCR-Free的接头,最后对样品进行纯化。优选地,在得到按照标签区分的原始的测序序列reads后,还包括对所述测序序列进行筛选的步骤,以过滤掉低质量的测序序列;所述低质量的测序序列选自以下序列中的任意一种或数种接头污染序列,含有多个poly(A|T|C|G)的序列、以及含有连续2个以上的N的序列;优选地,步骤“利用reads的重叠关系组装得到高可变区V3的全长序列unique reads是指按照本领域公知的条件进行序列的拼接,例如运用拼接软件,根据序列两端的重叠关系对reads进行拼接,将其组装成V3的全长序列unique reads.在本专利技术的一个实施方案中,拼接的条件是最小匹配长度为S3P,重叠区域不允许错配,重叠区域N所占最大百分比是0. 4% ;为了更多的利用序列,不满足以上结果的序列将各切除5bp继续组装,如此重复多次,最终产生的就是V3的序列,如果最终的拼接结果小于50bp也不用于后续分析。本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:章文蔚郭晶龚梅花张艳艳王俊汪建杨焕明
申请(专利权)人:深圳华大基因研究院深圳华大基因科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术