鉴定和分析古DNA样本的方法技术

技术编号:20472279 阅读:130 留言:0更新日期:2019-03-02 14:34
本发明专利技术公开了鉴定和分析古DNA样本的方法,其中包括获得待测DNA样本的DNA信息的方法,该方法包括以下步骤:对所述待测DNA样本进行建库和测序,以便获得测序数据;对所述测序数据进行过滤处理;将所述经过过滤处理的测序数据进行比对处理,以便获得比对结果,所述比对结果包含所述待测DNA样本的DNA信息,所述比对处理最多容许4个碱基的错配。利用该方法能够有效地基于对待测古DNA样本的建库和测序,获得待测古DNA样本的DNA信息,并且,该信息准确,可信度高,能够有效用于待测古DNA的基因组分析,例如变异检测、古DNA的鉴定、性别判定以及现代人DNA污染率评估。

【技术实现步骤摘要】
鉴定和分析古DNA样本的方法
本专利技术涉及生物测序
,具体而言,涉及鉴定和分析古DNA样本的方法。
技术介绍
古生物样本对现代生物种群的进化史研究至关重要,古人类基因组的研究成果使人们重新认识到现代人的遗传组成并非只有非洲祖先成分,而是在走出非洲之后又与古尼安德特人和古丹尼索尔人发生过基因交流,颠覆了以往人们对现代人进化史的认识。同时,古生物基因组的研究对现代生物种群,尤其是人类的自然选择和疾病的研究也有着无法替代的重要作用,藏族人的高原适应性基因被证明是来自与古丹尼索尔人的基因组之间的渗透作用。古生物样本作为一种无法复制的遗传资源,对现代生物群体的进化、选择和疾病等研究具有巨大的促进作用而且无法替代。古生物遗传学研究已经深入到基因组水平。我国作为一个古生物资源大国,不仅有着极其丰富的动植物化石和亚化石资源,更有丰富的古人类样本不断出土,限制我国古人类基因组学发展的最大的瓶颈之一就是缺乏对古DNA处理和信息分析方法的总结。因而,目前鉴定和分析古DNA样本的方法仍有待改进。
技术实现思路
本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术的一个目的在于构建一套基于Illumina二代测序数据的古DNA的标准信息分析流程,提供一套古人类基因组分析方法。需要说明的是,本专利技术是基于专利技术人的下列发现和工作而完成的:专利技术人针对古DNA处理和信息分析的方法进行了一系列的理论研究和实验探索,结果发现:1、古DNA的片段化程度很高,因此在构建DNA文库的过程中不需对DNA进行片段化处理,DNA提取完成后可直接进行文库构建。2、针对古DNA,在上机测序时,不宜选择长片段测序,读段长度控制在100bp以内,因为古DNA平均长度在50-70bp左右,如果测序时读段的长度超过100bp,一方面会引入大量的接头污染,另一方面会造成大量的数据浪费。3、针对古DNA,原始Fastq数据下机后的最重要的一步就是根据Illumina数据特征以及古DNA的序列特征对数据进行过滤,目的在于最大限度的去除低质量的序列以及被外源污染的DNA序列。数据过滤主要包括4方面:对接头进行过滤、对质量值Q≤10的低质量碱基进行过滤、对N区(不能识别的区域)进行过滤,以及去除长度小于30bp以及长度大于99bp的读段。如果读段小于30bp,在后续的比对过程中会造成较多的错误比对。因为古DNA序列高度片段化,平均长度一般在50-70bp,如果读段过长(大于99bp),则很有可能是来自于现代DNA的污染,因此,为了最大限度保留古DNA,则应删除这些读读段。这一步及其重要,如果不删除大于99bp的读段,将会影响后续物种鉴定的准确性,这也是跟现代生物样本物种鉴定的一个很大的不同点。4、为了兼容大部分的比对结果分析,原始下机数据经过质控之后,分别使用SoapAligner和BWA对原始古人类DNA数据进行比对分析,其中,使用SoapAligner比对的数据,最后生成Soap格式的比对结果;使用BWA比对的数据,最后生成sam格式的比对结果,并且考虑到古DNA的脱氨基作用导致的突变较多,在比对的过程中最多容许4个碱基的错配。由此,比对结果准确可靠,有利于后续分析使用。5、使用SoapSnp和GATK两个软件同时对比对后的数据进行变异检测,主要对单核苷酸变异进行检测;同时,使用SoapSnp进行变异检测时,输出cns格式的结果,即把所有位点输出。由此,有利于后续分析使用。6、针对古DNA鉴定:古DNA鉴定是进行后续个性化信息分析的最基本前提,专利技术人综合古DNA所具备的分子特征,提出了基于以下2个方面的至少之一进行古DNA鉴定的方法:(1)基于脱氨基突变特征:古DNA的脱氨基突变特征:古生物样本在长期的保存过程中,双链DNA会受到一种重要的化学损伤,即胞嘧啶脱氨基。脱氨基作用主要发生在DNA片段的端头部位,也就是5’端和3’端。这种脱氨基作用会使胞嘧啶转换成尿嘧啶,因此在文库构建和测序的时候会引入C->T的突变。因此古DNA在进行二代测序时,reads的5’端和3’端会出现大量的C->T和G->A的突变。专利技术人认为,这种突变模式正好可以被利用来鉴定所得序列是否为古DNA的证据之一。(2)基于DNA片段化特征:脱嘌呤作用(DNA片段化)特征:脱嘌呤作用是古DNA保存过程中发生DNA链断裂的一个最重要的化学作用,也就是说,在古DNA的片段化过程中,有相当一部分是由于发生了脱嘌呤作用导致的。专利技术人认为,当将古DNA片段比对到参考基因组时,这种脱嘌呤作用就会表现出reads5’末端再往前一个碱基是嘌呤的比例大大增加,相反在3’末端再往后一个碱基是嘧啶的比例会大大增加。因而,专利技术人认为,古DNA这种断裂模式与脱氨基一样,也可以作为鉴定是否为古DNA的主要证据之一。7、专利技术人还构建了针对女性古DNA样本,通过Y染色体进行外源DNA污染评估的方法:该方法的首先是获得Y染色体特定区域(YUR,不和其他任何染色体同源而且没有重复序列的区域);然后将所得到的古DNA的reads比对到YUR,再根据YUR和具体的reads数量计算出假设是男性情况下的期望值,最后得到的实际比对上的reads和期望值之间的比值,其即为来自男性的污染率。由此,在本专利技术的第一方面,本专利技术提供了一种获得待测DNA样本的DNA信息的方法。根据本专利技术的实施例,该方法包括以下步骤:对所述待测DNA样本进行建库和测序,以便获得测序数据,其中,在所述建库时不进行DNA片段化的步骤,所述测序读段的长度不超过100bp;对所述测序数据进行过滤处理,以便获得经过过滤处理的测序数据;以及将所述经过过滤处理的测序数据进行比对处理,以便获得比对结果,所述比对结果包含所述待测DNA样本的DNA信息,其中,所述过滤处理包括下列的至少之一:(1)过滤去除接头序列;(2)过滤去除质量值Q≤10的低质量碱基,其中,当所述低质量碱基的数量占整条读段总碱基数量的50%以上时,删除整条读段;当所述低质量碱基在读段的端头,且数量不超过整条读段的50%时,仅切除所述低质量碱基;(3)对N区进行过滤,其中,当读段中含N比例大于10%时,去除所述读段;当N区仅存在于读段两端时,仅切除所述读段两端的N区;(4)去除长度小于30bp及长度大于99bp的读段,所述比对处理最多容许4个碱基的错配。需要说明的是,本文中所述的“对N区进行过滤,其中,当读段中含N比例大于10%时,去除所述读段;当N区仅存在于读段两端时,仅切除所述读段两端的N区”,其中,“N区”是指不能识别的区域,“含N比例”是指含有不能识别的碱基的比例。根据本专利技术的实施例,利用该方法能够有效地基于对待测古DNA样本的建库和测序,获得待测古DNA样本的DNA信息,并且,该信息准确,可信度高,能够有效用于待测古DNA的基因组分析,例如变异检测、古DNA的鉴定、性别判定以及现代人DNA污染率评估。根据本专利技术的实施例,同时利用SoapAligner和BWA进行所述比对处理。由此,比对结果准确可靠。根据本专利技术的一些实施例,利用SoapAligner进行所述比对处理时,生成Soap格式的比对结果;利用BWA进行所述比对处理时,生成sam格式的比对结果。由此,便于两种比对结果的兼并本文档来自技高网...

【技术保护点】
1.一种获得待测DNA样本的DNA信息的方法,其特征在于,包括以下步骤:对所述待测DNA样本进行建库和测序,以便获得测序数据,其中,在所述建库时不进行DNA片段化的步骤,所述测序读段的长度不超过100bp;对所述测序数据进行过滤处理,以便获得经过过滤处理的测序数据;以及将所述经过过滤处理的测序数据进行比对处理,以便获得比对结果,所述比对结果包含所述待测DNA样本的DNA信息,其中,所述过滤处理包括下列的至少之一:(1)过滤去除接头序列;(2)过滤去除质量值Q≤10的低质量碱基,其中,当所述低质量碱基的数量占整条读段总碱基数量的50%以上时,删除整条读段;当所述低质量碱基在读段的端头,且数量不超过整条读段的50%时,仅切除所述低质量碱基;(3)对N区进行过滤,其中,当读段中含N比例大于10%时,去除所述读段;当N区仅存在于读段两端时,仅切除所述读段两端的N区;(4)去除长度小于30bp及长度大于99bp的读段,所述比对处理最多容许4个碱基的错配。

【技术特征摘要】
1.一种获得待测DNA样本的DNA信息的方法,其特征在于,包括以下步骤:对所述待测DNA样本进行建库和测序,以便获得测序数据,其中,在所述建库时不进行DNA片段化的步骤,所述测序读段的长度不超过100bp;对所述测序数据进行过滤处理,以便获得经过过滤处理的测序数据;以及将所述经过过滤处理的测序数据进行比对处理,以便获得比对结果,所述比对结果包含所述待测DNA样本的DNA信息,其中,所述过滤处理包括下列的至少之一:(1)过滤去除接头序列;(2)过滤去除质量值Q≤10的低质量碱基,其中,当所述低质量碱基的数量占整条读段总碱基数量的50%以上时,删除整条读段;当所述低质量碱基在读段的端头,且数量不超过整条读段的50%时,仅切除所述低质量碱基;(3)对N区进行过滤,其中,当读段中含N比例大于10%时,去除所述读段;当N区仅存在于读段两端时,仅切除所述读段两端的N区;(4)去除长度小于30bp及长度大于99bp的读段,所述比对处理最多容许4个碱基的错配。2.根据权利要求1所述的方法,其特征在于,同时利用SoapAligner和BWA进行所述比对处理。3.根据权利要求2所述的方法,其特征在于,利用SoapAligner进行所述比对处理时,生成Soap格式的比对结果;利用BWA进行所述比对处理时,生成sam格式的比对结果。4.一种确定待测DNA样本是否为古DNA的方法,其特征在于,包括以下步骤:根据权利要求1-3任一项所述的方法,获得待测DNA样本的DNA信息;基于所述待测DNA样本的DNA信息,进行变异检测,以便确定所述待测DNA样本的变异信息;以及基于所述待测DNA样本的变异信息,确定所述待测DNA样本是否为古DNA,其中,存在下列情形的至少之一是所述待测DNA样本为古DNA的指示:(1)测序读段呈现如下的脱氨基特征:相对于参考基因组,所述测序读段的5’端和3’端出现大于10%的C->T和G->A的突变;(2)测序读段呈现如下的片段化特征:相对于参考基因组,所述测序读段的5’末端再往前一个碱基是嘌呤的比例显著增加,而3’末端再往后一个碱基是嘧啶的比例显著增加。5.根据权利要求4所述的方法,其特征在于,同时利用GATK和SoapSnp进行所述变异检测。6.根据权利要求5所述的方法,其特征在于,利用SoapSnp进行所述变异检测时,输出cns格式的结果。7.根据权利要求4所述的方法,其特征在于,所述待测DNA样本的变异信息包含单核苷酸变异信息。8.一种确定古DNA样本所属个体的性别的方法,其特征在于,包括以下步骤:根据权利要求1-3任一项所述的方法,获得待测古DNA样本的DNA信息;基...

【专利技术属性】
技术研发人员:郭小森兰天明蒋慧
申请(专利权)人:深圳华大基因研究院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1