System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种片段化DNA重测序数据中变异位点的筛选方法技术_技高网

一种片段化DNA重测序数据中变异位点的筛选方法技术

技术编号:44386296 阅读:0 留言:0更新日期:2025-02-25 10:02
一种片段化DNA重测序数据中变异位点的筛选方法,属于生物技术领域。本发明专利技术为解决现有技术中缺少高效、准确筛选片段化DNA重测序数据中变异位点的方法,提供了一种片段化DNA重测序数据中变异位点的筛选方法,所述筛选方法在序列比对中‑fq转.sai文件时,选择‑l min‑size‑n 0.04为参数;在序列比对中‑.sai转.sam文件时,选择‑o=1000为参数;在变异位点筛选时,选择参数MQ阈值为36。本发明专利技术提供的筛选方法,与传统变异位点筛选方法相比,在保证高效比对率的同时,显著缩短了差异位点筛选的运行时间,提高了少选结果的准确度,所述方法可应用于片段化DNA重测序数据中变异位点的筛选。

【技术实现步骤摘要】

本专利技术属于生物,具体涉及一种片段化dna重测序数据中变异位点的筛选方法。


技术介绍

1、基因组dna记载着生命体所有的遗传信息,这些遗传信息可促进物种鉴定、遗传多样性评估、疾病监测和生态适应等多方面的研究,为科学家更好的了解和保护野生动物、营造良好的生态环境提供强有利的理论依据。对于只能从一些历史标本或者角化材料中获取基因组dna的材料不具备完整细胞结构,故而其内部的核遗传物质会受到各种酶的攻击,导致其不断地降解。研究表明,遗传物质可以在毛发、骨骼、牙齿、软组织等特定环境中保存上万年。通过这些遗传物质,可对了解某一个群体的遗传多样性、揭示某地区生态系统的改变,甚至一些动物群体在历史上由盛到衰、最终走向灭亡的全过程。目前,已知的各个物种的起源研究也同样与片段化dna息息相关。

2、sanger测序技术(一代测序技术)的出现,标志着遗传信息的可视化成为现实,但存在通量和读长限制的技术问题。二代测序技术(ngs)的出现及不断完善,意味着小片段dna的大规模测序变成了可能。不过,ngs能够产生数十亿的dna序列,这要求精确的将这些片段比对上对应的参考基因组,寻找有差异的位置(即变异位点)就要花费大量时间成本。

3、因此,本领域技术人员渴望研发一种高效、准确,适用于片段化dna,尤其是小片段化dna重测序数据中变异位点的筛选方法。


技术实现思路

1、本专利技术为解决现有技术中缺少高效、准确筛选片段化dna重测序数据中变异位点的方法,提供了一种片段化dna重测序数据中变异位点的筛选方法。

2、本专利技术的目的之一在于提供一种片段化dna重测序数据中变异位点的筛选方法,所述筛选方法包括以下步骤:将待测片段化dna重测序数据比对到参考基因组序列上,使用bwa软件进行序列比对,对上述序列比对获得的文件结果进行变异位点过滤,筛选获得待测片段化dna基因组上的变异位点。

3、在本专利技术的一个优选实施例中,所述序列比对步骤如下:序列比对的第一步,先将fq文件转化成.sai文件,使用的命令为bwa aln-l min-size-n 0.04-t 5$.ref.fa$.1.fq.gz-f$.1.sai&bwa aln-l min-size-k 2-t 5$.ref.fa$.2.fq.gz-f$.2.sai,通过参数rm、rm0和tc的变化进行效果评估;序列比对的第二步,将上述.sai文件转化为.sam文件,使用的命令为bwa sampe-o 1000$.ref.fa$.1.sai$.2.sai$.1.fq.gz$.2.fq.gz>out.sam,通过参数rm、rm0和tc的变化进行效果评估。

4、在本专利技术的一个优选实施例中,所述序列比对的第一步中参数-l为比对的种子长,min-size为最小的读数长度,-n为错误率,-t为线程数,$.ref.fa为参考基因组,$.1.fq.gz/$.2.fq.gz为输入的fq文件1/2,$.1.sai/$.2.sai为对应的输出文件1/2。

5、在本专利技术的一个优选实施例中,所述序列比对的第二步中参数-o为重复比对的次数。

6、在本专利技术的一个优选实施例中,所述参数rm为比对率,具体是指测序所产生的reads比对到参考基因组的读数占总读数的比例。

7、在本专利技术的一个优选实施例中,所述参数rm0为多重比对率,具体是指同一条读数比对到不同参考序列的读数占比对上的读数的比例。

8、在本专利技术的一个优选实施例中,所述参数tc为运行时间,c为运行的线程数。

9、在本专利技术的一个优选实施例中,所述变异位点过滤步骤使用的命令为gatkvariantfil tration-r$.ref.fa-v$.snp.vcf--filter-expression"mq<36.0||qd<3.0||fs>60.0||sor>3.0||mqranksum<-12.5||readposranksum<-8.0"--filter-name"filter"--cluster-window-size 10--cluster-size 3--missing-values-evaluate-as-failing-o mq36.$.snp.vcf。

10、在本专利技术的一个优选实施例中,所述变异位点过滤步骤中参数-v为输入文件,--filte r-expression为过滤参数,--cluster-window-size为窗口长度,--cluster-size为每一个窗口允许的位点数,-o为输出文件。

11、本专利技术的有益效果:本专利技术提供了一种片段化dna重测序数据中变异位点的筛选方法,在序列比对中-fq转.sai文件时,以最小的读数长度作为比对种子长度(-l),改变了(-n)比对的错误率的阈值,从传统的“1024-n 0.03”参数修改为“20-n 0.04”;在序列比对中-.sai转.sam文件时,将一段读数的重复比对数(-o)从100000改为1000;在变异位点筛选时,根据片段化dna重测序数据读数的特点,将参数mq的阈值从40修改为36。

12、本专利技术提供的片段化dna重测序数据中变异位点的筛选方法,与传统变异位点筛选方法相比,在保证高效比对率的同时,显著缩短了比对的运行时间,能够最大程度提升片段化dna重测序数据中变异位点的筛选效率;本专利技术提供的片段化dna重测序数据中变异位点的筛选方法相较于传统筛选方法,更加适用于片段化dna,尤其是小片段化dna重测序数据中变异位点的筛选,显著提高差异位点筛选效率和准确度的效果,显著提高了筛选获得的变异位点数目,为后续分析提供了更多的基础位点;并且,本专利技术提供的筛选方法,对于高质量dna的测序数据影响较小,适用范围广泛,可应用于片段化dna重测序数据中变异位点的筛选。

本文档来自技高网...

【技术保护点】

1.一种片段化DNA重测序数据中变异位点的筛选方法,其特征在于,所述筛选方法包括以下步骤:将待测片段化DNA重测序数据比对到参考基因组序列上,使用BWA软件进行序列比对,对上述序列比对获得的文件结果进行变异位点过滤,筛选获得待测片段化DNA基因组上的变异位点。

2.根据权利要求1所述的筛选方法,其特征在于,所述序列比对步骤如下:序列比对的第一步,先将fq文件转化成.sai文件,使用的命令为bwa aln-l min-size-n 0.04-t 5$.ref.fa$.1.fq.gz-f$.1.sai&bwa aln-l min-size-k 2-t 5$.ref.fa$.2.fq.gz-f$.2.sai,通过参数Rm、Rm0和Tc的变化进行效果评估;序列比对的第二步,将上述.sai文件转化为.sam文件,使用的命令为bwa sampe-o 1000$.ref.fa$.1.sai$.2.sai$.1.fq.gz$.2.fq.gz>out.sam,通过参数Rm、Rm0和Tc的变化进行效果评估。

3.根据权利要求2所述的筛选方法,其特征在于,所述序列比对的第一步中参数-l为比对的种子长,min-size为最小的读数长度,-n为错误率,-t为线程数,$.ref.fa为参考基因组,$.1.fq.gz/$.2.fq.gz为输入的fq文件1/2,$.1.sai/$.2.sai为对应的输出文件1/2。

4.根据权利要求2所述的筛选方法,其特征在于,所述序列比对的第二步中参数-o为重复比对的次数。

5.根据权利要求2所述的筛选方法,其特征在于,所述参数Rm为比对率,具体是指测序所产生的reads比对到参考基因组的读数占总读数的比例。

6.根据权利要求2所述的筛选方法,其特征在于,所述参数Rm0为多重比对率,具体是指同一条读数比对到不同参考序列的读数占比对上的读数的比例。

7.根据权利要求2所述的筛选方法,其特征在于,所述参数Tc为运行时间,c为运行的线程数。

8.根据权利要求1所述的筛选方法,其特征在于,所述变异位点过滤步骤使用的命令为gatk VariantFiltration-R$.ref.fa-V$.snp.vcf--filter-expression"MQ<36.0||QD<3.0||FS>60.0||SOR>3.0||MQRankSum<-12.5||ReadPosRankSum<-8.0"--filt er-name"Filter"--cluster-window-size 10--cluster-size 3--missing-values-evaluate-as-failing-O MQ36.$.snp.vcf。

9.根据权利要求8所述的筛选方法,其特征在于,所述变异位点过滤步骤中参数-V为输入文件,--filter-expression为过滤参数,--cluster-window-size为窗口长度,--cluster-siz e为每一个窗口允许的位点数,-O为输出文件。

...

【技术特征摘要】

1.一种片段化dna重测序数据中变异位点的筛选方法,其特征在于,所述筛选方法包括以下步骤:将待测片段化dna重测序数据比对到参考基因组序列上,使用bwa软件进行序列比对,对上述序列比对获得的文件结果进行变异位点过滤,筛选获得待测片段化dna基因组上的变异位点。

2.根据权利要求1所述的筛选方法,其特征在于,所述序列比对步骤如下:序列比对的第一步,先将fq文件转化成.sai文件,使用的命令为bwa aln-l min-size-n 0.04-t 5$.ref.fa$.1.fq.gz-f$.1.sai&bwa aln-l min-size-k 2-t 5$.ref.fa$.2.fq.gz-f$.2.sai,通过参数rm、rm0和tc的变化进行效果评估;序列比对的第二步,将上述.sai文件转化为.sam文件,使用的命令为bwa sampe-o 1000$.ref.fa$.1.sai$.2.sai$.1.fq.gz$.2.fq.gz>out.sam,通过参数rm、rm0和tc的变化进行效果评估。

3.根据权利要求2所述的筛选方法,其特征在于,所述序列比对的第一步中参数-l为比对的种子长,min-size为最小的读数长度,-n为错误率,-t为线程数,$.ref.fa为参考基因组,$.1.fq.gz/$.2.fq.gz为输入的fq文件1/2,$.1.sai/$.2.sai为对应的输出文件1/2。

4.根据权利要求2所述的筛选方法,其特征在于,所述序列比对的第二步中参数-o...

【专利技术属性】
技术研发人员:周永恒徐艳春崔靓玉杨金城于梦佳
申请(专利权)人:东北林业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1