System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种三代测序的质控程序分析方法技术_技高网

一种三代测序的质控程序分析方法技术

技术编号:44726038 阅读:0 留言:0更新日期:2025-03-21 17:51
本发明专利技术提供了一种三代测序的质控程序分析方法,包括对抽提出的基因序列进行原始测序得到初始数据的POD5文本,然后将POD5文本转化成FASTQ文件,并去除Adapter数据,然后进行质量评估,得到Reads数据;将Reads数据与理论长度的目标碱基序列进行比对分析,过滤杂质,最终得到可视化的检测结果。本发明专利技术还提供一种基因的抽提方法,从原始数据获取、预处理、质量评估、比对分析到最后的报告生成,形成了一个高度优化且可靠的生物信息学分析流程。

【技术实现步骤摘要】

本专利技术涉及计算机处理,具体涉及一种三代测序的质控程序分析方法


技术介绍

1、腺相关病毒(adeno-associated virus,aav)载体是含有单链的dna,无包膜,属于依赖辅助病毒的细小病毒b19家族。aav在宿主中的复制需要宿主细胞或其他病毒的协助才能完成,如腺病毒和疱疹病毒,也因此被称为腺相关病毒。aav基因组为线性单链的正链或负链dna,长度约为4700个核苷酸。腺相关病毒的基因组中含有两个开放的阅读框,rep和cap,两端分别有末端重复序列(itr)。

2、自然界中存在着天然野生型腺相关病毒,而实验用的aav载体,是在野生腺相关病毒的基础上经过人工改造的质粒,因此也叫重组腺相关病毒(recombinant aav,raav)。在没有特别指出的时候,简称aav一般指已经改造过的aav载体。重组腺相关病毒广泛应用于生物学领域,其可进行基因递送或直接用于生产质粒dna疫苗,也是基因治疗和细胞治疗中包装病毒载体的基础,因此,对质粒序列进行精确测序对于生产高质量病毒载体等临床治疗产品是非常有必要的。

3、sanger测序法,又称第一代测序技术,作为测序金标准推动了人类基因组“工作框架图”的绘制,但sanger测序依赖纯的一致性序列模板,不能同时对混合序列进行测序和定量,因而不适合高通量的大规模测序,也不能对混合序列中的每种序列进行定量分析。sanger测序法通量低、成本高的缺点限制了其进一步大规模应用。随着下一代高通量测序技术,即第二代测序技术,又称下一代测序技术的崛起,因其通量高、成本低等优点在基础研究与临床诊疗中得到广泛应用。二代测序虽然有效的解决了对混合序列的高通量同步测序和定量分析问题,但其读长较短(几十到几百个碱基),单个读长常常不能覆盖样品中单个序列的长度,需要将多个读出的序列进行拼接后才能获得较长的完整序列,因而二代测序无法对完整的长序列进行直接的定量,而raav的长度质控要求恰恰需要对raav中可能存在的不同长短的dna序列进行准确的定量评估,这就需要一种读长能一次性覆盖样品中不同长短序列的高通量测序方法。随着第三代测序技术的出现,因其具有长读长优势,为基因序列上复杂重复区域解析、长片段序列的全长测序和准确定量及高质量基因组组装提供了新的技术手段。

4、近年来,第三代测序技术进一步发展与完善,同时在肿瘤、免疫、生殖等相关领域逐步体现出临床应用价值,然而,针对aav基因组的测序,一般采用打断后pcr扩增的建库方法,且常规的提取aav基因组的方法,得到的dna样品片段质量低,完整性差(kung sn, trannt, manokaran s, he r, et al. direct itr-to-itr nanopore sequencing of aavvector genomes. hum gene ther. 2022 nov;33(21-22):1187-1196.)。在测序过程中,由于碱基前进速度等带有随机性,间隔太短时碱基识别易错失或测序提前终止,导致后续分析中会存在系统误差,也限制了纳米孔测序结果价值。因此,优化检测体系与开发分析算法,从而对纳米孔测序结果进行校正,是非常有意义的研究方向。


技术实现思路

1、三代测序被应用在单分子长序列测序的多种应用中,在测序过程中,由于碱基前进速度等带有随机性,间隔太短时碱基识别易错失或测序提前终止,导致后续分析中会存在系统误差,也限制了纳米孔测序结果价值。本专利技术的专利技术人专利技术了一种简洁、高效的三代测序的质控程序分析方法,具体地,参照图1,包括以下步骤:

2、s1a:对抽提出的基因序列进行原始测序得到初始数据的pod5文本。

3、本专利技术通过对完整长度的dna序列进行直接的读取来获得数据。任何较为完整的双链dna序列都可应用本专利技术提供的方法进行数据分析。在一些实施方式中主要通过nanopore设备对dna或rna样本进行测序,采集下来的数据通常为长读长(long-read)格式,具有较高的碱基错误率,但能够覆盖基因组的复杂区域如重复序列。数据的初始格式是pod5文本,这是oxford nanopore用于存储原始电流信号的文件格式。该数据包含了未处理的测序信息,包括dna的q(qualities)值,q值是测序过程中用于评估碱基读取精确度的标准指标,得分越高表示碱基质量越好。不受限制的,其它可读取双链dna序列的三代测序设备读取出的数据也可用本专利技术提供的质控程序分析方法进行分析。

4、在一些实施方式中,三代测序为raav的三代测序,抽提出的基因为raav的基因。

5、s2a:对初始数据进行预处理,将pod5文本转化成fastq文件,并去除adapter数据,得到第二数据。

6、这一处理步骤是保证数据纯净和高质量的基础。fastq文件是生物信息学分析的常用数据格式,包含了测序reads的碱基序列和每个碱基的质量得分。这个预处理步骤的具体任务包括:

7、adapter去除:adapter是测序过程中添加的非生物序列,用于引导测序过程。在分析前必须去除这些冗余的adapter序列,以保证分析只基于样本的生物序列。

8、数据格式转换:将原始测序数据从pod5文本格式转换为fastq格式,便于后续使用其他工具进行分析。

9、在一些实施方式中,选用dorado对初始数据进行处理并得到第二数据。dorado是oxford nanopore官方推荐的一款数据处理工具,主要用于将pod5格式文件转换为标准的fastq格式。

10、s3a:对第二数据进行质量评估,得到干净、无冗余的reads数据。

11、在一些实施方式中,选用nanoplot对第二数据进行质量评估。nanoplot是一款针对oxford nanopore和pacbio等长读长测序数据的质量评估和可视化工具。它的主要功能是生成可视化图表,以便研究者对数据集的质量进行快速评估,目前被作为一种常规的质量评估软件被广泛使用。nanoplot生成的图表包括:

12、读长分布图:展示每个read的长度分布。研究者可以通过该图了解数据集中reads的长度是否在预期范围内,是否存在较短或较长的异常reads。

13、质量得分分布图:生成q值质量得分分布图,用于评估reads的整体质量。

14、其他可视化:nanoplot还可以生成碱基组成、质量得分随位置变化、读长与质量得分相关性等多种图表。

15、通过这些图表,研究者可以快速发现数据中的潜在问题,比如低质量reads或异常的长度分布,便于及时调整后续的分析策略。

16、s4a:将reads数据与理论长度的目标碱基序列进行比对分析,得到第一统计结果。

17、在一些实施方式中,采用minimap2对过滤后的reads与理论长度的目标碱基序列进行比对分析。minimap2是一款专门为处理长读长数据设计的序列比对工具。与传统短读长比对工具不同,本文档来自技高网...

【技术保护点】

1.一种三代测序的质控程序分析方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的分析方法,其特征在于,所述杂质为大于10000 bp的长序列、低于500 bp的短序列以及Q值小于10的序列,所述纯净的第三数据为长度在500-10000 bp以内且Q值大于或等于10的序列的数据。

3.根据权利要求1或权利要求2所述的分析方法,其特征在于,所述三代测序为rAAV的三代测序。

4.一种三代测序的方法,其特征在于,所述方法包括:

5.根据权利要求4所述的三代测序的方法,其特征在于,所述三代测序为rAAV的三代测序,所述基因序列为rAAV的基因序列。

6.根据权利要求5所述的三代测序的方法,其特征在于,所述抽提基因序列包括:

7.根据权利要求5所述的三代测序的方法,其特征在于,还包括为对所述检测结果进行去噪,所述去噪为通过设置阳性对照检测噪音,然后参照所述阳性对照的所述噪音去除所述检测结果的所述噪音,得到矫正结果,所述阳性对照为载体质粒酶切后得到的5' ITR-目标序列-3' ITR线性化片段。

8.一种计算机程序产品,其特征在于,所述计算机程序产品包括一个或多个存储的指令序列,该一个或多个指令序列对处理器而言是能存取的,并且在由该处理器执行时致使该处理器实施如权利要求1所述的三代测序的质控程序分析方法的步骤。

9.根据权利要求8所述的计算机程序产品,其特征在于,包括:第一单元、第二单元、第三单元、第四单元、第五单元和第六单元,其中:

...

【技术特征摘要】

1.一种三代测序的质控程序分析方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的分析方法,其特征在于,所述杂质为大于10000 bp的长序列、低于500 bp的短序列以及q值小于10的序列,所述纯净的第三数据为长度在500-10000 bp以内且q值大于或等于10的序列的数据。

3.根据权利要求1或权利要求2所述的分析方法,其特征在于,所述三代测序为raav的三代测序。

4.一种三代测序的方法,其特征在于,所述方法包括:

5.根据权利要求4所述的三代测序的方法,其特征在于,所述三代测序为raav的三代测序,所述基因序列为raav的基因序列。

6.根据权利要求5所述的三代测序的方法,其特征在于,所...

【专利技术属性】
技术研发人员:赵晟刘玉兰李刚孙秀莲
申请(专利权)人:宜明苏州细胞生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1