一种m6A甲基化高通量测序数据的自动化分析方法技术

技术编号：44169160 阅读：37 留言：0更新日期：2025-01-29 10:43

本发明专利技术公开了一种m<supgt;6</supgt;A甲基化高通量测序数据的自动化分析方法，包括如下步骤：步骤1、获取待分析下机原始数据，创建项目基本信息文件；步骤2、创建conda运行环境变量配置文件environment.yml以及Docker环境构建脚本Dockerfile，将两者置入流程配置文件nextflow.config；步骤3、设置m<supgt;6</supgt;A甲基化高通量测序数据自动化数据分析基础模块的生物信息分析脚本；步骤4、按照m<supgt;6</supgt;A甲基化高通量测序数据自动化数据分析基础模块之间的依赖关系，配置测序数据分析模块子模块的执行顺序和并行条件；步骤5、根据nextflow.config配置文件运行参数设定，对测序数据分析模块子模块运行队列进行检查，判断是否满足依赖关系；若满足则执行；若不满足，则返回错误；步骤6、查看结果输出和运行日志。本发明专利技术基于Nextflow流程框架，具有项目可移植性，可进行批量项目分析，便于控制分析内容。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及生物信息学，尤其涉及一种m6a甲基化高通量测序数据的自动化分析方法。

技术介绍

1、表观遗传学被认为是在不改变dna序列的情况下研究遗传变化的学科，它主要关注行为和环境如何引起和影响基因功能的变化，这些变化包括dna甲基化、组蛋白修饰、染色质结构和重塑等。作为表观遗传学的一个重要研究领域，迄今为止，已经在编码和非编码rna(ncrnas)上发现了170多种不同类型的rna修饰，其中大部分都是rna甲基化。作为发生在腺苷第六个碳原子的甲基化，n6-甲基腺苷(m6a)被认为是最丰富的mrna内部修饰，并且在lncrnas、mirna、snrna、snorna和rrna种都广泛存在，几乎覆盖了整个转录组。

2、m6a修饰rna是由名为“m6a writer”的多组分甲基化转移酶复合物、去甲基化酶“eraser”和阅读蛋白“reader”共同作用的动态过程。m6a甲基化修饰过程的动态性，能够对不同生物学环境和生长发育阶段m6a的调控作用和细胞对外界环境和内部信号的响应情况进行精准呈现，体现了m6a甲基化的巨大研究潜力。随着高通量测序技术的高速发展，merip-seq技术的出现能够实现不同条件下全转录组水平的m6a甲基化修饰图谱绘制，极大的推进了对m6a甲基化修饰在基因表达调控、细胞功能和疾病发生中作用的认识。

3、merip-seq技术的巨大潜力促使计算生物学家开发了一系列的分析工具，尽管表观转录组领域为确保单个工具的可用性做出了巨大努力，但由于完整的merip-seq数据挖掘及分析过程涉及多个分析

4、目前生物信息分析流程常用的方式主要通过脚本组织和基于流程框架搭建，但前者不支持范式的依赖管理及故障修复，具有开发效率低、难以维护等缺点。而目前基于后者开发的merip-seq数据自动化分析流程，例如meripseqpipe、merip-pe等，均存在分析模块不全面且分析功能欠缺等问题，这会导致对m6a修饰图谱的理解不完整，从而影响后续功能研究或实验设计。

5、因此，需要一种在全转录组范围内定位rna分子上m6a甲基化位点的m6a甲基化高通量测序数据自动化分析方法，能够在揭示不同条件(不同组织、不同病理状态、不同时间点等)下rna甲基化模式的同时关联甲基化修饰与基因表达调控，进一步诠释m6a甲基化修饰在基因表达调控中的功能。

技术实现思路

1、专利技术目的：本专利技术提供一种m6a甲基化高通量测序数据的自动化分析方法，基于nextflow流程框架，具有项目可移植性，可进行批量项目分析，便于控制分析内容。

2、技术方案：本专利技术所述的一种m6a甲基化高通量测序数据的自动化分析方法，包括如下步骤：

3、步骤1、获取待分析下机原始数据，创建项目基本信息文件，每个项目包含多个样本，用户根据项目具体分析任务对在配置文件中相应数据分析基础模块参数进行设置；

4、步骤2、创建conda运行环境变量配置文件environment.yml以及docker环境构建脚本dockerfile，将两者置入流程配置文件nextflow.config，并在配置文件nextflow.config中进一步对m6a甲基化高通量测序数据自动化数据分析流程运行时所有输入文件、输出文件、数据文件、日志记录、脚本及应用程序的相对路径或绝对路径及流程运行情况配置；

5、步骤3、设置m6a甲基化高通量测序数据自动化数据分析基础模块的生物信息分析脚本，m6a甲基化高通量测序数据自动化数据分析基础模块包括检查子模块、上游预处理模块、表观转录组分析模块、联合分析模块、结果报告模块；

6、步骤4、按照m6a甲基化高通量测序数据自动化数据分析基础模块之间的依赖关系，配置测序数据分析模块子模块的执行顺序和并行条件；

7、步骤5、根据nextflow.config配置文件运行参数设定，对测序数据分析模块子模块运行队列进行检查，判断是否满足依赖关系；若满足则执行；若不满足，则返回错误；

8、步骤6、查看结果输出和运行日志。

9、进一步的，步骤1中，获取待分析下机原始数据，数据类型为fq、压缩格式fq.gz、bam或bed。

10、进一步的，步骤2中，创建conda运行环境变量配置文件environment.yml以及docker环境构建脚本dockerfile，将两者置入流程配置文件nextflow.config具体包括如下步骤：

11、步骤21、定义全局参数，包括所有输入文件、输出文件、数据文件、日志记录、脚本及应用程序的相对路径或绝对路径以及进程使用内存、cpu及运行时间限制；

12、步骤22、将environment.yml文件路径提供给nextflow.config，通过nextflow根据每个分析基本单元指定的依赖关系创建并激活conda环境；

13、步骤23、指定执行docker容器的方式；

14、步骤24、列举所有m6a甲基化高通量测序数据自动化数据分析基本单元，按照基本单元的依赖关系对其执行情况进行定义。

15、进一步的，步骤3中，m6a甲基化高通量测序数据自动化数据分析基础模块包括检查子模块、上游数据预处理模块、表观转录组分析模块、转录组分析模块、联合分析模块、结果报告模块；检查子模块用于检查运行环境和nextflow.config中参数是否满足要求，上游数据预处理模块用于预处理原始测序数据，表观转录组分析模块用于可视化m6a甲基化在全转录组水平上的修饰情况，转录组分析模块用于提供与表观转录组信息对应的转录组信息，联合分析模块用于对条件特异性的m6a甲基化调控基因进行预测，进而提供揭示m6a甲基化调控功能机制的线索，结果报告模块用于生成并整合分析结果。

16、进一步的，搭建上游数据预处理模块具体包括如下步骤：

17、(1)构建数据过滤单元，将数据过滤软件fastp和trim galore对原始测序数据过滤代码模块化，默认参数为自动检测测序接头(adapter)序列并修剪，去除平均碱基质量得分(q-score)≤20的序列、长度小于36个碱基的读段和低复杂度序列；

18、(2)构建核糖体去除单元，将比对软件hisat2过滤比对到核糖体rna上的数据的代码模块化；

19、(3)构建参考基因组比对单元，将比对软件hisat2/bowtie2/star将序列比对到参考基因组的代码模块化，流程配置文件nextflow.config中设置默认工具为hisat2；

20、(4)构本文档来自技高网...

【技术保护点】

1.一种m6A甲基化高通量测序数据的自动化分析方法，其特征在于，包括如下步骤：

2.如权利要求1所述的m6A甲基化高通量测序数据的自动化分析方法，其特征在于，步骤1中，获取待分析下机原始数据，数据类型为fq、压缩格式fq.gz、bam或bed。

3.如权利要求1所述的m6A甲基化高通量测序数据的自动化分析方法，其特征在于，步骤2中，创建conda运行环境变量配置文件environment.yml以及Docker环境构建脚本Dockerfile，将两者置入流程配置文件nextflow.config具体包括如下步骤：

4.如权利要求1所述的m6A甲基化高通量测序数据的自动化分析方法，其特征在于，步骤3中，m6A甲基化高通量测序数据自动化数据分析基础模块包括检查子模块、上游数据预处理模块、表观转录组分析模块、转录组分析模块、联合分析模块、结果报告模块；检查子模块用于检查运行环境和nextflow.config中参数是否满足要求，上游数据预处理模块用于预处理原始测序数据，表观转录组分析模块用于可视化m6A甲基化在全转录组水平上的修饰情况，转录组分析模块

5.如权利要求4所述的m6A甲基化高通量测序数据的自动化分析方法，其特征在于，搭建上游数据预处理模块具体包括如下步骤：

6.如权利要求4所述的m6A甲基化高通量测序数据的自动化分析方法，其特征在于，搭建表观转录组分析模块具体包括如下步骤：

7.如权利要求4所述的m6A甲基化高通量测序数据的自动化分析方法，其特征在于，搭建转录组分析模块，具体包括如下步骤：

8.如权利要求4所述的m6A甲基化高通量测序数据的自动化分析方法，其特征在于，搭建结果报告模块具体包括如下步骤：

9.如权利要求1所述的m6A甲基化高通量测序数据的自动化分析方法，其特征在于，步骤4中，根据项目信息提供数据类型判断数据能够执行的分析模块，按照分析基础模块基本单元依赖关系，将其衔接起来，在保证系统稳定性的前提下，实现流程的灵活性最大化。

10.如权利要求1所述的m6A甲基化高通量测序数据的自动化分析方法，其特征在于，步骤6中，检查执行数据分析过程中，程序出现问题输出保存在日志文件中的错误信息，通过查看日志文件并改正错误信息进行故障恢复，以便再次运行快速恢复到报错环节。

...

【技术特征摘要】

1.一种m6a甲基化高通量测序数据的自动化分析方法，其特征在于，包括如下步骤：

2.如权利要求1所述的m6a甲基化高通量测序数据的自动化分析方法，其特征在于，步骤1中，获取待分析下机原始数据，数据类型为fq、压缩格式fq.gz、bam或bed。

3.如权利要求1所述的m6a甲基化高通量测序数据的自动化分析方法，其特征在于，步骤2中，创建conda运行环境变量配置文件environment.yml以及docker环境构建脚本dockerfile，将两者置入流程配置文件nextflow.config具体包括如下步骤：

4.如权利要求1所述的m6a甲基化高通量测序数据的自动化分析方法，其特征在于，步骤3中，m6a甲基化高通量测序数据自动化数据分析基础模块包括检查子模块、上游数据预处理模块、表观转录组分析模块、转录组分析模块、联合分析模块、结果报告模块；检查子模块用于检查运行环境和nextflow.config中参数是否满足要求，上游数据预处理模块用于预处理原始测序数据，表观转录组分析模块用于可视化m6a甲基化在全转录组水平上的修饰情况，转录组分析模块用于提供与表观转录组信息对应的转录组信息，联合分析模块用于对条件特异性的m6a甲基化调控基因进行预测，进...

【专利技术属性】
技术研发人员：葛芹玉，杨钰巍，潘旻，盛钰琪，赵祥伟，
申请(专利权)人：东南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人