本发明专利技术提出了一种基于高通量测序技术的宿主中病毒来源sRNA数据分析方法,包括文件准备步骤、下机数据质控步骤、病毒参考基因组比对以及病毒sRNA注释步骤、病毒sRNA定量步骤、差异病毒sRNA分析步骤、宿主靶基因预测步骤、富集分析步骤、网页版报告整理步骤。本发明专利技术结果全面,包含涉及到的病毒sRNA分析内容以及其宿主靶基因预测,GO、KEGG富集分析以及对应的可视化展示;自动整理所有分析结果,每一步分析完成之后自动对结果进行汇总统计、可视化以及逻辑化归类整理,结果文件可直接用于生成网页版报告,所有操作步骤可以溯源,方便错误查询,如果分析有报错,会生成对应的报错日志信息。
【技术实现步骤摘要】
基于高通量测序技术的宿主中病毒来源sRNA数据分析方法
本专利技术属于高通量转录组测序
,具体涉及一种基于高通量测序技术的宿主中病毒来源sRNA数据分析方法。
技术介绍
SmallRNA(sRNA)是一类长度小于200nt的非编码短链RNA分子,sRNA通常具备的功能是沉默靶基因,抑制靶基因行使功能。宿主感染病毒之后,病毒sRNA作为外源sRNA会参与宿主的生物学过程,比如行使类似于miRNA的生物学功能,沉默宿主的靶基因,进而参与影响宿主的生物学过程。单独病毒sRNA的研究和鉴定已经有相关的工具。目前还没有针对宿主中病毒来源sRNA的数据分析工具,特别是没有自动化的分析实现病毒sRNA和宿主靶基因的交互作用,以及测序结果的流程化分析工具,包括病毒sRNA的注释,表达量分析和差异分析,宿主靶基因位点分析,GO、KEGG功能富集分析等各个步骤的自动化整合。现有的病毒sRNA高通量分析方法存在如下缺陷:(1)适用性不强:缺少考虑病毒和宿主之间转录层面的联系;(2)结果展示不完整:分析结果过于简单,数据挖掘的不深入,缺少数据对应的可视化展示内容。
技术实现思路
为了克服现有技术所存在的上述缺陷,本专利技术的目的在于提供一种基于高通量测序技术的宿主中病毒来源sRNA数据分析方法。为了实现本专利技术的目的,所采用的技术方案是:本专利技术提供了一种基于高通量测序技术的宿主中病毒来源sRNA数据分析方法,包括如下步骤:(1)文件准备步骤:准备config文件,读取后用于进行数据自动化质控以及后续数据分析;在本专利技术的一个优选实施方式中,所述文件准备步骤当中config文件包括:下机数据位置以及对应的样本分析名和分组名、用于差异分析的分组信息、差异倍数参数、生物学重复参数、参考基因组信息等。(2)下机数据质控步骤:将下机得到的原始数据,通过Cutadapt、FastQC、Fastx-Toolkit、NGS_QC_Toolkit软件去除接头序列处理,保留15-41nt长度的序列,然后过滤低质量序列,即:以5个碱基长度为窗口对原始序列进行搜索,当窗口中碱基的平均测序质量低于20时,将从窗口最前端开始的部分截断并舍弃。将过滤后的数据进行去重,获得无重复的序列,并标记所有序列的数量。同时对原始数据和过滤数据量进行统计,并以柱状图展示各个样本不同长度序列的数量分布特征。过滤序列用于后续分析;在本专利技术的另一个优选实施方式中,所述下机数据质控步骤中,使用FastQC软件对去除接头的序列做质控,汇总包括序列的测序质量统计、GC含量统计等质控信息;然后使用NGS_QC_Toolkit软件对上述去除低质量碱基的序列做N碱基检测,序列中含有一个及以上的N碱基则将该条序列剔除;然后使用Fastx-Toolkit软件将剔除含N碱基的序列转成fasta格式的序列文件。(3)病毒参考基因组比对以及病毒sRNA注释步骤:使用bowtie软件对参考基因组序列构建索引,将上述去重质控后的序列与病毒参考基因组序列做比对,筛选出碱基错配数小于2的序列,得到比对上参考基因组的序列和没比对上参考基因组的序列,比对上的序列认为是潜在的病毒来源sRNA;在本专利技术的另一个优选实施方式中,所述病毒sRNA比对注释步骤当中,一个碱基错配比对上病毒参考基因组的序列认为是潜在的病毒来源sRNA,并展示序列在基因组上的分布情况。(4)病毒sRNA定量步骤:将上述比对上参考基因组的结果做统计汇总序列和比对序列数等信息,并绘制各样本比对上参考基因组的序列在基因组上的分布情况,整理病毒sRNA的counts数,再基于counts数计算每个病毒sRNA的TPM,并生成病毒sRNA注释文件。(5)差异病毒sRNA分析步骤:根据所述注释到的病毒sRNA信息以及表达量结果,使用DESeq或DESeq2进行差异表达分析,筛选同时满足差异倍数(差异倍数>2)和显著性(P值<0.05)的差异表达病毒sRNA,统计并展示可视化结果;在本专利技术的又一个优选实施方式中,所述病毒sRNA差异分析步骤中,所述可视化的绘制图像包括采用R语言的ggplot2软件包绘制差异表达病毒sRNA上下调统计柱状图、火山图;采用Pheatmap包对差异表达病毒sRNA的表达量绘制热图。(6)宿主靶基因预测、富集分析步骤:根据序列相似性及碱基互补配对,将所述差异病毒sRNA与所述宿主mRNA序列使用miRanda或TargetFinder软件进行靶标预测,统计靶标结合位点信息,绘制结合位点示意图;在本专利技术的又一个优选实施方式中,所述靶基因预测、富集分析步骤中,使用python对靶标结合分值前10的关系对绘制结合位点示例图。对上一步预测到的差异病毒sRNA宿主靶基因,利用宿主的GO、KEGG背景文件使用超几何分布检验计算方法进行GO功能和KEGG通路的富集分析,计算GO、KEGG条目在差异病毒sRNA的宿主靶基因中是否显著富集的P值,再对P值经Benjamini&Hochberg多重检验纠正后得到FDR;针对富集结果做柱状图和气泡图统计,获得差异病毒sRNA可能参与影响宿主的功能和代谢通路。(7)网页版报告整理步骤:最终整理所有的分析结果,所有分析内容按类别排放在不同目录下。质控统计结果,序列长度分布图形放在质控目录;将病毒sRNA的比对注释结果放在病毒sRNA比对注释目录;将病毒sRNA表达量以及PCA、样本聚类结果放在病毒sRNA表达目录;将病毒sRNA的差异表达相关的分析放在病毒sRNA差异目录;将差异表达的病毒sRNA对应的宿主靶基因预测结果放在病毒sRNA宿主靶基因预测目录;将宿主靶基因的GO富集分析结果放在GO富集目录;将宿主靶基因的KEGG通路富集分析结果放在KEGG富集目录。根据所述结果使用python脚本一键化生成病毒sRNA分析的网页版报告,网页版报告对整个分析结果做了汇总,并对每个分析步骤做了描述和对应的图表展示以及弹窗式帮助文档,网页报告设置了内部快捷链接和分析方法介绍/外部网站的链接,方便网页版内部快速跳转以及快速查阅网上资料。本专利技术中,第(2)部分是数据自动化质控,(3)-(7)是后续数据分析。本专利技术的主要创新点及其有益效果在于:1.针对宿主中病毒来源sRNA的分析方法,同时考虑病毒sRNA和宿主转录本的交互作用。2.结果全面,包含涉及到的病毒sRNA分析内容以及其和宿主的靶基因预测,GO、KEGG富集分析以及对应的可视化展示。3.自动整理所有分析结果,每一步分析完成之后自动对结果进行汇总统计,可视化,以及逻辑化归类整理,结果文件可直接用于生成网页版报告。4.所有操作步骤可以溯源,方便错误查询,如果分析报错,会有对应的报错日志信息。为了达到上述技术效果,本专利技术克服了病毒sRNA分析结果单一的情况下,考虑病毒sRNA和宿主转录本的交互作用,分析高本文档来自技高网...
【技术保护点】
1.一种基于高通量测序技术的宿主中病毒来源sRNA数据分析方法,其特征在于,包括如下步骤:/n(1)文件准备步骤:/n准备config文件,读取后用于进行数据自动化质控以及后续数据分析;/n(2)下机数据质控步骤:/n将下机得到的原始数据去除接头,保留15-41nt长度的序列,然后过滤低质量序列;对去除接头的序列做质控,汇总包括序列的测序质量统计、GC含量统计的质控信息;对去除接头的序列做去除低质量碱基处理,然后对上述去除低质量碱基的序列做N碱基检测,序列中含有一个及以上的N碱基则将该条序列剔除;然后将剔除含N碱基的序列转成fasta格式的序列文件,将过滤后的数据进行去重,获得无重复的序列,并标记所有序列的数量;同时对原始数据和过滤数据量进行统计,并以柱状图展示各个样本不同长度序列的数量分布特征;过滤序列用于后续分析;/n(3)病毒参考基因组比对以及病毒sRNA注释步骤:/n对参考基因组序列构建索引,将步骤(1)中所述去重后的序列与病毒参考基因组序列做比对,筛选出碱基错配数小于2的结果,比对上的序列认为是潜在的病毒来源sRNA,统计汇总序列和比对序列数信息;/n(4)病毒sRNA定量步骤:/n将步骤(3)中所述比对上参考基因组的序列数做统计,汇总序列和比对序列数信息,并绘制各样本比对上参考基因组的序列在基因组上的分布情况,整理病毒sRNA的counts数,再基于counts数计算每个病毒sRNA的TPM,并生成病毒sRNA注释文件;/n(5)差异病毒sRNA分析步骤:/n根据步骤(4)中所述注释到的病毒sRNA信息以及表达量结果进行差异表达分析,筛选同时满足差异倍数和显著性的差异表达病毒sRNA,统计并展示可视化结果;/n(6)宿主靶基因预测、富集分析步骤:/n将步骤(5)中所述差异病毒sRNA与宿主mRNA序列进行宿主靶标预测,统计靶标结合位点信息,绘制结合位点示意图;/n对步骤(6)中预测到的差异病毒sRNA宿主靶基因,基于宿主的GO、KEGG背景文件使用超几何分布检验计算方法进行GO功能和KEGG通路的富集分析,计算GO、KEGG条目在差异病毒sRNA的宿主靶基因中是否显著富集的P值,再对P值经Benjamini&Hochberg多重检验纠正后得到FDR;针对富集结果做柱状图和气泡图统计,获得差异病毒sRNA可能参与影响的功能和代谢通路;/n(7)网页版报告整理步骤:/n根据结果一键化生成病毒sRNA分析的网页版报告,网页版报告对整个分析结果做汇总,并对每个分析步骤做描述和对应的图表展示以及弹窗式帮助文档。/n...
【技术特征摘要】
1.一种基于高通量测序技术的宿主中病毒来源sRNA数据分析方法,其特征在于,包括如下步骤:
(1)文件准备步骤:
准备config文件,读取后用于进行数据自动化质控以及后续数据分析;
(2)下机数据质控步骤:
将下机得到的原始数据去除接头,保留15-41nt长度的序列,然后过滤低质量序列;对去除接头的序列做质控,汇总包括序列的测序质量统计、GC含量统计的质控信息;对去除接头的序列做去除低质量碱基处理,然后对上述去除低质量碱基的序列做N碱基检测,序列中含有一个及以上的N碱基则将该条序列剔除;然后将剔除含N碱基的序列转成fasta格式的序列文件,将过滤后的数据进行去重,获得无重复的序列,并标记所有序列的数量;同时对原始数据和过滤数据量进行统计,并以柱状图展示各个样本不同长度序列的数量分布特征;过滤序列用于后续分析;
(3)病毒参考基因组比对以及病毒sRNA注释步骤:
对参考基因组序列构建索引,将步骤(1)中所述去重后的序列与病毒参考基因组序列做比对,筛选出碱基错配数小于2的结果,比对上的序列认为是潜在的病毒来源sRNA,统计汇总序列和比对序列数信息;
(4)病毒sRNA定量步骤:
将步骤(3)中所述比对上参考基因组的序列数做统计,汇总序列和比对序列数信息,并绘制各样本比对上参考基因组的序列在基因组上的分布情况,整理病毒sRNA的counts数,再基于counts数计算每个病毒sRNA的TPM,并生成病毒sRNA注释文件;
(5)差异病毒sRNA分析步骤:
根据步骤(4)中所述注释到的病毒sRNA信息以及表达量结果进行差异表达分析,筛选同时满足差异倍数和显著性的差异表达病毒sRNA,统计并展示可视化结果;
(6)宿主靶基因预测、富集分析步骤:
将步骤(5)中所述差异病毒sRNA与宿主mRNA序列进行宿主靶标预测,统计靶标结合位点信息,绘制结合位点示意图;
对步骤(6)中预测到的差异病毒sRNA宿主靶基因,基于宿主的GO、KEGG背景文件使用超几何分布检验计算方法进行GO功能和KEGG通路的富集分析,计算GO、KEGG条目在差异病毒sRNA的宿主靶基因中是否显著富集的P值,再对P值经Benjamini&Hochberg多重检验纠正后得到FDR;针对富集结果做柱状图和气泡图统计,获得差异病毒sRNA可能参与影响的功能和代谢通路;
(7)网页版报告整理步骤:
根据结果一键化生成病毒sRNA分析的网页版报...
【专利技术属性】
技术研发人员:肖云平,徐天生,杨雨晴,刘钰钏,史贤俊,林博,
申请(专利权)人:上海欧易生物医学科技有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。