一种冠状病毒转录组鉴定分析方法及分析系统技术方案

技术编号:37104124 阅读:11 留言:0更新日期:2023-04-01 05:03
本发明专利技术公开了一种冠状病毒转录组鉴定分析方法,所述方法包括使用bwa软件将短reads档案库SRA中获得的冠状病毒二代测序原始fastq文件与NCBI参考基因组进行序列比对,生成BAM文件;通过bcftools调用和过滤单核苷酸多态性SNP,并用vcf

【技术实现步骤摘要】
一种冠状病毒转录组鉴定分析方法及分析系统


[0001]本专利技术属于生物信息学
,涉及一种冠状病毒转录组鉴定分析方法及系统。

技术介绍

[0002]新型冠状病毒肺炎(COVID

19)的病原体是严重急性呼吸综合征冠状病毒

2 (SARS

COV

2),一种类似于MERS

CoV(唯一的另一种仍在流行的β冠状病毒)的β冠状病毒。MERS

CoV是中东呼吸综合征(MERS)的病原体,与SARS

CoV

2相比,其毒力更强,但传染性较弱,与SARS

CoV

2的系统发生距离稍远(氨基酸序列同源性小于90%)。这两种病毒都有一个约30000碱基的单正链多聚腺苷化RNA基因组,编码4种结构蛋白(刺突蛋白 (S)、膜蛋白(M)、包膜蛋白(E)和核衣壳蛋白(N)),这些蛋白在此二类病毒中功能十分相近。但是,这两种病毒在侵入细胞的受体、附加蛋白(accessory proteins)和16种非结构蛋白(nsp1至nsp16)的特异功能方面存在分歧。Nsp是通过病毒蛋白酶切割ORF1a和ORF1b 编码的两个大的多聚蛋白而产生的。ORF1最接近5

端,是进入宿主细胞后由基因组RNA直接翻译而来,根据核糖体跳跃式机制,可将其分为ORF1a和ORF1b
[1]。MERS

CoV至少编码 5种附加蛋白(ORF3、ORF4a、ORF4b、ORF5和ORF8b),而SARS

CoV

2至少编码6种附加蛋白(ORF3a、ORF6、ORF7a、ORF7b、ORF8和ORF10)
[2]。所有除ORF1a和ORF1b 蛋白质,必须由sgRNA翻译而来
[3

4]。SgRNA通过一种称为非连续延伸的机制,借由称为转录调控序列(TRS)的长度可变的存在于各个基因之间的短序列(通常是6到12个核苷酸(nt)) 与基因组首部70碱基位置进行配对,而后将负链延伸到正链的5端,产生短负链sgRNA中间体。然后复制RNA中间体,生成编码病毒蛋白的正链sgRNA
[5]。
[0003]病毒生物学的基础是病毒基因及其功能的鉴定和注释。由于正链RNA病毒序列本身的特性以及亚基因组RNA(sgRNA)的存在,获取冠状病毒转录组信息本身就是一项困难的工作。病毒转录组的注释是了解病毒生物学的基础,而病毒生物学是阻止病毒传播、复制和致病的关键。此前的冠状病毒疫情,如2003年爆发的严重急性呼吸系统综合症(SARS)和2012年开始并仍在持续的MERS疫情
[6

7]导致了对这些人畜共患冠状病毒的研究的增加,以便了解这些病毒的起源。通过比较不同冠状病毒的转录组变化,可以揭示其独特的致病性和传染性背后的机制,并可能解释种间传播背后的分子机制。系统地注释隐藏在宏转录组数据中的冠状病毒转录谱的差异,有助于进一步了解病毒的传播性和毒力。然而,目前对这些病毒的体外转录谱系统比较仍缺少相应研究。
[0004]对于新出现的SARS

CoV

2病毒,测序在菌株进化的诊断和监测中发挥着至关重要的作用
[2,8]。然而,目前来说,SARS

CoV

2和MERS

CoV的测序数据集限于体外细胞系感染或感染模式生物过程中产生的病毒和宿主转录本。由于缺乏合适的分析工具,来自人类不同毒株的病毒转录组的分析则被忽视了。
[0005]序列同源性在病毒基因功能注释中起着至关重要的作用。然而,单靠序列同源性并不能保证蛋白质的表达,因为快速突变的RNA病毒可能包含序列的改变,从而导致新的
ORF产生或原有ORF无法转录。因此,直接分析病毒RNA是了解哪些病毒基因可以表达的重要一环。就SARS

CoV

2而言,近期有研究利用牛津纳米孔技术对培养细胞系中产生的病毒RNA 进行了分析,确定了典型和非典型病毒转录本的存在。这些研究都使用分离的病毒株感染从非洲绿猴肾上皮细胞中分离出来的Vero细胞系,该细胞系在感染时不会启动干扰素(IFN) 反应。虽然这些研究确定了病毒转录组的基本特征,但这些独立的研究只描述一个毒株的转录组且无法确定病毒应对最基本免疫反应时表达谱的改变(例如IFNxx)
[9

11]。

技术实现思路

[0006]为了解决现有技术存在的不足,本专利技术的目的是提供一种冠状病毒转录组鉴定分析方法,所述方法采用冠状病毒注释器(coronavirus annotator)量化病毒基因表达,并在众多公开的宏转录组数据集中识别真实可靠的sgRNA。本专利技术除了概括sgRNA谱的变化及其相对表达外,还可以确定几种不同冠状病毒的新型sgRNA;还能够提出SARS

CoV和 SARS

CoV

2之间共享的核心sgRNA序列,以及MERS

CoV特有的sgRNA序列。此外,在蝙蝠和穿山甲体内发现的相关冠状病毒中,SARS

CoV

2和MERS

CoV的一个新sgRNA 亚群在进化上似乎是保守的。同时特定的sgRNA的转录在体内、体外以及不同冠状病毒之间存在显著差异。
[0007]本专利技术提供了一种冠状病毒转录组鉴定分析方法,所述方法具体包括如下步骤:
[0008]步骤一、使用bwa软件将短reads档案库SRA中获得的冠状病毒二代测序原始fastq文件与NCBI参考基因组进行序列比对,生成BAM文件;
[0009]步骤二、对步骤一获得的BAM文件通过bcftools调用和过滤单核苷酸多态性SNP,并用vcf

annotator对SNP进行注释;随后,根据某特定SNP的有无将收集的病毒株进行分组,此步的分组,将用于步骤四sgRNA表达量构建的表达矩阵进行转录组分析,该分析内容详见步骤四。此外,还将根据SNP所指示的碱基变化,在参考基因组的基础上对特定碱基进行更换,生成所谓同义基因组序列。
[0010]步骤三、对步骤一中获得的BAM文件进行CIGAR字符串解析及断点识别操作,进行 sgRNA鉴定;
[0011]步骤四、将步骤三中的sgRNA鉴定结果构建表达矩阵并进行转录组分析,分析过程中,根据SNP有无,分离来源(来自体内实验抑或体外实验),项目来源(根据项目识别码)进行分组,对不同分组的病毒株的各sgRNA表达量进行统计学比较。
[0012]步骤一中,所述冠状病毒包括冠状病毒科Coronaviridae下的所有病毒种。
[0013]步骤一中,所述序列比对是指将通过核酸测序技术获得的核本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种冠状病毒转录组鉴定分析方法,其特征在于,所述方法包括如下步骤:步骤一、使用bwa软件将短reads档案库SRA中获得的冠状病毒二代测序原始fastq文件与NCBI参考基因组进行序列比对,生成BAM文件;步骤二、对步骤一获得的BAM文件通过bcftools调用和过滤单核苷酸多态性SNP,并用vcf

annotator对SNP进行注释;随后,根据某特定SNP的有无将收集的病毒株进行分组,用于后续转录组分析;同时,根据SNP所指示的碱基变化,在参考基因组的基础上对特定碱基进行更换,生成同义基因组序列;步骤三、对所述步骤一中获得的BAM文件进行CIGAR字符串解析及断点识别操作,进行sgRNA鉴定;步骤四、将所述步骤三中的sgRNA鉴定结果构建表达矩阵并进行转录组分析,分析过程中,根据SNP有无,分离来源,项目来源进行分组,对不同分组的病毒株的各sgRNA表达量进行统计学比较。2.如权利要求1所述的方法,其特征在于,步骤一中,所述冠状病毒包括冠状病毒科Coronaviridae下的所有病毒种。3.如权利要求1所述的方法,其特征在于,步骤一中,所述序列比对是指将通过核酸测序技术获得的核酸序列,与参考序列进行比较,从而获得该核酸序列与所述参考序列碱基的有无以及排列差异的过程,用于筛选存在断点的核酸序列。4.如权利要求3所述的方法,其特征在于,所述筛选是指在比对结果的BAM文件中,查找CIGAR字符串存在字母“H”或“S”的read,并将其信息记录下来的过程;所述字母“H”指代“hard clip”,即该read存在一端与参考序列对应位置完全不匹配的现象;所述字母“S”指代“soft clip”,即该read虽有一端存在与参考序列不一致的现象,但并非完全不匹配,仍有部分碱基与参考序列一致。5.如权利要求1所述的方法,其特征在于,步骤二中,所述调用是指使用bcftools读取所述步骤一生成的BAM文件,对被比对...

【专利技术属性】
技术研发人员:陈磊吕霖申瑶耶尔
申请(专利权)人:上海市免疫学研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1