一种基于单细胞转录组测序的物种间同源基因转换分析方法及系统技术方案

技术编号:38329307 阅读:20 留言:0更新日期:2023-07-29 09:12
本发明专利技术公开了一种基于单细胞转录组测序的物种间同源基因转换分析方法,包括:步骤一、利用单细胞转录组标准分析软件Seurat产生获得RDS文件;步骤二、根据需要做同源转换的物种拉丁名,判断所述需要做同源转换的物种是否属于21个模式生物列表中;步骤三、若待转换的物种属于步骤二中的模式生物列表中,则使用homologene方法进行同源基因转换,获得物种间同源基因列表;或,若待转换的物种不属于步骤二中的模式生物列表中,则使用blast方法进行同源基因转换,获得物种间同源基因列表;步骤四、根据步骤三中获得的物种间同源基因列表,对待转换物种的RDS文件中的表达矩阵进行替换;步骤五、将替换完成后的文件保存为新的RDS文件。本发明专利技术还公开了实现上述方法的系统。本发明专利技术还公开了实现上述方法的系统。本发明专利技术还公开了实现上述方法的系统。

【技术实现步骤摘要】
troglodytes)、猕猴(Macacamulatta)、犬(Canis lupus familiaris)、牛(Bos taurus)、鸡(Gallus gallus)、斑马鱼(Danio rerio)、黑腹果蝇(Drosophila melanogaster)、热带爪蟾(Xenopus tropicalis)、秀丽线虫(Caenorhabditis elegans)、冈比亚按蚊(Anopheles gambiae)、拟南芥(Arabidopsis thaliana)、水稻(Oryza sativa)、乳酸克鲁维酵母(Kluyveromyces lactis)、棉假囊酵母(Eremothecium gossypii)、粟酒裂殖酵母(Schizosaccharomyces pombe)、酿酒酵母(Saccharomyces cerevisiae)、稻瘟病菌(Magnaporthe oryzae)、粗糙链孢霉(Neurospora crassa)。若存在,则默认使用homologene方法进行同源基因转换;若不存在,则默认使用blast方法进行同源基因转换。
[0011]步骤三、使用homologene方法进行同源基因转换:
[0012]R语言的homologene软件包中收录有21个模式物种之间的44233组同源基因,当待转换的物种存在于步骤二中的这21个模式物种内,根据需要查找同源基因的基因列表(下文中用gene表示)、待转换的物种编号Taxonomy ID(下文中用inTaxid表示)以及需要转换成为的物种编号Taxonomy ID(下文中用outTaxid表示),使用homologene(gene,inTax=inTaxid,outTax=outTaxid)函数命令,具体操作为:利用NCBI网站中的HomoloGene数据库,该数据库收集了21个物种的同源基因数据,可以通过基因名称来查询物种间对应的同源基因,获得物种间同源基因列表。
[0013]步骤四、使用blast方法进行同源基因转换:
[0014]当待转换的物种不存在于步骤二的21个模式物种列表内,使用blast方法进行同源基因转换。下载待转换物种和目标物种的基因组序列和注释gtf文件后,利用blast软件进行序列相似性比对,获得待转换物种与目标物种基因组序列的相似程度,筛选保留期望阈值evalue≤1e

5,且序列一致度(Identity)>70%的同源基因对,当每条待转换物种的基因序列筛选得到多条目标物种的同源基因时,选取序列一致度(Identity)最高的同源基因对,作为最优的一条比对结果,获得物种间同源基因列表。
[0015]其中,期望阈值的设置可以用来说明比对结果的可靠性:即在随机情况下,其他序列与目标序列相似度大于该结果序列的可能性,因此其分值越低越好。序列一致度可以用于说明待转换物种与目标物种基因组序列之间的一致程度。
[0016]所述序列相似性比对是指利用两条序列之间的核酸碱基差异来测定序列之间的相似性。两条序列中相应位置的核酸碱基如果差异大,那么序列的相似性低,反之,序列的相似性就高。通过检测序列之间核酸碱基的相似度,从而判断序列间的同源性。
[0017]步骤五、替换RDS表达矩阵:
[0018]根据物种间同源基因列表,在步骤一待转换物种的RDS文件中剔除未比对上的基因名,利用比对上的同源基因对待转换物种的RDS文件中的表达矩阵进行替换,包括原始counts表达矩阵和标准化后的表达矩阵。
[0019]所述未比对上的基因是指经过序列相似性比对后,基因的期望阈值evalue>1e

5,和/或,序列一致度(Identity)≤70%;
[0020]所述表达矩阵是指行为基因,列为细胞的表达量表格。依据获得的物种间同源基因列表,将待转换物种表达矩阵的基因名(即行名)替换为对应目标物种的同源基因名。
[0021]所述原始counts表达矩阵是指单细胞转录组测序中的表达量原始计数矩阵,标准化后的表达矩阵是指基于表达量原始计数矩阵进行Log化处理,目的是消除测序深度和/或
文库大小的影响。原始counts表达矩阵和标准化后的表达矩阵的格式相同,均为行是基因,列是细胞。
[0022]步骤六、保存同源转换后的新RDS:
[0023]使用saveRDS函数将替换完同源基因的文件保存为新RDS,该文件可无缝衔接单细胞转录组的下游高级分析,直接应用于SCENIC转录因子调控、CellChat细胞通讯和Scran细胞周期等依赖特定物种数据库的分析内容。
[0024]优选地,所述步骤三和步骤四为可选的并行步骤:
[0025]当需要转换的物种已被收录在homologene软件包中时(homologene软件包中包含步骤二中21个模式物种的同源基因),本专利技术默认选择homologene方法进行同源基因转换,根据已收录的同源基因关系对直接进行快速转换,最大程度上缩短运行时间。当需要转换的物种未被收录在homologene软件包中时(即需要转换的物种不包含在步骤二中的21个物种中),默认选择blast方法进行同源基因转换,对物种类型没有限制,只需要下载物种基因组序列和注释gtf文件,即可进行转换。
[0026]优选地,所述步骤三中包括如下步骤:
[0027]使用R语言homologene软件包中的taxData函数,自动获取待转换的以及需要转换成的物种的对应编号(Taxonomy ID),根据待同源转换的基因列表和物种编号,使用homologene函数得到同源基因对表格,去除重复的基因名称,获得物种间同源基因列表。
[0028]优选地,所述步骤四中包括如下步骤:
[0029]根据下载的待转换物种基因组序列和注释gtf文件,利用gffread软件分别提取出待同源转换物种和目标物种的基因序列文件。通过makeblastdb软件对目标物种的基因序列构建核苷酸索引数据库后,利用blastn软件对核酸序列进行相似性比对,筛选期望阈值evalue≤1e

5,且序列一致度(Identity)>70%的同源基因对,使用10个线程并行运行(num_threads 10),指定输出格式(outfmt)为6(即输出含有12列内容的表格,表头分别为:qseqid查询序列的标识、sseqid比对上的目标序列的标识、pident一致性百分比、length比对区域的长度、mismatch比对区域的错配数、gapopen比对区域的空缺数目、qstart比对区域在查询序列上的起始位点、qend比对区域在查询序列上的终止位点、sstart比对区域在目标序列上的起始位点、send比对区域在目标序列上的终止位点、evalue比对结果的期望值、bitscore比对结果的打分),针对每个查询序列选取最优的一条比对结果(max_target_seqs 1),获得物种间同源基因列表。
[0030]本专利技术还提供了上述方法在其他高通量组学数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于单细胞转录组测序的物种间同源基因转换分析方法,其特征在于,所述方法包括如下步骤:步骤一、利用单细胞转录组标准分析软件Seurat产生获得RDS文件;步骤二、根据需要做同源转换的物种拉丁名,判断所述需要做同源转换的物种是否属于收录的21个模式生物列表中;步骤三、若待转换的物种属于步骤二中的模式生物列表中,则使用homologene方法进行同源基因转换,获得物种间同源基因列表;或,若待转换的物种不属于步骤二中的模式生物列表中,则使用blast方法进行同源基因转换,获得物种间同源基因列表;步骤四、根据步骤三中获得的物种间同源基因列表,对待转换物种的RDS文件中的表达矩阵进行替换;步骤五、将替换完成后的文件保存为新的RDS文件。2.如权利要求1所述的物种间同源基因转换分析方法,其特征在于,步骤一中,所述产生的RDS文件为单细胞转录组标准分析软件Seurat产生的待转换物种的RDS文件。3.如权利要求1所述的物种间同源基因转换分析方法,其特征在于,步骤二中,所述模式生物列表包括人Homo sapiens、小鼠Mus musculus、大鼠Rattus norvegicus、黑猩猩Pan troglodytes、猕猴Macaca mulatta、犬Canis lupus familiaris、牛Bos taurus、鸡Gallus gallus、斑马鱼Danio rerio、黑腹果蝇Drosophila melanogaster、热带爪蟾Xenopus tropicalis、秀丽线虫Caenorhabditis elegans、冈比亚按蚊Anopheles gambiae、拟南芥Arabidopsis thaliana、水稻Oryza sativa、乳酸克鲁维酵母Kluyveromyces lactis、棉假囊酵母Eremothecium gossypii、粟酒裂殖酵母Schizosaccharomyces pombe、酿酒酵母Saccharomyces cerevisiae、稻瘟病菌Magnaporthe oryzae、粗糙链孢霉Neurospora crassa。4.如权利要求1所述的物种间同源基因转换分析方法,其特征在于,步骤三中,所述homologene方法是指当待转换的物种存在于步骤二中的21个模式物种内,根据需要查找同源基因的基因列表、待转换的物种编号inTaxid以及需要转换成为的物种编号outTaxid,使用homologene(gene,inTax=inTaxid,outTax=outT...

【专利技术属性】
技术研发人员:陆瑶刘红燕张志明肖云平王树伟
申请(专利权)人:上海欧易生物医学科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1