一种利用单细胞测序数据计算池测序中细胞亚群富集分数的方法技术

技术编号:34031860 阅读:85 留言:0更新日期:2022-07-06 11:19
本发明专利技术涉及一种利用单细胞测序数据计算池测序中细胞亚群富集分数的方法,所述方法包括以下步骤:a)通过单细胞测序,建立Marker基因名,细胞亚群名的表达矩阵M;b)通过池测序,建立基因名,样本名的表达矩阵N;c)将所述Marker基因名,细胞亚群名的表达矩阵M中的Marker基因名比对至所述基因名,样本名的表达矩阵N,获取Marker基因名,样本名的表达矩阵N

A method for calculating the enrichment fraction of cell subsets in pool sequencing using single cell sequencing data

【技术实现步骤摘要】
一种利用单细胞测序数据计算池测序中细胞亚群富集分数的方法


[0001]本专利技术涉及物信息分析
,具体地说,涉及一种利用单细胞测序数据计算池测序中细胞亚群富集分数的方法。

技术介绍

[0002]肿瘤是一种包含多种细胞种类的病理组织。包括但不限于肿瘤细胞,免疫细胞,基质细胞,内皮细胞等。细胞组成的比例差异决定了肿瘤的恶性程度,转移能力,对治疗的反应性等。
[0003]单细胞转录组技术是结合细胞分离技术与二代测序技术的新兴技术手段。其主要特点为可获得单个细胞的基因表达谱,可在基因表达层面对细胞亚群分群,可以对不同的细胞群及其基因表达的差异,生理功能差异进行研究。可用于稀有细胞群的发现,鉴定。此技术尤其适合解析复杂细胞群,例如干细胞,胚胎细胞,肿瘤细胞的细胞种类构成。
[0004]池测序为传统的二代测序技术,针对细胞群进行测序,获得较为笼统,粗糙的细胞群的表达信息。其中非主要细胞群的表达信息往往被掩盖,很多重要信息,尤其是细胞构成的比例信息无法获得。
[0005]池测序由于发展时间长,成本低,对计算资源要求小的优势,有充足的数据资源可供获取,分析。目前较为知名的,肿瘤相关的池测序数据集包括TCGA,ICGC,GEO数据库,包含了成百上千例临床随访信息完善的池测序样本,为肿瘤研究提供了丰富的资源。
[0006]单细胞转录组测序虽然有分辨率高,可以解析样本内细胞组成等优势,但由于其成本高,发展时间较短,目前尚无包含临床信息的单细胞转录组测序的数据集。研究一种将单细胞测序对细胞组成的解析结果用于池测序,推测出池测序内细胞组成的富集分数的方法,从而结合两种测序的优势,对肿瘤研究有重要意义。
[0007]专利文献CN112700820A公开了一种基于单细胞转录组测序的细胞亚群注释方法,包括如下步骤:1)10x barcode UMI识别,2)比对基因组,3)基因表达谱,4)低质量细胞过滤和数据均一化,5)细胞群体聚类,6)Marker基因提取,7)细胞亚群注释。该专利技术解决了单细胞亚群注释的问题,使得单细胞测序数据在常规分析后,可以支持依据基因表达谱和/或细胞Marker基因进行细胞注释,实现了不同注释方法的有机结合,得到细胞类型的分布情况和相关信息。然而该文献涉及的是单细胞测序结果细胞群的注释,目前未见如本申请的利用单细胞测序数据来计算池测序中细胞亚群富集分数的方法。

技术实现思路

[0008]本专利技术的目的是针对现有技术中的不足,提供一种利用单细胞测序数据计算池测序中细胞亚群富集分数的方法。
[0009]本专利技术的再一的目的是,提供一种利用单细胞测序数据计算池测序中细胞亚群富集分数的系统。
[0010]为实现上述第一个目的,本专利技术采取的技术方案是:
[0011]一种利用单细胞测序数据计算池测序中细胞亚群富集分数的方法,包括以下步骤:
[0012]a)通过单细胞测序,建立Marker基因名,细胞亚群名的表达矩阵M;
[0013]b)通过池测序,建立基因名,样本名的表达矩阵N;
[0014]c)将所述Marker基因名,细胞亚群名的表达矩阵M中的Marker基因名比对至所述基因名,样本名的表达矩阵N,获取Marker基因名,样本名的表达矩阵N


[0015]d)使用程序scFrac,以M,N

为输入,得到M中每个细胞亚群在N

的各个样本中所占的富集分数。
[0016]作为本专利技术的一个优选例,步骤a所述的单细胞测序为单细胞转录组测序。
[0017]更优选地,所述单细胞转录组测序的方法选自Smart

seq、Smart

seq2、CEL

seq、CEL

seq2、Drop

seq、MARS

seq、MARS

seq2和SCRB

seq。
[0018]作为本专利技术的另一优选例,步骤a所述的单细胞测序采用的单细胞分离和标记平台为Chromium
TM
系统、BD Rhapsody
TM
单细胞分析系统、单细胞测序解决方案、ICELL8单细胞系统或C1
TM
单细胞全自动制备系统。
[0019]作为本专利技术的另一优选例,步骤a所述的单细胞测序采用的单细胞高通量测序平台为illumina系列、BGISEQ系列、Roche 454、ABI solid或Ion Proton。
[0020]作为本专利技术的另一优选例,步骤a包括以下步骤:
[0021]a

1)10Xbarcode UMI识别:10X genomics平台建库测序的下机数据为fastq序列,包括barcode,UMI,mRNA序列三部分,使用软件cellranger count,通过barcode序列识别细胞,通过UMI序列对基因表达定量,通过3

端mRNA序列进行基因鉴定;
[0022]a

2)比对基因组:采取STAR算法,将fastq序列比对至参考基因组上,获得序列的基因信息,使用cellranger对基因的表达量进行定量;
[0023]a

3)低质量细胞过滤和均一化:基于细胞的基因表达量和线粒体DNA表达量对低质量细胞过滤,使用R语言的Seurat包,过滤细胞之后,再通过Seurat包的Normalization函数对表达量进行均一化;
[0024]a

4)细胞聚类:使用主成分分析方法对细胞表达谱降维,选取前10个主成分用于后续的聚类,使用临近算法对细胞进行聚类,使用Umap对细胞进行基于图论的可视化聚类,将KNN获得的聚类结果映射至Umap聚类结果上;
[0025]a

5)Marker基因提取:Seurat通过wilcox法比较检验不同细胞组成间的差异基因,其中表达较其他细胞群体显著上升的基因即为该细胞亚群的Marker基因;
[0026]a

6)建立Marker基因,目标细胞群表达矩阵M:将每个细胞亚群的Marker基因作为行名,每个单细胞作为列名,从单细胞测序数据中获得一表达矩阵M。
[0027]作为本专利技术的另一优选例,步骤b包括以下步骤:从组织提取全组织RNA,经过反转录为cDNA,片段化为cDNA片段,两端加引物,PCR扩增,测序,从illumina平台测序下机的数据包括fastq_1,fastq_2,经过fastq质控,STAR比对至参考基因组,htseq

count获取基因表达量,获取以基因为行名,样本为列名的池测序的表达矩阵N。
[0028]为实现上述第二个目的,本专利技术采取的技术方案是:
[0029]一种利用单细胞测序数据计算池测序中细胞亚群富集分数的系统,所述系统本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种利用单细胞测序数据计算池测序中细胞亚群富集分数的方法,其特征在于,包括以下步骤:a)通过单细胞测序,建立Marker基因名,细胞亚群名的表达矩阵M;b)通过池测序,建立基因名,样本名的表达矩阵N;c)将所述Marker基因名,细胞亚群名的表达矩阵M中的Marker基因名比对至所述基因名,样本名的表达矩阵N,获取Marker基因名,样本名的表达矩阵N

;d)使用程序scFrac,以M,N

为输入,得到M中每个细胞亚群在N

的各个样本中所占的富集分数。2.根据权利要求1所述的方法,其特征在于,步骤a所述的单细胞测序为单细胞转录组测序。3.根据权利要求2所述的方法,其特征在于,所述单细胞转录组测序的方法选自Smart

seq、Smart

seq2、CEL

seq、CEL

seq2、Drop

seq、MARS

seq、MARS

seq2和SCRB

seq。4.根据权利要求1所述的方法,其特征在于,步骤a所述的单细胞测序采用的单细胞分离和标记平台为Chromium
TM
系统、BD Rhapsody
TM
单细胞分析系统、单细胞测序解决方案、ICELL8单细胞系统或C1
TM
单细胞全自动制备系统。5.根据权利要求1所述的方法,其特征在于,步骤a所述的单细胞测序采用的单细胞高通量测序平台为illumina系列、BGISEQ系列、Roche 454、ABI solid或Ion Proton。6.根据权利要求1所述的方法,其特征在于,步骤a包括以下步骤:a

1)10Xbarcode UMI识别:10X genomics平台建库测序的下机数据为fastq序列,包括barcode,UMI,mRNA序列三部分,使用软件cellranger count,通过barcode序列识别细胞...

【专利技术属性】
技术研发人员:龙江沈晓天胡倍源顾海涛武春涛董汉光阎九亮亓子豪陈涛
申请(专利权)人:上海市第一人民医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1