基于单细胞转录组测序数据的细胞聚类方法技术

技术编号:30908555 阅读:15 留言:0更新日期:2021-11-22 23:54
本发明专利技术公开基于单细胞转录组测序数据的细胞聚类方法,其包括以下步骤:获取由单细胞转录组测序得到的成千上万个细胞的原始数据集,处理原始数据集排除对应于分类可疑的细胞的测序数据,将剩余测序数据挑选为分析数据集;对分析数据集进行降维分析,得到聚类结果。本发明专利技术的方法能够解决单细胞转录组分析过程中无法很好地区分细胞亚类的问题,通过识别影响分类的细胞,进而对数据进行过滤和优化,从而分析得到细胞的亚类、细胞类型的标记基因及注释等相关信息。本发明专利技术的方法可以明确细胞的聚类,同时有利于确定细胞的类型,对研究组织内细胞的基因调控和功能具有重要意义。内细胞的基因调控和功能具有重要意义。内细胞的基因调控和功能具有重要意义。

【技术实现步骤摘要】
基于单细胞转录组测序数据的细胞聚类方法


[0001]本专利技术涉及生物信息学中的数据挖掘领域,具体涉及基于单细胞转录组测序数据的细胞聚类的优化方法。

技术介绍

[0002]细胞是生命活动的基本单元,其经过分化形成组织。细胞内基因的表达非常复杂,研究基因的表达特征有助于认识和理解基因和细胞的功能。常规转录组bulk RNA

seq测序技术可以得到基因表达量的数值,但是这个数值反映的是该基因在大量细胞中表达得到的平均值。这种平均值掩盖了细胞的异质性,不能识别出基因在不同细胞类型中的表达特征。单细胞转录组scRNA

seq技术有助于解析生物体组织内不同细胞之间的基因表达特征。
[0003]对生物体的组织或器官,经过细胞解离后,可以使用10x Genomics Chromium的微流控技术构建得到单细胞的cDNA文库,且基于Illumina测序平台可以获取到相关的测序数据。对这些数据进行分析,就可以得到成千上万个细胞的基因表达信息。通常分析的过程包括:首先使用CellRanger软件分析得到各个细胞的基因表达信息,然后使用已知分析方法对数据进行质量控制的分析、差异表达基因的筛选、细胞的聚类、标记基因的识别,以及使用降维方法去显示细胞聚类的结果。
[0004]单细胞聚类的分析结果通常是把细胞聚集为不同的簇。根据标记基因在原位杂交等实验的结果,可以识别标记基因特异表达的细胞类型。在单细胞转录组的分析过程中,基于标记基因在细胞簇的表达可以判断细胞簇的细胞类型。但是对某些组织器官,使用已有分析方法得到的聚类结果可能无法明确区分不同的细胞簇。而且,对边界不清晰的聚类结果,使用统计方法,比如purity、ARI(adjusted rand index)和NMI(normalized mutual information)评估得到的分值通常较低(比如计算拟南芥叶片单细胞转录组的Seurat聚类结果的purity值为0.4618),这些低的分值也表明不少细胞的聚类结果不准确,这会影响确定细胞的类型。
[0005]细胞聚类的分析是单细胞转录组分析的重要环节,它是判断细胞的类型和研究特定细胞类型的基因表达和功能的关键基础。因此,单细胞转录组测序数据的聚类分析具有挑战性,开发有效方法以明确细胞的聚类具有重要的意义。
[0006]
技术介绍
中的信息仅仅在于说明本专利技术的总体背景,不应视为承认或以任何形式暗示这些信息构成本领域一般技术人员所公知的现有技术。

技术实现思路

[0007]为解决现有技术中的至少部分技术问题,本专利技术提供一种基于单细胞转录组测序数据的细胞聚类的优化方法,本文有时简称为FOACC。应用本专利技术的FOACC进行分析后,得到的细胞聚类结果准确性显著提高,有助于分析和研究细胞的类型和功能。具体地,本专利技术包括以下内容。
[0008]一种基于单细胞转录组测序数据的细胞聚类方法,其包括以下步骤:
[0009](1)获取由单细胞转录组测序得到的成千上万个细胞的原始数据集,处理所述原始测序数据集排除对应于分类可疑的细胞的单细胞转录组测序数据,将剩余单细胞转录组测序数据挑选为分析数据集;
[0010](2)对所述分析数据库进行降维分析,得到聚类结果。
[0011]根据本专利技术所述的基于单细胞转录组测序数据的细胞聚类方法,优选地,步骤(1)包括利用下式挑选细胞,将挑选得到的多个细胞所对应的单细胞转录组测序数据作为分析数据集:
[0012]T1={(x1,M11),(x2,M12),

,(x
N
,M1
N
)}
[0013]T2={(x1,M21),(x2,M22),

,(x
N
,M2
N
)}
[0014]…
[0015]Tg={(x1,Mg1),(x2,Mg2),

,(x
N
,Mg
N
)}
[0016]其中,N为细胞总数,x
i
为第i个细胞,Tg为第g种分析方法得到N个细胞的分类信息,Mg
i
={c1,c2,

,c
k
}为k个细胞簇,N个细胞的分类状态{(M11,M21,

,Mg1),

,(M1
N
,M2
N
,

,Mg
N
)}可以生成一个函数f(x)。然后挑选满足的细胞x,i∈{1,2,

,N},j∈{1,2,

,k},t为1

g的任意值,I为指示函数。对I(Mt
i
=c
j
),I=1(如果Mt
i
=c
j
)或I=0(如果Mt
i
!=c
j
);对I(f(x
p
)=f(x
i
)),I=1(如果f(x
p
)=f(x
i
))或I=0(如果f(x
p
)!=f(x
i
))。
[0017]根据本专利技术所述的基于单细胞转录组测序数据的细胞聚类方法,优选地,步骤(2)中采用由PCA+tSNE或PCA+UMAP组成的方法进行降维分析,得到聚类结果。
[0018]根据本专利技术所述的基于单细胞转录组测序数据的细胞聚类方法,优选地,进一步包括(3)细胞聚类结果评估步骤,其包括计算纯度(purity)、ARI和NMI。
[0019]根据本专利技术所述的基于单细胞转录组测序数据的细胞聚类方法,优选地,通过以下公式计算纯度:
[0020][0021]其中,N指细胞的总数,U={U1,

,Ui}指参考的细胞类别,V={V1,

,Vj}指待查询的细胞类别。
[0022]根据本专利技术所述的基于单细胞转录组测序数据的细胞聚类方法,优选地,通过以下公式计算ARI:
[0023][0024]其中,n=∑
i
n
i.
=∑
j
n
.j
,i和j分别为参考的和待查询的细胞类别的数目。
[0025]根据本专利技术所述的基于单细胞转录组测序数据的细胞聚类方法,优选地,通过以下公式计算NMI:
[0026][0027]其中,I(U,V)指互信息,H(U)和H(V)指熵。
[0028]根据本专利技术所述的基于单细胞转录组测序数据的细胞聚类方法,优选地,所述纯度、ARI和NMI分别为0.5以上。
[0029]根据本专利技术所述的基于单细胞转录组测序数据的细胞聚类方法,优选地,进一步包括(4)对聚类结果进行注释分析的步骤。
[0030]根据本专利技术所述的基于单细胞转录组测序数据的细胞聚类方法,优选地,所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于单细胞转录组测序数据的细胞聚类方法,其特征在于,包括以下步骤:(1)获取由单细胞转录组测序得到的多个细胞的原始数据集,处理所述原始测序数据集排除对应于分类可疑的细胞的测序数据,将剩余测序数据挑选为分析数据集;(2)对所述分析数据集进行降维分析,得到聚类结果。2.根据权利要求1所述的基于单细胞转录组测序数据的细胞聚类方法,其特征在于,步骤(1)包括利用下式挑选细胞,将挑选得到的多个细胞所对应的单细胞转录组测序数据作为分析数据集:T1={(x1,M11),(x2,M12),...,(x
N
,M1
N
)}T2={(x1,M21),(x2,M22),...,(x
N
,M2
N
)}

Tg={(x1,Mg1),(x2,Mg2),...,(x
N
,Mg
N
)}其中,N为细胞总数,x
i
为第i个细胞,Tg为第g种分析方法得到N个细胞的分类信息,Mg
i
={c1,c2,...,c
k
}为k个细胞簇,由N个细胞的分类状态{(M11,M21,...,Mg1),...,(M1
N
,M2
N
,...,Mg
N
)}生成函数f(x),然后挑选满足的细胞x,i∈{1,2,...,N},j∈{1,2,...,k},t为1

g的任意值,I...

【专利技术属性】
技术研发人员:王晓武林润茂武剑梁建丽郭新磊
申请(专利权)人:中国农业科学院蔬菜花卉研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1