一种RNA-seq差异表达基因的判定方法及应用技术

技术编号:32220775 阅读:14 留言:0更新日期:2022-02-09 17:26
本发明专利技术公开了一种RNA

【技术实现步骤摘要】
一种RNA

seq差异表达基因的判定方法及应用


[0001]本专利技术涉及单细胞生物
,尤其涉及一种RNA

seq差异表达基因的判定方法及应用。

技术介绍

[0002]单细胞RNA

seq技术可以全面地描绘在采样时刻单个细胞的表达谱特征信息。由于现在的单细胞技术可以同时获取多个细胞的信息,因此为更好的理解生物学和临床的问题提供了一个强有力的工具。很多情况下人们会从多个条件下获取样本,比疾病和正常;然后通过对比不同条件下的细胞表达谱特征的区别来推测条件改变对细胞的影响。其中,差异表达基因的判定至关重要。
[0003]目前有两种思路来帮助人们找出差异表达基因,一种是依据表达水平差异幅度,一种是基于差异的显著性。前者最常用的是基因表达水平的变化倍数。但是由于缺乏广泛接受的标准,变化倍数的阈值往往由人为确定,主管偏差大。后者基于p值的,有广泛接受的阈值(0.05).但是由于所要评估的基因数目往往上万,p值需要做多重检验校正,比如Bonferroni,FDR校正等。但是基于p值也有它的问题。比如选取何种校正方法以及阈值的选取也需要谨慎选择。
[0004]由于数据的特征千差万别,每套数据都需要选择合适的阈值参数。目前还没有一种方法可以根据不同数据的特征选取差异表达基因最优解,缺乏判定差异表达基因的统一标准。
[0005]因此,本领域的技术人员致力于开发基于一种可以根据不同的数据自动调整的,并不需要人为干预,从而降低了人为干预误差的差异表达基因的判定方法和应用。

技术实现思路

[0006]有鉴于现有技术的上述缺陷,本专利技术所要解决的技术问题是基于单细胞转录组数据判定差异表达基因中缺乏统一标准的问题,即如何开发一种根据不同的数据自动调整的,并不需要人为干预,从而降低了人为干预误差的差异表达基因的判定方法。
[0007]为实现上述目的,本专利技术提供了一种单细胞RNA

seq差异表达基因的判定方法,包括以下步骤:
[0008]步骤1、比较两组单细胞RNA

seq的基因表达水平,确定给定表达水平后基因方差的预期值,其中,噪声污染基因为方差低于预期值的基因;信号基因为方差高于预期值的基因;只保留信号基因;
[0009]步骤2、使用t

test差异表达基因判定方法计算步骤1保留的信号基因中每个基因的p值,选取p值不显著的基因作为非差异表达基因;
[0010]步骤3、使用PLS模型构建步骤1中两组单细胞RNA

seq的基因表达水平数据间的差异特征;
[0011]步骤4、然后使用PLS模型提取并保留数据中两组间的差异特征分量,去除与分类
无关的分量,获得处理过的数据;
[0012]步骤5、通过计算非差异表达基因在步骤4得到的处理过的数据中的残留值分布特征,残留值显著高于步骤2得到的非差异表达基因的基因则为差异表达基因。
[0013]进一步地,步骤1还包括:使用分段线性回归模型确定给定表达水平后基因方差的预期值。
[0014]进一步地,分段线性回归模型的计算公式为:
[0015]σ2/μ2=a0+a1/μ,
[0016]其中,μ为每一个基因的平均表达水平,σ2为每一个基因的平均表达水平的方差,给定表达水平后基因方差的预期值为根据公式计算每一个基因方差的预计值σ
12
,a0和a1是回归系数,可以用线性回归模型从μ和σ2估计。
[0017]进一步地,基因的真实的方差值σ2小于预计值σ
12
,则基因被认为是噪声污染基因。
[0018]进一步地,步骤2还包括:p值不显著的基因为前20%p值最大的且大于0.05的基因。
[0019]进一步地,步骤4还包括:使用最小均方误差法提取并保留数据中两组间的差异特征分量。
[0020]进一步地,步骤5还包括:使用步骤2中得到的非差异表达基因作为基线,判定出两组单细胞RNA

seq的基因表达水平中每组中平均表达水平超过基线分布99%置信区间的基因,作为在该组中上调的差异表达基因。
[0021]进一步地,对于处理过的数据,由于非差异表达基因基本不包含差异特征分量,因此他们的残留值接近于零。
[0022]进一步地,平均表达水平超过基线分布99%置信区间的基因为基因表达的离群值。
[0023]本专利技术还提供了一种单细胞RNA

seq差异表达基因的判定方法在对比不同条件下的细胞表达谱特征的区别的应用。
[0024]进一步地,应用适用于比较两组不同条件下的细胞表达谱特征的区别。
[0025]在本专利技术的较佳实施方式中,详细说明单细胞转录组数据动态建模算法的流程。
[0026]本专利技术的技术效果如下:
[0027]本专利技术解决了基于单细胞转录组数据判定差异表达基因中缺乏统一标准的问题。本专利技术中判定标准的选择依靠数据驱动的自适应算法,是可以根据不同的数据自动调整的,并不需要人为干预,从而降低了人为干预误差。
[0028]传统的判定方法中需要同时考虑基因表达的变化幅度与显著性。本专利技术将这两个因素用一个度量来反应,从而减少了误差。
[0029]以下将结合附图对本专利技术的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本专利技术的目的、特征和效果。
附图说明
[0030]图1是本专利技术的一个较佳实施例的算法运行流程图。
具体实施方式
[0031]以下参考说明书附图介绍本专利技术的多个优选实施例,使其
技术实现思路
更加清楚和便于理解。本专利技术可以通过许多不同形式的实施例来得以体现,本专利技术的保护范围并非仅限于文中提到的实施例。
[0032]如图1算法运行流程图所示,详细说明了单细胞转录组数据动态建模算法的流程,具体如下:
[0033]步骤1、随机噪声干扰基因去除:把来自两类,X和Y,的细胞合并在一起。基于每一个基因的平均表达水平μ和方差σ2的关系:σ2/μ2=a0+al/μ,计算每一个基因方差的预计值σ
12
。如果该基因的真实方差值σ2<σ
12
,则该基因被认为是噪声污染基因。
[0034]步骤2、使用t

test对每一个基因进行差异性检测。取前20%p值最大且大于0.05的基因作为非差异表达基因。
[0035]步骤3、使用PLS对分类相关分量进行建模:再次对数据使用PLS方法将与两类样本间的区别特征分量提取出来。PLS模型的解由NIPALS算法得到。具体为(1)对原始数据X和Y进行中心化为X0,Y0。(2)对协方差矩阵cov(X,Y)=X
T
Y进行矩阵特征值分解cov(X,Y)=w∑u。取w中第一列记为w1,计算t1=X0w1。(3)使用t1计算(4)从X0,Y0去除已经建模的分量(5)重复上述2

4本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种单细胞RNA

seq差异表达基因的判定方法,其特征在于,所述方法包括以下步骤:步骤1、比较两组单细胞RNA

seq的基因表达水平,确定给定所述表达水平后基因方差的预期值,其中,所述噪声污染基因为所述方差低于预期值的基因;所述信号基因为所述方差低于预期值的基因;只保留所述信号基因;步骤2、使用t

test差异表达基因判定方法计算步骤1保留的所述信号基因中每个基因的p值,选取所述p值不显著的基因作为非差异表达基因;步骤3、使用PLS模型构建步骤1中所述两组单细胞RNA

seq的基因表达水平数据间的差异特征;步骤4、然后使用所述PLS模型提取并保留所述数据中两组间的差异特征分量,去除与分类无关的分量,获得处理过的数据;步骤5、通过计算非差异表达基因在步骤4得到的处理过的数据中的残留值分布特征,所述残留值显著高于步骤2得到的所述非差异表达基因的基因则为所述差异表达基因。2.如权利要求1所述的方法,其特征在于,所述步骤1还包括:使用分段线性回归模型确定所述给定所述表达水平后基因方差的预期值。3.如权利要求2所述的方法,其特征在于,所述分段线性回归模型的计算公式为:σ2/μ2=a0+a1/μ,其中,所述μ为所述每一个基因的平均表达水平,所述σ2为所述每一个基因的平均表达水平的方差,所述给定所述表达水平...

【专利技术属性】
技术研发人员:王蕊
申请(专利权)人:浙江百麦生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1