本发明专利技术公开一种用于单细胞测序数据的缺失值填充方法及系统,所述方法是基于单细胞测序技术,该方法包括:1)原始真实数据搜集,2)仿真数据生成,3)数据预处理,4)利用低秩矩阵对基因表达的缺失值进行填充,5)下游分析包括缺失值的掩码分析、可视化、聚类分析、细胞marker基因分析和基因表达的变异系数分析。本发明专利技术属于生物信息分析技术领域,本发明专利技术提供的基于单细胞转录组测序的细胞基因表达缺失值的填充方法,有效地填补了基因表达矩阵的缺失值,改善了细胞的低维表示和聚类,恢复了基因关系和标记基因的相关性,更好地保留细胞之间的基因表达变异性,能够降低现有单细胞测序数据分析中,基因表达的缺失值带来的细胞分类方法的局限性,有利于提高细胞分类准确率,达到减小分类误差的效果。类误差的效果。类误差的效果。
【技术实现步骤摘要】
一种用于单细胞测序数据的缺失值填充方法及系统
[0001]本专利技术涉及生物信息分析
,特别是涉及一种用于单细胞测序数据的缺失值填充方法及系统。
技术介绍
[0002]单细胞RNA 测序(scRNA
‑
seq) 技术彻底改变了转录组研究中批量 RNA 测序的通量和分辨率。scRNA
‑
seq 可以表征单个细胞的基因表达,而不会忽略潜在的细胞异质性。近年来,scRNA
‑
seq的进步显着增强了细胞亚型的分类,基因表达的量化,以及差异表达基因的鉴定。此外,scRNA
‑
seq 分析还被用于其他研究,例如免疫系统、大脑神经元机制和癌症相关疾病。然而,基因表达矩阵的稀疏性限制了scRNA
‑
seq 技术在单细胞中提供准确测量的性能。例如,在基于droplet的数据集中,典型矩阵中零值计数可能已超过了 90%。大多数零值计数是由基因的部分低表达、细胞的低测序深度和dropout事件产生的。特别值得注意是,dropout事件可能导致非生物意义的零值计数(即缺失的基因表达值),这限制了其应用。
[0003]最近,几种插补方法已经被提出来解决scRAN
‑
seq 数据中缺失基因表达值的问题。这些方法大致分为四类:基于模型、基于平滑、基于深度学习和基于矩阵理论。例如,Li等人提出了scImpute(基于模型)来自动识别 dropout 事件,并使用有关细胞类型的附加信息检测异常细胞。Huang等人通过利用马尔可夫链蒙特卡罗算法来推断所有参数,开发了 SAVER(基于模型),但可能导致计算复杂度较高。Van
‑
Dijk等人通过将数据投影到低维空间来估算缺失的基因表达值,提出MAGIC(基于平滑)。Gong等人通过使用相似细胞中基因表达的平均值提出了DrImpute(基于平滑)。然而,基于平滑的方法降低了细胞间的基因表达变异性。为了利用神经网络的优越性能,Arisdakessian等人开发了DeepImpute(基于深度学习),通过学习scRNA
‑
seq 数据模式来估算缺失的基因表达值,这导致了scRNA
‑
seq 数据分析的无法解释的问题。Linderman等人提出了ALRA(基于矩阵理论),通过使用矩阵近似来估算表达基因的缺失值(非零值),保留了未表达基因的生物学意义。虽然这些方法可以在一定程度上估算缺失的基因表达值,但它们没有考虑细胞异质性。所以,在scRAN
‑
seq 数据中如何更有效地恢复缺失的基因表达值仍然是一个挑战。
[0004]先前的研究已经表明,由于低秩结构的特点,低秩矩阵可以基于一些可观察项来恢复缺失值。有鉴于此,本专利技术提出了一种新的scRNA
‑
seq 插补方法,将细胞异质性与低秩矩阵相关联,并将 dropout 事件视为缺失值的主要来源,高斯
‑
牛顿线性化被应用于稀疏基因表达矩阵的近似迭代中,以此来插补scRNA
‑
seq 数据中缺失的基因表达值。实验结果表明,本专利技术取得了较好的插补效果,在探索scRNA
‑
seq 数据中的复杂生物系统方面显示出更多优点。
[0005]
技术实现思路
[0006]为解决目前本领域面临的上述问题,本专利技术提供了一种用于单细胞测序数据的缺失值填充方法及系统,将细胞异质性与低秩矩阵相关联, dropout 事件被视为缺失值的主要来源,高斯
‑
牛顿线性化被应用于稀疏基因表达矩阵的近似迭代中,以此来插补scRNA
‑
seq 数据中缺失的基因表达值。
[0007]为实现上述目的,本专利技术提供了如下方案:一种用于单细胞测序数据的缺失值填充方法,包括:S1:搜集原始真实数据集和生成仿真数据集;S2:数据预处理;S3:设计填充操作子和采样操作子,并初始化权重;S4:初始化线性度量值,细胞类型数,最大迭代次数和超参;S5:利用奇异值分解获得基因表达矩阵分解的初始估计U,V;S6:生成稀疏项并获得U和V的新估计值;S7:计算填充操作子对UV的填充值与线性度量值之间的误差;S8:利用误差更新下一代U和V的估计值;S9:获得基因表达矩阵的最优近似;S10:最优近似矩阵中的负值更新为0;S11:选择最优近似矩阵中对应缺失项的填充值进行更新,并获得最优填充的基因表达矩阵;S12:下游分析,包括掩码分析、可视化、聚类、细胞marker基因分析和变异系数分析等。
[0008]优选地,所述设计填充操作子和采样操作子,具体包括:填充操作子是一个线性映射,提取基因表达矩阵X分解的d项条目(),如。采样操作子提取基因表达矩阵X的空间中的d项观察值作为线性度量值,如。
[0009]优选地,所述计算所述初始化线性度量值,细胞类型数,最大迭代次数和超参,具体包括:采样操作子的输出作为线性度量值e;已知或潜在的细胞类型数作为c;在矩阵分解UV的更新过程中,最大迭代次数为Z;为了控制矩阵分解UV的更新程度,设计超参,默认值是1。
[0010]优选地,所述计算所述利用奇异值分解获得基因表达矩阵分解的初始估计U,V,具体包括:为了获得基因表达矩阵分解的初始估计,我们使用奇异值分解SVD的方法获得U1,V1。
[0011]优选地,所述计算所述生成稀疏项,并获得U和V的新估计值,具体包括:构建稀疏项用于获得基因表达稀疏矩阵最小方差线性形式。根据最小方差线性形式,获得U和V的新估计值。
[0012]优选地,所述计算所述计算填充操作子对UV的填充值与线性度量值之间的误差,具体包括:
计算填充值与线性度量值之间的误差,如,迭代Z次进行更新。
[0013]优选地,所述计算所述利用误差更新下一代U和V的估计值,具体包括:将当前获得的误差,用于更新U和V的下一代估计值,如,迭代Z次进行更新。
[0014]优选地,所述计算所述最优近似矩阵中的负值更新为0,具体包括:因为基因表达矩阵X是非负矩阵,所以将最优近似中负值替代更新为0,如。
[0015]优选地,所述获得最优填充的基因表达矩阵,具体包括:在最优近似矩阵更新后的矩阵S中,选择对应缺失项的填充值进行填充到原始基因表达矩阵X中,最终获得最优填充的基因表达矩阵,如。
[0016]优选地,所述获得最优填充的基因表达矩阵,具体包括:在最优近似矩阵更新后的矩阵S中,选择对应缺失项的填充值进行填充到原始基因表达矩阵X中,最终获得最优填充的基因表达矩阵,如。
[0017]优选地,所述下游分析,具体包括:基因表达矩阵中缺失值掩码分析来评判插补准确率,不同细胞类型、的可视化,不同插补方法的聚类结果分析,在基因表达矩阵的插补结果中对细胞marker基因的相关分析和基因表达值的变异系数分析等。
[0018]一种用于单细胞测序数据的缺失值填充方法及系统,包括:数据搜集模块,用于搜集原始真实数据集和生成仿真数据集;数据预处理模块,用于过滤低质量本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种用于单细胞测序数据的缺失值填充方法,其特征在于,包括:S1:搜集原始真实数据集和生成仿真数据集;S2:数据预处理;S3:设计填充操作子和采样操作子,并初始化权重;S4:初始化线性度量值,细胞类型数,最大迭代次数和超参;S5:利用奇异值分解获得基因表达矩阵分解的初始估计U,V;S6:生成稀疏项并获得U和V的新估计值;S7:计算填充操作子对UV的填充值与线性度量值之间的误差;S8:利用误差更新下一代U和V的估计值;S9:获得基因表达矩阵的最优近似;S10:最优近似矩阵中的负值更新为0;S11:选择最优近似矩阵中对应缺失项的填充值进行更新,并获得最优填充的基因表达矩阵;S12:下游分析,包括掩码分析、可视化、聚类、细胞marker基因分析和变异系数分析等。2.根据权利要求1所述的一种用于单细胞测序数据的缺失值填充方法,其特征在于,所述进行所述原始真实数据集和生成仿真数据集,具体包括:真实数据Human ESC scRNA
‑
seq dataset (GEO access number: GSE75748)Mouse ANMECs scRNA
‑
seq dataset (GEO access number: GSE90806)。3.利用R package Splatter (v1.17.1)生成三种不同dropout比率(56.3%, 50.2% 和 13.4%)的仿真数据。4.根据权利要求2所述的一种用于单细胞测序数据的缺失值填充方法,其特征在于,所述数据预处理,具体包括:低质量细胞过滤和数据规范化,在基于细胞表达的基因中细胞数量小于5的基因被过滤,单个细胞中基因数目小于200的细胞被过滤,去除低质量细胞后,采用log
‑
transformation方法,进行表达量规范化。5.根据权利要求3所述的一种用于单细胞测序数据的缺失值填充方法,其特征在于,所述设计填充操作子和采样操作子,具体包括:填充操作子是一个线性映射,提取基因表达矩阵X分解的d项条目(),如。6.采样操作子提取基因表达矩阵X的空间中的d项观察值作为线性度量值,如。7.根据权利要求4所述的一种用于单细胞测序数据的缺失值填充方法,其特征在于,所述计算所述初始化线性度量值,细胞类型数,最大迭代次数和超参,具体包括:采样操作子的输出作为线性度量值e;已知或潜在的细胞类型数作为c;在矩阵分解UV的更新过程中,最大迭代次数为Z;为了控制矩阵分解UV的更新程度,设计超参,默认值是1。8.根据权利要求5所述的一种用于单细胞测序数据的缺失值填充方法,其特征在于,所述计算所述利用奇异值分解获得基因表达矩阵分解的初始估计U,V,具体包括:
为了获得基因表达矩阵分解的初始估计,我们使用奇异值分解SVD的方法获得U1,V1。9.根据权利要求6所述的...
【专利技术属性】
技术研发人员:黄梦,刘佩,黄磊,赵品,
申请(专利权)人:黄梦,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。