一种基于迭代筛选的半监督单细胞RNA测序数据聚类方法技术

技术编号：44875201 阅读：8 留言：0更新日期：2025-04-08 00:15

本发明专利技术公开了一种基于迭代筛选的半监督单细胞RNA测序数据聚类方法，属于生物信息学与计算生物学领域。所述方法如下：步骤1、数据预处理与质量控制；步骤2、降维与去噪处理；步骤3、K‑means聚类与核心细胞选择；步骤4、数据重构与迭代优化；步骤5、共识约束与稳定性增强；步骤6、Transformer模型训练与优化。本发明专利技术能够有效减少噪声对聚类结果的影响，提升模型在稀疏数据处理中的稳定性，适用于单细胞生物学研究中的数据挖掘、细胞群体鉴定、发育轨迹推断以及疾病相关研究。实验表明，本发明专利技术显著提升了聚类的精度与稳定性，在稀疏数据和罕见亚群识别中表现出优越性，为单细胞数据的高效解析提供了一种创新性解决方案。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于生物信息学与计算生物学领域，涉及一种基于深度学习的高效聚类方法，具体涉及一种基于迭代筛选高置信度细胞和标签的半监督单细胞rna测序（scrna-seq）数据聚类方法。

技术介绍

1、单细胞rna测序是一种能够在单细胞水平上解析基因表达的高通量测序技术，为揭示细胞异质性和解析复杂生物系统提供了强有力的工具。在传统的群体rna测序（bulkrna-seq）中，rna表达水平是所有细胞的平均值，因此无法区分不同细胞类型或状态的特异性表达信息。而scrna-seq能够以单细胞为单位分析转录组，揭示个体细胞之间的基因表达差异，尤其适用于异质性高或细胞稀有的样本分析。近年来，随着微流控技术、分子标记及高通量测序平台的发展，scrna-seq技术得到了快速推广。它被广泛应用于肿瘤微环境研究、发育生物学、免疫学及神经科学等领域，成为探索细胞状态、发育轨迹、疾病发生机制及生物标志物发现的关键工具。

2、单细胞rna测序（scrna-seq）技术为解析生物系统的异质性提供了强大的工具，然而，其数据分析，尤其是在聚类过程中，面临着显著的困难与挑战。这些问题主要来源于单细胞rna测序数据的固有特性，包括高稀疏性、高噪声、高维度以及细胞异质性复杂性。首先，scrna-seq数据高度稀疏的特性显著增加了聚类分析的难度。这种稀疏性既来自于技术上的不足，如rna捕获效率和测序深度不足导致的大量零值表达，也与生物学特性有关，不同细胞中大部分基因的表达处于静默状态。稀疏性数据的特征提取变得困难，容易掩盖微弱的生物学信号。其次，技术噪声对聚

3、在 vladimir yu kiselev 等人2017年发表于 nature methods 的论文《sc3:consensus clustering of single-cell rna-seq data》中，提出了sc3（single-cellconsensus clustering），一种基于共识聚类的创新方法。sc3通过三个主要步骤实现对单细胞数据的聚类：首先，对高维单细胞数据进行预处理，包括归一化和高变基因选择；其次，利用多种非线性降维方法（如pca和t-sne）生成多个嵌入空间，并在每个空间中使用k-means算法进行聚类；最后，通过计算共识矩阵，将多个聚类结果整合为一个最终聚类结果。sc3的核心创新在于利用共识矩阵提高结果的鲁棒性，同时支持基因特征选择和差异基因分析，为用户提供从聚类到生物学解释的一站式解决方案。bo wang 等人在2017年发表于nature methods 的论文《simlr: a tool for large-scale single-cell rna-seq dataanalysis by multi-kernel learning》中提出了simlr（single-cell interpretationvia multi-kernel learning），一种基于多核学习（multi-kernel learning）的聚类工具。simlr通过构建多种核函数来捕捉单细胞数据中不同特征的相似性，并利用加权优化的方法整合这些核函数以学习最佳相似性矩阵。在此基础上，simlr使用谱聚类（spectralclustering）对细胞进行分组。此外，simlr内嵌了降维功能，使得数据在相似性学习过程中被动态优化，既保留了全局特征，又增强了对局部模式的捕捉。该方法尤其适用于处理高稀疏性和大规模数据集，因其对相似性建模的灵活性，在分辨罕见细胞亚群方面表现优越。lijun wang 等人在2020年发表于 genome biology 的论文《scdeepcluster: a deeplearning-based strategy for unsupervised clustering of single-cell rna-seqdata》中提出了scdeepcluster，这是一种基于深度学习的无监督聚类方法。scdeepcluster通过一个自编码器（autoencoder）模型对单细胞rna-seq数据进行非线性降维，利用重构误差优化数据的表示特征。在自编码器中，输入数据通过多个全连接层被编码为低维空间，随后通过对称解码器还原原始数据，训练的目标是最小化重构误差。在降维后的低维空间中，scdeepcluster使用k-means算法进行聚类，并通过反馈机制优化自编码器和聚类的联合损失函数。这种联合优化使得模型能够同时学习表达数据的潜在结构和细胞群体的内在分布，特别适用于揭示复杂的非线性生物学模式。jiashun wang 等人在2021年发表于genome biology 的论文《scgnn: a graph neural network-based approach forclustering single-cell rna-seq data》中提出了scgnn，一种基于图神经网络（graphneural network, gnn）的聚类方法。scgnn的关键在于利用图结构对单细胞数据的相似性进行建模。首先，构建细胞和基因的加权二分图，其中边的权重表示细胞与基因之间的表达强度；随后，scgnn利用图卷积网络（graph convolutional network, gcn）对图中的细胞节点进行特征提取，通过多层图卷积操作，scgnn逐步整合邻域信息，实现对细胞的嵌入表示学习；最后，通过谱聚类对嵌入空间中的细胞进行分组。scgnn的创新之处在于通过图神经网络建模细胞和基因的高阶关系，能够捕捉数据中的全局模式和局部交互信息，在异质性强或稀疏数据下具有显著优势。huixuan yang 等人在2022年发表于 bioinformatics 的论文《scdsc: a deep subspace clustering method for single-cell rna-seq data》中提出了scdsc（single-cell deep subspace clustering），一种基于深度子空间学习的聚类方法。scdsc通过深度自编码器将单细胞rna-seq数据映射到潜在低维特征空间，并利用子空间聚本文档来自技高网...

【技术保护点】

1.一种基于迭代筛选的半监督单细胞RNA测序数据聚类方法，其特征在于所述方法包括如下步骤：

2.根据权利要求1所述的基于迭代筛选的半监督单细胞RNA测序数据聚类方法，其特征在于所述步骤5的具体步骤如下：

3.根据权利要求2所述的基于迭代筛选的半监督单细胞RNA测序数据聚类方法，其特征在于所述步骤51的具体步骤如下：

4.根据权利要求2所述的基于迭代筛选的半监督单细胞RNA测序数据聚类方法，其特征在于所述步骤52的具体步骤如下：

5.根据权利要求1所述的基于迭代筛选的半监督单细胞RNA测序数据聚类方法，其特征在于所述步骤6的具体步骤如下：

【技术特征摘要】

1.一种基于迭代筛选的半监督单细胞rna测序数据聚类方法，其特征在于所述方法包括如下步骤：

2.根据权利要求1所述的基于迭代筛选的半监督单细胞rna测序数据聚类方法，其特征在于所述步骤5的具体步骤如下：

3.根据权利要求2所述的基于迭代筛选的半监督单细胞rna测序数据聚类...

【专利技术属性】
技术研发人员：孙秋成，陈杰，王春艳，张志，姜松润，袁弘毅，
申请(专利权)人：长春师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人