一种基于非对称自编码器的单细胞蒸馏判别聚类方法、系统、电子设备及介质技术方案

技术编号：44817966 阅读：3 留言：0更新日期：2025-03-28 20:06

本发明专利技术提供了一种基于非对称自编码器的单细胞蒸馏判别聚类方法、系统、电子设备及介质，属于单细胞聚类技术领域，包括以下步骤：步骤S1、基于非对称自编码器对原始数据进行训练；其中，原始数据包括源数据和目标数据；步骤S2、利用源数据标签信息和特征距离信息，使同类细胞聚集、不同的细胞簇远离；步骤S3、利用源数据和目标数据的低维表示计算聚类中心，使细胞簇边界附近的细胞向聚类中心靠近，隐式完成域对齐任务。本发明专利技术采用上述的一种基于非对称自编码器的单细胞蒸馏判别聚类方法、系统、电子设备及介质，在细胞聚类性能上表现优秀，有助于推断细胞组织内部的复杂细胞组成和功能特征。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及单细胞聚类，尤其是涉及一种基于非对称自编码器的单细胞蒸馏判别聚类方法、系统、电子设备及介质。

技术介绍

1、单细胞rna测序(scrna-seq)技术能够测量单个细胞的基因表达量，提供了极高的细胞差异分辨率，以便研究人员更好的研究组织内部的细胞异质性。近十年来，scrna-seq广泛应用于肿瘤、微生物和发育生物学等多个研究领域。细胞聚类是scrna-seq数据分析中的关键步骤，根据细胞的基因表达模式对细胞分组，进一步完成细胞功能识别和细胞类型注释任务。然而，scrna-seq数据的稀疏性、批次效应和高维性给细胞聚类带来了巨大挑战。技术偏差导致rna捕获率低，scrna-seq转录表达谱极其稀疏，并且存在大量dropout事件，增加了数据中的噪声和缺失值，从而影响细胞聚类分析的准确性。同时，由于组织在不同批次、不同时间、不同操作者等导致测得的基因表达量不同，从而使得数据分析存在误差。此外，scrna-seq数据通常具有极高维度，这使得提取细胞类型特异性信息和描述细胞间特征关系变得非常复杂，进一步增加了细胞聚类分析的难度。

2、为了克服上述挑战，研究人员在早期已经提出了许多传统的无监督聚类方法应用在单细胞数据上。这些方法主要通过降维技术从原始数据中学习重要特征，然后根据不同方式计算细胞之间的相似性或者距离，并使用k-means、louvain等聚类方法完成聚类任务。sc3通过不同的特征提取方法生成多个细胞间相似性矩阵，然后采用不同的聚类方法对每个相似性矩阵进行聚类，并通过共识聚类得到最终的稳定聚类。siml

3、为了弥补无监督方法在聚类准确性上的不足，许多研究团队引入半监督学习策略，通过利用少量标注良好的细胞类型信息来引导聚类。单细胞半监督聚类方法可以分为两类：基于机器学习和基于深度学习。基于机器学习的单细胞聚类方法通常利用部分已知的细胞标签来训练机器学习模型，然后根据训练好的模型对目标数据进行预测。scmap利用多个相似性函数比较目标数据和参考数据的基因表达模式，从而找出最相似的细胞类型，从而实现最终聚类。seurat 3.0利用互交式最近邻构建共享网络，从而捕捉细胞间的局部邻近关系，然后使用louvain算法识别细胞亚群。这类方法能够有效提高对稀有细胞类型的识别能力，且对噪声的鲁棒性有所提升。然而，这类方法对标注数据的依赖使其在标签数量不足或标签分布与目标数据差异较大时易受到域偏移的影响，导致模型泛化能力下降。

4、随着深度学习技术的兴起，研究人员将深度表示学习与半监督策略相结合，提出了半监督深度聚类方法。这类方法通过深度神经网络的非线性映射能力进行特征提取，能够捕捉scrna-seq数据的复杂表达模式，从而提升聚类性能。scdeepcluster利用基于零膨胀负二项分布(zinb)模型的自编码器有效捕捉数据中的非线性结构，并实现数据去噪，然后利用深度嵌入聚类使数据点向聚类中心靠拢，从而完成时聚类任务。itclust通过自编码器学习数据的特征，并使用相似性度量构建细胞间的相似性矩阵，最后通过结合迭代优化和基于图的聚类策略，能够在复杂的高维数据中有效识别细胞亚群(实现高质量的细胞聚类)。scsemiaae结合半监督学习和对抗自编码器的思想以实现更好的特征学习和聚类效果。scsemicluster在参考数据中加入结构相似性正则化来约束目标数据的聚类结果，并引入成对约束，以增强聚类的紧密度。scmckc在零膨胀负二项模型自编码器的基础上，考虑相似细胞之间的关联，构建细胞级的约束，并利用先验信息构建成对约束，使用加权的软k-means算法进行最终聚类。scdecl引入混合数据增强策略和插值损失来提高数据集的多样性和模型的鲁棒性，并将先验信息转化为增强的成对约束来指导聚类。sctpc基于零膨胀负二项分布预训练去噪自编码器。然后使用由部分标记细胞生成的三重约束和成对约束进行深度聚类。尽管这些半监督深度聚类方法能够在一定程度上提升聚类的效果，但在处理跨域数据集时依然面临源域与目标域分布不一致的问题。此外，大多数现有方法依赖于复杂的特征对齐策略，而忽略了对目标域数据内部结构的深度挖掘，导致目标数据的判别能力不足。

技术实现思路

1、本专利技术的目的是在于提供一种基于非对称自编码器的单细胞蒸馏判别聚类方法、系统、电子设备及介质，在细胞聚类性能上表现优秀，有助于推断细胞组织内部的复杂细胞组成和功能特征。

2、为实现上述目的，本专利技术提供了一种基于非对称自编码器的单细胞蒸馏判别聚类方法，包括以下步骤：

3、步骤s1、基于非对称自编码器对原始数据进行训练；其中，原始数据包括源数据和目标数据；

4、步骤s2、利用源数据标签信息和特征距离信息，使同类细胞聚集、不同的细胞簇远离；

5、步骤s3、利用源数据和目标数据的低维表示计算聚类中心，使细胞簇边界附近的细胞向聚类中心靠近，隐式完成域对齐任务。

6、优选的，步骤s1中，基于非对称自编码器对原始数据进行训练，包括以下步骤：

7、步骤s11、将原始数据的基因表达矩阵x＝{x1,x2,...,xn}∈rn×m输入到非对称自编码器估计zinb分布的三个参数矩阵，包括零膨胀参数矩阵π＝{π1,π2,...,πn}∈rn×m、平均值参数矩阵μ＝{μ1,μ2,...,μn}∈rn×m和色散参数矩阵θ＝{θ1,θ2,...,θn}∈rn×m；

8、其中，n表示所有数据的样本数量；m表示输入数据的维度；xn表示第n个细胞的基因表达向量；πn表示第n个细胞对应的零膨胀参数向量；μn表示第n个细胞对应的平均值参数向量；θn表示第n个细胞对应的色散参数向量；

9、步骤s12、设xij表示第i个细胞中第j个基因的表达值，πij、μij、θij分别表示第i个细胞中第j个基因对应的零膨胀参数、平均值参数和色散参数，使其服从zinb分布：

10、pzinb(xij；πij,μij,θij)＝πijδ0(xij)+(1-πij)pnb(xij；μij,θij)；

11、

12、其中，γ(·)是gamma函数；δ0(·)是狄拉克函数，当xij＝0时δ0(xij)取值为1，当xij≠0时δ0(xij)取值为0；

13、步骤s13、根据zinb分布的负对数似然函数重构数据的损失：

14、

15、其中，lzinb表示基于zinb分布的重构损失；pzinb(xij)表示zinb分布函数；

1本文档来自技高网...

【技术保护点】

1.一种基于非对称自编码器的单细胞蒸馏判别聚类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于非对称自编码器的单细胞蒸馏判别聚类方法，其特征在于，步骤S1中，基于非对称自编码器对原始数据进行训练，包括以下步骤：

3.根据权利要求2所述的一种基于非对称自编码器的单细胞蒸馏判别聚类方法，其特征在于，步骤S2中，利用源数据标签信息和特征距离信息，使同类细胞聚集、不同的细胞簇远离，包括以下步骤：

4.根据权利要求3所述的一种基于非对称自编码器的单细胞蒸馏判别聚类方法，其特征在于，步骤S3中，利用源数据和目标数据的低维表示计算聚类中心，使细胞簇边界附近的细胞向聚类中心靠近，隐式完成域对齐任务，包括以下步骤：

5.一种基于非对称自编码器的单细胞蒸馏判别聚类系统，其特征在于，包括：

6.一种计算机设备，包括：存储器和处理器；存储器存储有计算机程序，其特征在于，处理器执行计算机程序时实现权利要求1-4中任一项所述的基于非对称自编码器的单细胞蒸馏判别聚类方法的步骤。

7.一种计算机可读存储介质，其上存储有计算

...

【技术特征摘要】

1.一种基于非对称自编码器的单细胞蒸馏判别聚类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于非对称自编码器的单细胞蒸馏判别聚类方法，其特征在于，步骤s1中，基于非对称自编码器对原始数据进行训练，包括以下步骤：

3.根据权利要求2所述的一种基于非对称自编码器的单细胞蒸馏判别聚类方法，其特征在于，步骤s2中，利用源数据标签信息和特征距离信息，使同类细胞聚集、不同的细胞簇远离，包括以下步骤：

4.根据权利要求3所述的一种基于非对称自编码器的单细胞蒸馏判别聚类方法，其特征在于，步骤s3中，利用源数据和目标数...

【专利技术属性】
技术研发人员：孙燕，秦宝娟，尚军亮，孙渊，赵妍，张晓晗，蒋守佳，
申请(专利权)人：曲阜师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人