一种基于生成对抗网络的单细胞数据关系测序聚类方法技术

技术编号：43460477 阅读：10 留言：0更新日期：2024-11-27 12:59

本发明专利技术公开了一种基于生成对抗网络的单细胞数据关系测序聚类方法，所述方法包括如下步骤：步骤1、数据获取；步骤2、数据处理；步骤3、图构建；步骤4、图自编码器训练；步骤5、选点与深度模型聚类；步骤6、重新聚类。该方法通过构建包含细胞间+细胞基因间的图结构，对细胞群体中的局部结构和动态变化进行深度挖掘，并利用对抗网络优化嵌入表示，提升聚类的准确度和计算效率。本发明专利技术不仅增强了特征表示的能力，还在低维空间中更好地表达了细胞的生物学特性和相互关系，适用于细胞分类、癌症研究和免疫学分析等领域。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于生物医学信息学领域，涉及一种单细胞聚类方法，具体涉及一种结合图自编码器（graph convolutional autoencoder, gae）和生成对抗网络（generativeadversarial network, gan）的改进细胞聚类方法。

技术介绍

1、细胞聚类分析在生物医学研究中具有重要意义，尤其在单细胞rna测序数据分析、癌症研究和免疫学研究中。现有的细胞聚类方法通常采用“降维+聚类”策略，并依赖于传统的统计和机器学习算法。降维技术能够将高维数据转换到低维空间，同时尽可能保留数据的重要特征，这对于后续的聚类分析至关重要。传统的降维方法包括一些例如pca等，但存在一定的缺陷，如无法捕捉数据的非线性结构。由此引入自编码器降维，自编码器是一种无监督学习神经网络，能够学习数据的有效表示或编码，与传统的线性降维方法相比，自编码器能够通过非线性变换捕捉数据的较复杂特征，为了更方便利用图结构关系，进一步应用图自编码器降维。

2、gae作为一种结合了图神经网络（graph neural network, gnn）和自动编码器的模型，能够有效地捕捉数据的图结构信息，为复杂数据的聚类分析提供了新的方法。在论文《gnn-based embedding for clustering scrna-seq data》中，作者madalina ciortan和matthieu defrance提出利用图自动编码器网络为scrna-seq细胞数据创建嵌入的graph-sc方法，并分析了使用各种聚类算法对这些嵌入进行聚

3、现有的细胞聚类方法在处理高维、噪声较大的生物数据时存在诸多不足，在使用传统图自编码器降维+k-means聚类时，这些问题具体而言：

4、（1）邻接矩阵的构建复杂度：传统图自编码器在构建邻接矩阵的过程中，往往只关注细胞间的直接联系，而忽视了数据中更为复杂的相互作用模式。这种简化的方法限制了降维的效果，未能充分利用数据的内在结构信息。

5、（2）缺乏对抗训练的优化：传统图自编码器在降维和特征提取过程中，缺乏对抗训练的优化机制，难以生成高质量的嵌入表示，影响后续聚类分析的准确性和稳定性。

6、（3）对初始质心敏感：k-means聚类算法高度依赖于初始质心的选择，不同的初始质心可能导致不同的聚类结果，影响聚类的稳定性和准确性。

7、（4）无法处理复杂的非线性关系：k-means假设数据分布为球形且聚类间距相等，这在处理复杂非线性特征的生物数据时显得不够灵活，无法有效捕捉细胞和基因之间的非线性关系。

8、（5）易受噪声和异常值影响：k-means算法对噪声和异常值较为敏感，这在高维生物数据中尤为明显，容易导致聚类结果的偏差。

技术实现思路

1、为了解决传统k-means聚类在处理高维、噪声较大的生物数据时的不足，本专利技术提供了一种基于生成对抗网络的单细胞数据关系测序聚类方法。该方法通过构建包含细胞间+细胞基因间的图结构，对细胞群体中的局部结构和动态变化进行深度挖掘，并利用对抗网络优化嵌入表示，提升聚类的准确度和计算效率。本专利技术不仅增强了特征表示的能力，还在低维空间中更好地表达了细胞的生物学特性和相互关系，适用于细胞分类、癌症研究和免疫学分析等领域。

2、本专利技术的目的是通过以下技术方案实现的：

3、一种基于生成对抗网络的单细胞数据关系测序聚类方法，包括如下步骤：

4、步骤1、数据获取：

5、从公开数据库中下载单细胞rna测序数据；

6、步骤2、数据处理：

7、步骤2-1、过滤稀疏基因和细胞：删除在整个数据集中表达比例极低的基因，以及表达比例极低的细胞。

8、步骤2-2、选取关键基因：从剩余的基因中选择表现最为显著的一部分基因。

9、步骤2-3、构建基因表达矩阵：对所有基因进行筛选，去除表达比例不到设定的基因，构建新的基因表达矩阵df；

10、步骤3、图构建：

11、步骤3-1、归一化处理：对初始的基因表达矩阵df进行归一化操作，构建归一化矩阵b；

12、步骤3-2、pca降维：对归一化后矩阵b每行的基因利用pca（principal componentanalysis）降维成基因特征表达矩阵x2，利用基因特征表达矩阵x2获取细胞新特征表达矩阵x1；

13、步骤3-3、细胞间距离矩阵：对细胞新特征表达矩阵x1进行pca，得到降维后的细胞新特征表达矩阵x3，通过计算降维后的细胞新特征表达矩阵x3中各细胞之间的欧氏距离，得到细胞间距离矩阵p；

14、步骤3-4、细胞间邻接矩阵：根据knn（k-nearest neighbors）算法，利用细胞间距离矩阵 p构建细胞间邻接矩阵，并对行归一化，得到新的细胞间邻接矩阵a1；

15、步骤3-5、细胞基因间邻接矩阵：根据归一化矩阵b和公式，得到细胞与基因之间的邻接矩阵，再对行归一化，得到新的细胞基因间邻接矩阵w，其中：b表示数据矩阵，b[k,j]表示第k个基因在第j个细胞中的表达量，表示图神经网络中的权重矩阵元素，m代表基因总数减1；

16、步骤3-6、构建完整邻接矩阵：将细胞间邻接矩阵a1、细胞基因间邻接矩阵w、零矩阵及单位矩阵合并为整体的邻接矩阵a，并构建相应细胞-基因连接图；

17、步骤4、图自编码器训练：

18、构建包含多层图卷积层和线性层的gcn编码器-解码器模型作为图自编码器，将细胞新特征表达矩阵x1和基因特征表达矩阵x2合并形成特征矩阵x，将特征矩阵x和邻接矩阵a输入到gcn编码器-解码器模型中进行训练，生成初步的细胞聚类标签；

19、步骤5、选点与深度模型聚类：

20、步骤5-1、选择代表性样本：获取初始聚类标签后，通过kmeans获取每个聚类的质心坐标，再利用norm函数计算每个细胞距离质心的距离，在每个类别中选取距离质心最近的前30~50%的细胞样本作为代表性样本；

21、步骤5-2、对抗网络训练：

22、（1）数据准备：加载基因表达数据和聚类标签数据，并对代表性样本进行标准化处理；

23、（2）定义生成器（generator）和判别器（discriminator）：

24、生成器：用于生成与真实细胞嵌入相似的假嵌入表示，结构包括多层线性层和leakyrelu激活函数，输出层使用tanh激活函数以适应特征值范围；

25、判别器：用于区分真实样本和假样本，结构包括多层线性层和leakyrelu激活函数，输出层使用softmax激活函数进行多分类；

26、（3）训练判别器：输入真实细胞样本，计算真实样本的损失；生成假细胞样本本文档来自技高网...

【技术保护点】

1.一种基于生成对抗网络的单细胞数据关系测序聚类方法，其特征在于所述方法包括如下步骤：

2.根据权利要求1所述的基于生成对抗网络的单细胞数据关系测序聚类方法，其特征在于所述步骤3-3中，细胞间距离矩阵P的计算公式如下：

3.根据权利要求1所述的基于生成对抗网络的单细胞数据关系测序聚类方法，其特征在于所述步骤4具体步骤如下：

4.根据权利要求3所述的基于生成对抗网络的单细胞数据关系测序聚类方法，其特征在于所述步骤4-1的具体步骤如下：每一层图卷积层通过邻接矩阵A传播信息，提取更高阶的特征表示，每层图卷积层后应用LeakyReLU激活函数和批量归一化，以提高模型的表达能力和稳定性，图卷积层完整公式如下：

【技术特征摘要】

1.一种基于生成对抗网络的单细胞数据关系测序聚类方法，其特征在于所述方法包括如下步骤：

2.根据权利要求1所述的基于生成对抗网络的单细胞数据关系测序聚类方法，其特征在于所述步骤3-3中，细胞间距离矩阵p的计算公式如下：

3.根据权利要求1所述的基于生成对抗网络的单细胞数据关系测序聚类方法，其特征在...

【专利技术属性】
技术研发人员：孙秋成，张志，王春艳，袁弘毅，陈杰，姜松润，许亚楠，
申请(专利权)人：长春师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人