System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于双聚类和图卷积神经网络的单细胞测序数据插补方法技术_技高网

基于双聚类和图卷积神经网络的单细胞测序数据插补方法技术

技术编号:44124750 阅读:11 留言:0更新日期:2025-01-24 22:44
基于双聚类和图卷积神经网络的单细胞测序数据插补方法,步骤为:1),从基因数据库分别下载人类和小鼠的矩阵形式的基因表达数据,筛除基因表达总数低于3的细胞以及细胞表达总数低于200的基因;2),对基因表达矩阵特征选择,寻找出增长趋势一致的细胞,构成新的二维矩阵,构建细胞连接图;3),使用图卷积神经网络构建BiGCN单细胞插补模型,学习细胞之间的非线性关系,将数据集分为训练集和测试集,采用训练集训练模型,并将训练好的BiGCN单细胞插补模型保留;4),测试集输入训练后的BiGCN单细胞插补模型中,得到插补结果后用评价指标对其进行评估;具有提高特征提取能力、避免多余零表达的干扰、有效缓解数据稀疏性、提高插补准确率的特点。

【技术实现步骤摘要】

本专利技术属于单细胞测序数据插补,具体涉及基于双聚类和图卷积神经网络的单细胞测序数据插补方法


技术介绍

1、单细胞测序是在单个细胞水平基础上,对基因组和转录组进行扩增与测序分析的技术。在免疫学、神经科学、发育生物学等领域发挥着至关重要的作用。利用单细胞测序技术,不仅可以有效识别样本内的细胞亚群,鉴定不同类型的细胞,还可以探寻细胞间异质性、揭示肿瘤细胞的特点,对探寻人体发病机理有重要帮助。随着单细胞测序的蓬勃发展,当前测序技术可对大量样本进行检测,获得的数据量愈发庞大。然而,在测序文库构建过程中,容易发生由于扩增失败而导致一部分数据缺失的情况,这也被称为缺失现象。为解决数据缺失的问题,目前已提出一些插补方法,但仍存在一些问题,例如过度插补引起的假阳现象、过度训练导致数据平滑,以及无法充分学习细胞之间的非线性关系等问题。

2、当前基于图神经网络的插补模型,大多依据k最近邻构造细胞连接图。这种方式会简单地根据欧氏距离选择最近的k个细胞组合为细胞图,由于生物样本的特殊性,在细胞获取时,同类细胞可能会相距过远。随着数据集变得愈发庞大,同类细胞在矩阵中的距离也会更加分散,因此难以获取细胞间的相关联系。


技术实现思路

1、为克服上述现有技术的不足,本专利技术的目的是提供基于双聚类和图卷积神经网络的单细胞测序数据插补方法,针对插补过程中细胞间非线性关系导致的学习不充分问题,设计基于双聚类和图卷积神经网络的单细胞插补模型bigcn(全称bi-clustering graphconvolution network,双聚类图卷积神经网络),利用双聚类在表达矩阵的行与列上同时聚类,得到同类细胞亚群,并使用图卷积神经网络与自编码器融合,将图卷积层代替线性层,进一步挖掘细胞与基因之间的关系,具有提高特征提取能力、避免多余零表达的干扰、有效缓解数据稀疏性、提高插补准确率的特点。

2、为实现上述目的,本专利技术采用的技术方案是:基于双聚类和图卷积神经网络的单细胞测序数据插补方法,包括以下步骤:

3、步骤1,从基因数据库分别下载人类和小鼠的矩阵形式的基因表达数据,筛除基因表达总数低于3的细胞以及细胞表达总数低于200的基因;

4、步骤2,对基因表达矩阵特征选择,使用双聚类寻找出增长趋势一致的细胞,构成新的二维矩阵,以细胞为节点,细胞相关性为特征,构建细胞连接图;

5、步骤3,使用图卷积神经网络构建bigcn单细胞插补模型,学习细胞之间的非线性关系,将数据集分为训练集和测试集,采用训练集训练模型,并将训练好的bigcn单细胞插补模型保留;

6、步骤4,将测试集输入到训练后的bigcn单细胞插补模型中,得到插补结果后使用评价指标对其进行评估。

7、所述的步骤2,使用双聚类寻找出基因表达水平变化趋势一致的细胞,具体又包括以下步骤:

8、步骤2-1,预处理阶段

9、将数据矩阵划分为单行单列的子双聚类,这些子双聚类合起来便是表达矩阵的所有行和列,并且每个双聚类都包含一个行集合和一个列集合,从其中随机选择一些列和行构成起始双聚类的索引矩阵;

10、步骤2-2,寻找关联细胞

11、构建好的索引矩阵可以反应出表达值的变化趋势,使用二元联合信息熵来判断两个细胞之间的关联关系,选择公式(1)

12、

13、式中,x代表基因表达强度,m代表细胞总数,n代表基因总数,log代表以e为底的对数函数,xi表示某一行中的某一个细胞,yj表示某一列中某一个基因,p(xi,yj)代表细胞与基因之间的概率密度,h(x)代表该细胞与该基因之间的关联程度,值越大,代表关联程度越高;

14、步骤2-3,迭代优化

15、通过迭代的方式优化双聚类的二元联合信息熵,在每次迭代中,随机增加或删除某一行,以改善细胞的二元联合信息熵,寻求最大二元联合信息熵的迭代过程使用贪心搜索,试图在每一步选择时能够最大程度提升二元联合信息熵,当值不再变化时,便停止迭代。

16、所述的步骤3,构建bigcn单细胞插补模型具体又包括以下步骤:

17、bigcn单细胞插补模型在传统的自编码器的基础上进行改进,为了进一步捕获细胞之间的关系,使用图卷积层代替线性层,以最大程度学习细胞间的特性,在进入图卷积神经网络前,将表达矩阵转化为细胞连接图,之后使用zinb损失函数对插补前后矩阵进行比较,缩小误差。

18、所述的自编码器,为四层结构,第一层和第三层为图卷积层,第二层和第四层为dropout层,为了避免自编码器出现过拟合问题,使用的卷积层数不能太深,否则会导致数据平滑;自编码器的输入层和输出层均为64层;解码器部分有三层全连接层,分别表示模型的均值、方差和稀疏度,代表当前样本中零值的稀疏程度,并将负二项分布结果作为损失函数。

19、所述的bigcn单细胞插补模型,单细胞测序数据的稀疏性较大,不可以使用简单的分布来拟合,由于数据中的零值分布并不均匀,不适合使用泊松分布,负二项分布是目前最接近的一个,本专利技术使用的是基于负二项分布改版的零膨胀负二项分布,使用的结果比起二项分布有一定的提升,bigcn单细胞插补模型具体设置包括以下步骤:

20、步骤s-1,在获取到的双聚类表达矩阵中,第i个细胞在第k个细胞亚群上的表达值为两个细胞之间的连接是通过细胞连接图连接得到,两个细胞相似度计算公式见公式(2)所示,比较了k值为5、10和15三种情况,经过实验比较,设定k=5:

21、

22、式中,i和j分别代表细胞亚群中的细胞,和表示基因在细胞i和细胞j中的表达水平,k代表当前细胞亚群,和代表和的向量,sim代表同一亚群中两个细胞的相似程度,

23、计算后,单细胞表达矩阵中的单个细胞,会与最近的5个细胞一同组成细胞连接图,目标节点与一阶聚合邻居之间为双向箭头,一阶聚合邻居与二阶聚合邻居之间也为双向箭头,使目标节点学习邻居节点信息;

24、步骤s-2,使用gcn实现征提取

25、表达矩阵转化成细胞连接图后,便可以进入图神经网络,通过学习,更新模型的网络节点;每个细胞节点会根据邻居节点的变化而变化,距离中心细胞节点越近,对其影响越大;

26、一阶图卷积更新分为三个阶段,分别是消息发射阶段,消息接收阶段和消息变换阶段,

27、单个细胞节点为r1,它的一阶邻居节点为r2,从中心细胞到一阶邻居的发射函数见公式(3)和(4)所示:

28、

29、式中,fk(1)代表亚群k中第一阶聚合,和分别代表目标节点与一阶邻居节点接收到的消息序列,hk(1)代表亚群k中一阶邻居的发射函数,

30、

31、式中,h1代表第一层的输出结果,h0代表输入层的输出结果,f表示发射函数,表示在第一层的权重矩阵,d表示细胞节点的度矩阵,表示一阶邻居对核心节点的不同影响程度,表示在第一层的权重矩阵,为单个目标节点的输出,σ本文档来自技高网...

【技术保护点】

1.基于双聚类和图卷积神经网络的单细胞测序数据插补方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于双聚类和图卷积神经网络的单细胞测序数据插补方法,其特征在于,所述的步骤2,使用双聚类寻找出基因表达水平变化趋势一致的细胞,具体又包括以下步骤:

3.根据权利要求1所述的基于双聚类和图卷积神经网络的单细胞测序数据插补方法,其特征在于,所述的步骤3,构建BiGCN单细胞插补模型具体又包括以下步骤:

4.根据权利要求1所述的基于双聚类和图卷积神经网络的单细胞测序数据插补方法,其特征在于,所述的自编码器,为四层结构,第一层和第三层为图卷积层,第二层和第四层为Dropout层,为了避免自编码器出现过拟合问题,使用的卷积层数不能太深,否则会导致数据平滑;自编码器的输入层和输出层均为64层;解码器部分有三层全连接层,分别表示模型的均值、方差和稀疏度,代表当前样本中零值的稀疏程度,并将负二项分布结果作为损失函数。

5.根据权利要求1所述的基于双聚类和图卷积神经网络的单细胞测序数据插补方法,其特征在于,所述的BiGCN单细胞插补模型具体设置包括以下步骤:

6.根据权利要求1所述的基于双聚类和图卷积神经网络的单细胞测序数据插补方法,其特征在于,所述的步骤4,利用评价指标进行具体评估的具体做法是:

...

【技术特征摘要】

1.基于双聚类和图卷积神经网络的单细胞测序数据插补方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于双聚类和图卷积神经网络的单细胞测序数据插补方法,其特征在于,所述的步骤2,使用双聚类寻找出基因表达水平变化趋势一致的细胞,具体又包括以下步骤:

3.根据权利要求1所述的基于双聚类和图卷积神经网络的单细胞测序数据插补方法,其特征在于,所述的步骤3,构建bigcn单细胞插补模型具体又包括以下步骤:

4.根据权利要求1所述的基于双聚类和图卷积神经网络的单细胞测序数据插补方法,其特征在于,所述的自编码器,为四层结构,第一层和第三层为图卷积...

【专利技术属性】
技术研发人员:李爱民闫珂费蓉埃里克佰可·凯若夫若斯林·凯琳达拉迪斯拉夫·夏塔萨夫阿丽莎·阿布达利夫赖敬波王薇杨娟余剑波罗晓青牛俊杰王森张颜婷
申请(专利权)人:西安理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1