System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于单细胞数据分析,具体涉及一种基于reeb图的单细胞伪轨迹拓扑识别方法。
技术介绍
1、单细胞分析的最新技术进步允许测量生物体在增殖和分化的许多阶段中的单细胞转录谱。挑战在于设计能够自动重建细胞分化途径的计算技术和建模方法,根据细胞的转录组水平对单个细胞进行排序,并识别分支谱系上的轨迹行为。
2、由于单细胞数据具有高统计噪声水平、高维基因表达空间和非线性等特征基于scrna-seq数据分析细胞分化、细胞命运发育和决策等动态过程的伪轨迹推断建模主要分为三类。
3、第一类轨迹推断方法基于最小生成树(minimum spanning tree,mst)算法推断细胞分化轨迹。monocle算法在单个细胞上利用mst算法寻找最长路径并据此分配每个细胞的伪时间;monocle2算法使用mst学习细胞轨迹,通过将细胞向mst中最近的顶点移动来更新细胞位置,直到细胞轨迹和最终位置稳定,最后根据细胞到根顶点沿mst的测地距离获取细胞的伪时间。tscan算法和waterfall算法构建基于细胞簇的mst,通过正交投影方法来对细胞进行排序,整体上降低mst算法的总计算量。slingshot算法使用mst构造轨迹,提出了一种联合主曲线算法构造光滑曲线,然后将细胞投影到光滑曲线上而不是mst的边缘上来计算细胞伪时间。
4、第二类是基于图模型的轨迹推断方法。扩散伪时间(dpt)算法采用加权k-最近邻(knn)算法构造细胞的运动轨迹,引入了十种扩散算法来计算细胞在“扩散映射空间”中的伪时间。paga算法通过选择
5、第三类是rna速度辅助的轨迹推断方法。vetra算法利用rna速度向量构建多个有向图基于细胞的k个最近邻来确定细胞的过渡状态,通过构建独立的细胞转换路径识别弱连通分支,最后对这些过渡路径进行聚类共同获得轨迹。cytopath算法结合细胞间转移概率矩阵和细胞状态构建多个模拟轨迹,利用rna速度来推断细胞分化轨迹的根和末端状态。
6、然而,在进行轨迹推断时,通常根据先验信息获取某个细胞或某类型细胞是轨迹的起点,使用剩余的单个细胞或细胞簇与起始点之间的相对关系(如最短路径长度)作为构建轨迹的附加信息,仅使用起点信息来推断所有细胞伪时刻,轨迹推断的合理性和稳定性有待提升。morse函数定义在形状和流形上,其临界点的hessian矩阵(morse函数的一阶导数为0)均退化。reeb图揭示了流形的拓扑结构和基于莫尔斯函数的形状。
技术实现思路
1、本专利技术的目的在于提出一种无监督算法,称为sctrrg(单细胞拓扑识别与reeb图),用于沿拓扑结构重建高分辨率的发展路径。该方法利用多维单细胞数据作为输入,构建细胞之间的网络关系,定义morse函数来识别关键的起始命运和分叉细胞,并通过reeb图根据其拓扑结构推断多分支细胞命运中的轨迹。通过两个模拟数据集,证明了sctrrg可以成功地识别出它们不同的多分支结构,并具有合理的起始点和分支点。进一步将sctrrg应用于两个已发表的单细胞rna-seq数据集,sctrrg准确地恢复了小鼠胚胎和神经干细胞发育中已知的细胞谱系。
2、为了实现上述的技术效果,为了实现上述目的,本专利技术第一方面提供一种基于reeb图的单细胞伪轨迹拓扑识别方法,包括:
3、s1:预处理单细胞转录数据集,得到单细胞基因表达矩阵;
4、s2:基于s1的单细胞基因表达矩阵,构建优化模型,进一步构建单细胞连通网络,进行细胞群识别;
5、s3:在s2的基础上,结合细胞的morse函数分布和等价类定义,提取单细胞reeb图;
6、s4:在s3的基础上,结合morse函数最值,识别reeb图中的关键节点,推断细胞分化的中间阶段和始末状态,度量细胞在网络和等价类中的距离影响,识别细胞伪轨迹。
7、优选的,s2包括:
8、s2.1:构建优化模型:
9、
10、s.t.aty=y;
11、
12、y=(1,1,…,1)t
13、其中,a对应单细胞连通网络的邻接矩阵,x为单细胞基因表达矩阵,||·||*是核范数,||·||2,1是所有列的欧氏范数之和,非负参数λ用于平衡核范数和欧氏范数;线性约束aty=y保持数据平移变换的不变性,y是长度为n的向量,表示第i个细胞和第j个细胞不是近邻结构;
14、采用交替方向乘子法admm求解s2.1的优化模型,采用k-近邻算法knn确定细胞的近邻网络g,k的选择基于bic原则;约定aopt中非零值为1,得到0-1单细胞相似网络aopt;
15、s2.2:基于s2.1的相似网络aopt,构建单细胞连通网,进行细胞群识别:
16、
17、通过最大值法将0-1单细胞相似网络aopt转换为单细胞对称网络z,λl是l按大小排列顺序的第l个特征值,p为相邻两个特征值的最大绝对值差所对应的下标,用于识别细胞群数目,结合谱聚类算法识别获得p个细胞群,即c1,c2,…cp;当z为非连通网络时,dis表示欧式距离函数,分别表示u类细胞群中的第i个细胞和v类细胞群中的第j个细胞,计算细胞群中细胞之间最小的欧式距离对应的两个细胞其中i*,j*分别为在整个网络对应的细胞顺序,由此将z逐步更新为单细胞连通网络;对于两个细胞群中存在连边的情况zij=1,则两个细胞群间存在连边,进一步得到细胞群与细胞群之间的细胞群连通网络cc。
18、优选的,s3包括:
19、s3.1:单细胞morse函数分布为:
20、
21、其中u(ci,cj)是非连通网络z中第i个细胞和第j个细胞间的几何距离,利用dijkstra算法近似获得,将函数fi归一化至以保持f值相对于网格尺度的不变性,n为细胞数目;
22、s3.2:提取单细胞reeb图rf:
23、
24、rf=g(vr,er)
25、
26、其中,和分别表示第i类细胞群中第u和第v个细胞的平均测地线距离,d表示误差,表示同一个细胞群内的等价关系定义为morse函数差值在很小的误差内;
27、基于等价类的定义,根据单细胞连通网络提取reeb图rf,rf的vr节点由等价类中的代表性节点确定,rf连边集er的边是否存在由两个等价类[p]和[q]中细胞在连通网络z中的连通性决定,若存在s细胞和t细胞相连,as,t≠0,er的[p]、[q]等本文档来自技高网...
【技术保护点】
1.一种基于Reeb图的单细胞伪轨迹拓扑识别方法,其特征在于:包括:
2.根据权利要求1所述的一种基于Reeb图的单细胞伪轨迹拓扑识别方法,其特征在于:S2包括:
3.根据权利要求2所述的一种基于Reeb图的单细胞伪轨迹拓扑识别方法,其特征在于:S3包括:
4.根据权利要求3所述的一种基于Reeb图的单细胞伪轨迹拓扑识别方法,其特征在于:S4包括:
5.一种基于Reeb图的单细胞伪轨迹拓扑识别装置,其特征在于:基于权利要求1-4任一项所述的基于Reeb图的单细胞伪轨迹拓扑识别方法构建而成。
6.一种基于Reeb图的单细胞伪轨迹拓扑识别设备,其特征在于:所述控制设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1-4任一项所述的基于Reeb图的单细胞伪轨迹拓扑识别方法。
7.一种计算机可读存储介质,其特征在于,所述存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1-4任一项所述的基于Reeb图的单细胞伪轨迹拓扑识别方法。
【技术特征摘要】
1.一种基于reeb图的单细胞伪轨迹拓扑识别方法,其特征在于:包括:
2.根据权利要求1所述的一种基于reeb图的单细胞伪轨迹拓扑识别方法,其特征在于:s2包括:
3.根据权利要求2所述的一种基于reeb图的单细胞伪轨迹拓扑识别方法,其特征在于:s3包括:
4.根据权利要求3所述的一种基于reeb图的单细胞伪轨迹拓扑识别方法,其特征在于:s4包括:
5.一种基于reeb图的单细胞伪轨迹拓扑识别装置,其特征在于:基于权利要求1-4任一项所述的基...
【专利技术属性】
技术研发人员:郑晓颖,张伟,吴晶,申娟,李真龙,
申请(专利权)人:武汉工程大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。