System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本发属于系统生物学,具体涉及其针对多样本量的bulk转录组和单细胞转录组数据的单样本基因调控网络构建方法。
技术介绍
1、基因调控网络(gene regulatory network,grn)在生物系统和复杂疾病的研究中起着至关重要的作用。它们阐明了基因组序列如何精确地控制基因表达的空间和时间模式,并指定细胞类型特异的功能和相互作用。实验方法帮助我们获得了大量转录因子(transcript factor,tf)与靶基因之间的调控关系。然而,实验技术本身存在一定的限制,人们仍未能揭示完整的全貌。
2、许多计算方法已被开发出来,以从rna测序(rna-seq)和单细胞rna测序(singlecell rna-seq,scrna-seq)数据集中重建grn。这些算法大致可以分为两类:一种是推断整个样本或细胞类型的聚合网络;另一种是构建样本特异性或细胞类型特异性的网络。随着单细胞技术的发展,后者变得愈加重要。单细胞技术的最新进展使得对细胞异质性的高分辨率研究成为可能,从而更深入地理解不同生物过程中的细胞异质性。因此,样本特异性网络(sample specific network,ssn)的应用和发展变得越来越重要。liu等人基于pearson相关性开发了一个基于单个样本的ssn,这是一个线性方法。dai等人首次在单细胞水平上提出了细胞特异性网络,通过研究基因表达的非参数联合分布,保留了两个细胞之间的异质性。wang等人通过考虑细胞群体的混合效应,改进了细胞特异性网络,并开发了局部细胞特异性网络的算法。li等人开发了c-csn
3、然而,仅获得ssn可能不足以揭示细胞发育和疾病进展中的重要变化。最近,差异网络作为识别这些变化的更有效手段而出现。但是,目前构建ssn的算法无法生成差异网络,除了liu等人开发的基于pearson相关的“ssn”,仅适用于线性系统。转录因子调控、受体级联反应、表观遗传修饰、基因组编辑、rna编辑、细胞信号通路和rna干扰等各种生物现象之间的复杂调控关系,都可能以不同程度影响基因表达水平的变化。因此,大多数生物系统中的调控关系并不简单地线性相关。
技术实现思路
1、本专利技术的目的在于提供一种基于互信息理论的单样本基因调控网络构建方法,以克服上述现有技术中的缺陷。
2、本专利技术提供的基于互信息的单样本基因调控网络构建方法,简记为diffmin,具体步骤为:
3、s1:首先对基因表达数据进行预处理,剔除掉基因表达量较低的基因和样本;随后,对基因表达数据进行均匀离散化;
4、s2:在开始计算之前,根据生物学意义,指定一部分样本为背景样本(假设有n1个),剩余样本为前景样本(假设有n2个);通过计算前景样本对背景样本的扰动,得到初始差异网络;
5、s3:分别计算背景样本和添加了扰动样本的互信息相关性网络;其中,样本中任意两个基因x=(x1,x2,x3,...,xn)和基因y=(y1,y2,y3,...,yn)之间计算互信息相关性网络的公式如下:
6、
7、其中,n表示样本的个数,p(x),p(y)分别表示x,y的边缘概率,p(x,y)表示x,y的联合概率。
8、s4:随后,对互信息网络进行标准化,获得标准化之后的样本相关性网络,其标准化计算公式如下:
9、
10、其中,分别表示变量x,y的信息熵。将背景样本计算的互信息网络表示为在背景样本中增加一个前景样本j(j=1,2,...,n2)得到的互信息网络表示为
11、s5:通过计算扰动网络和背景网络之间的差异,识别出由扰动样本引起的网络变化,其计算公式如下:
12、
13、其中,j表示其中的第j个待计算的前景样本;
14、s6:针对背景样本个体网络的计算,采用近似的方式,但不同的是,每次将背景群体中移除单个样本i,i=1,2,...,n1,计算移除单个样本之后对于整体网络的扰动变化;其计算公式如下:
15、
16、其中,i表示其中的第i个待计算的背景样本;
17、s7:采用随机置换检验的方法对网络的边进行显著性检验,获取网络的边的显著性值(称为p值);通过随机打乱基因分布的方式对随机网络进行构建,具体方法为,保持样本的顺序不变,分别随机打乱每一个基因的表达水平,在保持其基因分布不变的情况下,构建出新的随机网络;
18、s8:按照上述同样的方法,计算随机网络的差异网络。并采用随机置换检验的方法,对计算出的真实的网络的边进行置换检验。
19、基于上述单样本基因调控网络构建方法,本专利技术还包括单样本调控网络构建系统。该系统具体包括8个模块,分别是:基因表达数据预处理模块,初始差异网络计算模块,互信息相关性网络计算模块,样本相关性网络计算模块,网络扰动变化计算模块,整体网络扰动变化计算模块,随机网络构建模块,随机网络的差异网络计算模块。这8个模块分别执行上述单样本调控网络构建方法中8个步骤的具体操作。
20、本专利技术采用的互信息(mi)技术,已被证明在测量生物系统中的基因表达调控方面具有优势。
21、本专利技术提供的diffmin,对各种单细胞数据集的分析表明,在细胞聚类方面优于现有的ssn算法,并且比仅基于基因表达的聚类更有效。本专利技术成功地将diffmin应用于横向主动脉缩窄(transverse aortic constriction,tac)单细胞数据,构建了压力超负荷的差异网络,并识别出心力衰竭过程中调控网络的单调变化。本专利技术还将diffmin应用于来自癌症基因组图谱(the cancer genome atlas,tcga)的乳腺癌样本,发现其能够识别与预后强相关但表达差异不显著的关键基因。总体而言,本专利技术方法具有广泛的适用性,在细胞聚类、关键基因识别、生物过程研究和疾病诊断中表现良好。
22、与现有技术相比,本专利技术的技术特点和性能优势主要有:
23、(1)具有较强的灵活性,能够根据研究目的的不同构建出不同的单样本基因调控网络。识别差异网络的第一步是选择一个背景组,然后逐个添加样本,以识别个体样本对背景网络的影响。背景组的选择显著影响网络构建,同时也为研究生物现象的研究人员提供了灵活性。例如,如果研究人员希望调查不同发育状态下细胞的调控网络,可以使用初始发育状态作为背景组。或者,如果研究人员对其他细胞类型与特定细胞类型之间的调控网络差异感兴趣,可以将特定细胞类型作为背景组。总之,选择不同的背景组可以满足不同的研究需求。
24、(2)利用非线性的方法更加真实的衡量生物学网络。作为识别非线性模型的方法,互信息在评估复杂生物网络方面比线性模型方法更有效。基因激活、表达增强、正负反馈以及级联反应往往表现出复杂的非线性相关性。
本文档来自技高网...【技术保护点】
1.一种基于互信息的单样本基因调控网络构建方法,其特征在于,具体步骤为:
【技术特征摘要】
1.一种基于互信息的单样本基因调控网...
【专利技术属性】
技术研发人员:史际帆,赵娟,艾凇玮,邹文葵,柳家振,孙毅,杨伟,林伟,
申请(专利权)人:复旦大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。