System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于单细胞转录组数据的细胞间通讯推断方法技术_技高网

基于单细胞转录组数据的细胞间通讯推断方法技术

技术编号:43307581 阅读:2 留言:0更新日期:2024-11-12 16:24
本发明专利技术涉及生物信息学领域,具体公开了一种基于单细胞转录组数据的细胞间通讯推断方法,包括步骤:单细胞数据预处理;基于矩阵分解的联合学习模型;识别基因表达模式及细胞亚群;细胞间通讯的推断统计模型的构建。基于本发明专利技术模型能够有效地探索基因的表达模式,并进一步揭示细胞的身份和功能;结合细胞间和细胞内的相关通讯信号,提出了识别细胞间通讯的推断统计模型。本发明专利技术克服了连接细胞内外的通讯途径难以预测的问题,通过对细胞内部状态和相互关系的深入理解,提高了细胞间通讯网络推断的性能,有助于更全面地理解潜在的生物过程。

【技术实现步骤摘要】

本专利技术涉及生物信息学领域,具体涉及一种基于单细胞转录组数据的细胞间通讯推断方法


技术介绍

1、细胞是构成生物体的基本单位,单细胞转录组测序技术的发展推动了对细胞状态多样性的更深入了解。在多细胞生物中,细胞间的通讯使得多个细胞能够协调工作,形成组织、器官或系统,从而完成各种生物任务。细胞间通讯可以更准确地分析不同细胞类型之间的功能差异、相互识别以及信号传递机制,进而深入了解细胞内部状态和相互关系的复杂性。通过对细胞通讯的研究,揭示了细胞之间微观相互作用的细节,有助于识别特定细胞群在不同生理和病理条件下的反应方式,以及在疾病发展中的角色。这对于个体化医疗、疾病诊断和治疗策略的制定具有重要意义。

2、尽管已经开发了各种计算工具来推断细胞间的通讯,但这些工具主要关注配体-受体对的表达强度及其特异性,通过计算配体和受体的共表达、差异表达和表达相关性来推断细胞间通讯。然而,基于配体和受体对的表达强度来推断细胞间通讯存在一定的局限性。首先,有些受体在细胞中通常以相对稳定的水平表达,并不直接参与细胞间通讯的调控,因此与细胞间的通讯并不密切相关。其次,编码一些表面受体的mrna通常表现为低丰度,这可能导致在单个细胞水平上无法检测到这些受体。另外,细胞间通讯不仅包括细胞间配体和受体间的信号传导,还包括通过特定信号通路的细胞内信号的传递和放大,最终导致下游转录因子和基因调控网络的活性改变。因此,对细胞内部相关的通讯信号及其高度集成和动态性质的全面理解,能够准确揭示不同细胞类型之间的相互作用以及细胞间的信号传递网络,帮助研究人员发现细胞之间更隐蔽的联系和交互关系,加深对细胞功能和调控机制的理解。

3、单细胞数据的复杂性和异质性限制了基因表达模式和细胞动态过程的全面表征。通过从单细胞数据中提取关键特征、识别功能模块,并将细胞按照其相似特征进行聚类,对于全面地理解和解释细胞间通讯的机制和模式至关重要。利用基于矩阵分解的联合学习模型进行特征选择并检测功能基因模块以探索基因的表达模式,同时进行聚类以发现细胞的身份和功能。通过对单细胞数据中信息的全面挖掘,保证了数据分析的一致性和准确性,避免了不同工具间的差异导致的结果解释问题,从而更准确地分析和解释细胞间的通讯。结合细胞身份的注释信息,整合细胞间和细胞内的相关通讯信号,实现对细胞之间通讯网络的推断。通过准确地推断细胞间通讯的方式和机制,可以更好地揭示隐藏在数据中的模式和关联,从而深入理解细胞之间的相互作用。这对于理解疾病发生和发展的过程、发现新的治疗方法以及设计基于细胞信号传导的药物靶点都具有重要意义。


技术实现思路

1、本专利技术的目的是为解决现有的细胞间通讯网络推断工具缺乏预测连接细胞内外的通讯途径的能力,而提出的一种基于单细胞转录组数据的细胞间通讯推断方法,通过生物信息学、计算生物学和机器学习算法的结合,实现对单细胞转录组数据的细胞间通讯网络精确推断。

2、为了实现上述目标,本专利技术采用的技术方案是:

3、一种基于单细胞转录组数据的细胞间通讯推断方法,包括如下步骤:

4、在单细胞数据中,对表达量低的基因进行过滤,所述表达量低的基因即在少于设定的细胞百分比中表达的基因,然后挑选出在不同细胞之间表达量差异显著的基因,所述表达量差异显著的基因即在不同细胞之间标准化方差最高的前设定数量个基因,最后进行正则化预处理,并以矩阵形式记录这些单细胞数据;

5、正则化预处理后的单细胞数据矩阵经投影矩阵分解得到基因投影矩阵、细胞投影矩阵和关联矩阵,依次分别表示投影空间中基因、细胞的表达量和基因与细胞间的关联;进一步使用非负矩阵分解方法处理细胞投影矩阵得到系数矩阵,表示低维空间中的细胞表达量;结合两种分解方法,并对细胞投影矩阵和系数矩阵分别施加稀疏约束和图正则约束,提出基于矩阵分解的联合学习模型;

6、使用基于矩阵分解的联合学习模型实现多种单细胞分析任务的联合学习:利用基因投影矩阵选择代表性基因并确定基因功能模块;利用关联矩阵计算基因功能模块的重要性并对基因功能模块进行排序;利用系数矩阵对单细胞数据进行聚类,并与已知的细胞标记基因进行比对,来识别每个聚类所代表的细胞类型;

7、基于细胞类型识别的结果,分别计算配体和受体在不同类型的细胞间传递的通讯信号的得分以及下游的转录因子及其靶基因在细胞内传递的通讯信号的得分;通过整合细胞间和细胞内的通讯信号,获得基于单细胞转录组数据的细胞间通讯推断模型。

8、较佳地,在单细胞数据中,对表达量低的基因进行过滤,然后挑选出在不同细胞之间表达量差异显著的基因,最后进行正则化预处理,包括如下步骤:

9、1.1)首先,对单细胞数据中表达量低的基因进行过滤,这些基因在少于6%的细胞中表达(默认情况下6%),被认为在聚类过程中不能提供有用的信息,对这类基因进行过滤;

10、1.2)其次,对过滤后的单细胞数据,使用主成分分析方法挑选在不同细胞之间标准化方差最高的前2000个基因,并进行log2正则化,以进行下游分析:

11、xi,j=log2(mi,j+1)  (1)

12、其中,mi,j表示原始单细胞数据中第i个基因在第j个细胞中的表达量,xi,j表示经过归一化的单细胞数据中第i个基因在第j个细胞中的表达量。

13、较佳地,正则化预处理后的单细胞数据矩阵经投影矩阵分解得到基因投影矩阵、细胞投影矩阵和关联矩阵,依次分别表示投影空间中基因、细胞的表达量和基因与细胞间的关联;进一步使用非负矩阵分解方法处理细胞投影矩阵得到系数矩阵,表示低维空间中的细胞表达量;结合两种分解方法,并对细胞投影矩阵和系数矩阵分别施加稀疏约束和图正则约束,提出基于矩阵分解的联合学习模型,包括如下步骤:

14、2.1)使用投影矩阵分解方法进行特征选择,将原始数据映射到一个低维的表示空间中,能够有效地减少数据的维度,同时保留关键的基因特征信息;将输入的单细胞基因表达矩阵x分解为基因投影矩阵u、细胞投影矩阵v和关联矩阵s,从而计算原始特征与选定特征之间的差异:

15、

16、其中,表示froben i us范数;x∈rm×n表示输入的单细胞基因表达矩阵,包含m个基因和n个细胞;基因投影矩阵和细胞投影矩阵分别表示投影空间中基因和细胞的表达量,m为基因的个数,n为细胞的个数;关联矩阵提供了额外的自由度以确保投影矩阵的准确性,k1为分解后的维数;

17、2.2)在特征选择的过程中,对于细胞投影矩阵v,引入稀疏约束项l2,1范数,以消除单细胞数据固有的稀疏性,从而提高算法的准确性;l2,1范数首先计算行向量的l1范数,有助于消除单细胞数据的稀疏性,进而提高算法的可解释性和准确性,随后,对列向量应用l2范数进行计算,可有效减少噪声和异常值对算法的影响,从而提升算法的鲁棒性:

18、

19、其中,数据元素vij代表矩阵v中的第i行第j列的元素值;特征选择的目标公式改写为:

20、

<本文档来自技高网...

【技术保护点】

1.一种基于单细胞转录组数据的细胞间通讯推断方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于单细胞转录组数据的细胞间通讯推断方法,其特征在于,在单细胞数据中,对表达量低的基因进行过滤,然后挑选出在不同细胞之间表达量差异显著的基因,最后进行正则化预处理,包括如下步骤:

3.根据权利要求1所述的一种基于单细胞转录组数据的细胞间通讯推断方法,其特征在于,正则化预处理后的单细胞数据矩阵经投影矩阵分解得到基因投影矩阵、细胞投影矩阵和关联矩阵,依次分别表示投影空间中基因、细胞的表达量和基因与细胞间的关联;进一步使用非负矩阵分解方法处理细胞投影矩阵得到系数矩阵,表示低维空间中的细胞表达量;结合两种分解方法,并对细胞投影矩阵和系数矩阵分别施加稀疏约束和图正则约束,提出基于矩阵分解的联合学习模型,包括如下步骤:

4.根据权利要求1所述的一种基于单细胞转录组数据的细胞间通讯推断方法,其特征在于,使用基于矩阵分解的联合学习模型实现多种单细胞分析任务的联合学习:利用基因投影矩阵选择代表性基因并确定基因功能模块;利用关联矩阵计算基因功能模块的重要性并对基因功能模块进行排序;利用系数矩阵对单细胞数据进行聚类,并与已知的细胞标记基因进行比对,来识别每个聚类所代表的细胞类型,包括如下步骤:

5.根据权利要求1所述的一种基于单细胞转录组数据的细胞间通讯推断方法,其特征在于,基于细胞类型识别的结果,分别计算配体和受体在不同类型的细胞间传递的通讯信号的得分以及下游的转录因子及其靶基因在细胞内传递的通讯信号的得分;通过整合细胞间和细胞内的通讯信号,获得基于单细胞转录组数据的细胞间通讯推断模型,包括如下步骤:

6.根据权利要求5所述的一种基于单细胞转录组数据的细胞间通讯推断方法,其特征在于,所述DcjCommDB参考库收集有5597个人类的配体-受体相互作用,1537个转录因子调节的18421个靶基因,以及1533个受体与其调节的411个转录因子,还收集有5818个小鼠的配体-受体相互作用,1649个转录因子调节的1457个靶基因,以及731个受体与其调节的369个转录因子。

...

【技术特征摘要】

1.一种基于单细胞转录组数据的细胞间通讯推断方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于单细胞转录组数据的细胞间通讯推断方法,其特征在于,在单细胞数据中,对表达量低的基因进行过滤,然后挑选出在不同细胞之间表达量差异显著的基因,最后进行正则化预处理,包括如下步骤:

3.根据权利要求1所述的一种基于单细胞转录组数据的细胞间通讯推断方法,其特征在于,正则化预处理后的单细胞数据矩阵经投影矩阵分解得到基因投影矩阵、细胞投影矩阵和关联矩阵,依次分别表示投影空间中基因、细胞的表达量和基因与细胞间的关联;进一步使用非负矩阵分解方法处理细胞投影矩阵得到系数矩阵,表示低维空间中的细胞表达量;结合两种分解方法,并对细胞投影矩阵和系数矩阵分别施加稀疏约束和图正则约束,提出基于矩阵分解的联合学习模型,包括如下步骤:

4.根据权利要求1所述的一种基于单细胞转录组数据的细胞间通讯推断方法,其特征在于,使用基于矩阵分解的联合学习模型实现多种单细胞分析任务的联合学习:利用基因投影矩阵选...

【专利技术属性】
技术研发人员:蒋庆华丁倩许召春王平平蔡一灯杨文艺薛广富阙锦昊
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1