当前位置: 首页 > 专利查询>南开大学专利>正文

基于配对的单细胞多组学数据整合方法及系统技术方案

技术编号:38577834 阅读:11 留言:0更新日期:2023-08-26 23:24
本发明专利技术属于单细胞多组学分析领域,提供了一种基于配对的单细胞多组学数据整合方法及系统,包括获取配对的单细胞多组学数据并进行预处理,得到不同组学的表达矩阵;基于不同组学的表达矩阵,利用预先训练好的伪孪生神经网络模型将不同组学的表达矩阵嵌入在同一维度空间下进行数据整合,得到整合后的单细胞多组学数据;在训练阶段基于不同组学的表达矩阵,利用不同的变分自编码器生成不同的细胞表达矩阵,该数据将有助于得到更好的预先训练好的孪生神经网络模型。本发明专利技术进行配对细胞联合嵌入时,消除了不同批次数据的批次效应问题,且保护了大量生物学信息,使得在低纬空间下的细胞类型分布更加明显,并保持了高水平的细胞对齐关系。齐关系。齐关系。

【技术实现步骤摘要】
基于配对的单细胞多组学数据整合方法及系统


[0001]本专利技术属于单细胞多组学分析
,具体涉及一种基于配对的单细胞多组学数据整合方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]近年来,单细胞多组学测序技术是指在同一个细胞上进行多个组学测量的技术,随着该技术的不断发展和完善,其克服了单一组学可能无法精确解释细胞状态以及异质性的问题,提供了在细胞层面更精细的分子分析,也成为了了解生物体的细胞功能和探究生物体的调控机理的数据基础。
[0004]现有的许多机器学习方法都在尝试通过联合嵌入的方式充分地整合多组学数据,但其大多都是无监督学习。专利技术人发现这类方法虽然可以解决更广泛的多组学联合嵌入问题,但是对于配对的多组学数据往往无法做到更好,因为其没有利用细胞标签的对应关系。而随着测序技术的不断发展,配对的单细胞多组学数据也会越来越多,之前的方法对于处理该类数据上所发挥的效果是有限的,其针对细胞对齐效果、去除批次效应效果和根据细胞类型分群效果的综合表现一般。因此,开发一种专注于处理配对的单细胞多组学数据的整合方法以解决上述问题是必要的。

技术实现思路

[0005]为了解决上述问题,本专利技术提出了一种基于配对的单细胞多组学数据整合方法及系统,本专利技术通过将单细胞多组学数据联合嵌入在同一特征空间,同时尽可能地消除了数据的批次效应问题,并保护了大量生物学信息。从而为多组学的下游分析提供了数据支持。
[0006]根据一些实施例,本专利技术的第一方案提供了一种基于配对的单细胞多组学数据整合方法,采用如下技术方案:
[0007]基于配对的单细胞多组学数据整合方法,包括:
[0008]获取配对的单细胞多组学数据并进行预处理,得到不同组学的表达矩阵;
[0009]基于不同组学的表达矩阵,利用预先训练好的伪孪生神经网络模型将不同组学的表达矩阵嵌入在同一维度空间下进行数据整合,得到整合后的单细胞多组学数据;
[0010]其中,伪孪生神经网络模型的训练过程,具体为:
[0011]获取配对的单细胞多组学数据并进行预处理,得到不同组学的表达矩阵;
[0012]对不同组学的表达矩阵,利用不同的预先训练好的变分自编码器生成不同的细胞表达矩阵;
[0013]利用伪孪生神经网络模型,将不同维度的两两组学的细胞表达矩阵和表达矩阵嵌入在同一维度空间下,得到整合后的单细胞多组学数据;
[0014]在嵌入维度计算分类损失和三重损失以不断优化伪孪生神经网络模型,得到训练
好的伪孪生神经网络模型。
[0015]进一步地,所述获取配对的单细胞多组学数据并进行预处理,得到不同组学的表达矩阵,具体为:
[0016]获取配对的单细胞多组学数据;
[0017]过滤掉不同组学的细胞中线粒体基因含量高、细胞计数深度浅以及基因表达数据低的细胞;
[0018]得到不同组学的表达矩阵。
[0019]进一步地,所述对不同组学的表达矩阵,利用不同的预先训练好的变分自编码器生成不同的细胞表达矩阵,具体为:
[0020]将一组学的表达矩阵进行第一次编码并映射,得到一次编码数据;
[0021]对一次编码数据同时进行两种不同的第二次编码,得到两个二次编码数据;
[0022]基于两个二次编码数据,通过重参数化的方式采样得到隐变量;
[0023]对隐变量进行两次解码,得到细胞表达矩阵。
[0024]进一步地,所述不同组学的表达矩阵对应不同参数的训练好的变分自编码器;
[0025]所述变分自编码器的结构相同,包括由一个全连接层组成的第一编码器,第一隐藏层,由两个全连接层组成的第二编码器,由一个全连接层组成的第一解码器,第二隐藏层,由一个全连接层组成的第二解码器。
[0026]进一步地,所述利用伪孪生神经网络模型,将不同维度的两两组学的细胞表达矩阵和表达矩阵嵌入在同一维度空间下,得到整合后的单细胞多组学数据,包括:
[0027]基于不同组学的表达矩阵和细胞表达矩阵,构建不同组学的输入三元组;
[0028]利用伪孪生神经网络模型,将不同维度的两两组学的输入三元组缩放到同一维度空间下;
[0029]通过公有的嵌入单元将同一维度空间下的编码结果再嵌入到需要的公共低维空间,得到整合后的单细胞多组学数据;
[0030]在输入三元组对应的细胞类型可知的情况下,利用一个由全连接层组成的分类器在该维度进行细胞类型的分类以学习细胞类型的特征。
[0031]进一步地,所述基于不同组学的表达矩阵和细胞表达矩阵,构建不同组学的输入三元组,具体为:
[0032]锚细胞选取第一组学中任意行的行表达矩阵;
[0033]则正例细胞选取与锚细胞行标签一一对应的第二组学中的行表达矩阵;
[0034]而负例细胞选取与锚细胞行标签保持完全不同的第二组学中的行表达矩阵;
[0035]基于锚细胞、正例细胞以及负例细胞,构成不同组学的输入三元组。
[0036]进一步地,所述伪孪生神经网络模型的结构,包括两个独立的编码器分别处理不同的两个组学数据,公有的嵌入单元以及一个由全连接层组成的分类器。
[0037]根据一些实施例,本专利技术的第二方案提供了一种基于配对的单细胞多组学数据整合系统,采用如下技术方案:
[0038]基于配对的单细胞多组学数据整合系统,包括:
[0039]数据获取模块,被配置为获取配对的单细胞多组学数据并进行预处理,得到不同组学的表达矩阵;
[0040]数据整合模块,被配置为基于不同组学的表达矩阵,利用预先训练好的伪孪生神经网络模型将不同组学的表达矩阵嵌入在同一维度空间下进行数据整合,得到整合后的单细胞多组学数据;
[0041]其中,伪孪生神经网络模型的训练过程,具体为:
[0042]获取配对的单细胞多组学数据并进行预处理,得到不同组学的表达矩阵;
[0043]对不同组学的表达矩阵,利用不同的预先训练好的变分自编码器生成不同的细胞表达矩阵;
[0044]利用伪孪生神经网络模型,将不同维度的两两组学的细胞表达矩阵和表达矩阵嵌入在同一维度空间下,得到整合后的单细胞多组学数据;
[0045]在嵌入维度计算分类损失和三重损失以不断优化伪孪生神经网络模型,得到训练好的伪孪生神经网络模型。
[0046]根据一些实施例,本专利技术的第三方案提供了一种计算机可读存储介质。
[0047]一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一个方面所述的基于配对的单细胞多组学数据整合方法中的步骤。
[0048]根据一些实施例,本专利技术的第四方案提供了一种计算机设备。
[0049]一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一个方面所述的基于配对的单细胞多本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于配对的单细胞多组学数据整合方法,其特征在于,包括:获取配对的单细胞多组学数据并进行预处理,得到不同组学的表达矩阵;基于不同组学的表达矩阵,利用预先训练好的伪孪生神经网络模型将不同组学的表达矩阵嵌入在同一维度空间下进行数据整合,得到整合后的单细胞多组学数据;其中,伪孪生神经网络模型的训练过程,具体为:获取配对的单细胞多组学数据并进行预处理,得到不同组学的表达矩阵;对不同组学的表达矩阵,利用不同的预先训练好的变分自编码器生成不同的细胞表达矩阵;利用伪孪生神经网络模型,将不同维度的两两组学的细胞表达矩阵和表达矩阵嵌入在同一维度空间下,得到整合后的单细胞多组学数据;在嵌入维度计算分类损失和三重损失以不断优化伪孪生神经网络模型,得到训练好的伪孪生神经网络模型。2.如权利要求1所述的基于配对的单细胞多组学数据整合方法,其特征在于,所述获取配对的单细胞多组学数据并进行预处理,得到不同组学的表达矩阵,具体为:获取配对的单细胞多组学数据;过滤掉不同组学的细胞中线粒体基因含量高、细胞计数深度浅以及基因表达数据低的细胞;得到不同组学的表达矩阵。3.如权利要求1所述的基于配对的单细胞多组学数据整合方法,其特征在于,所述对不同组学的表达矩阵,利用不同的预先训练好的变分自编码器生成不同的细胞表达矩阵,具体为:将一组学的表达矩阵进行第一次编码并映射,得到一次编码数据;对一次编码数据同时进行两种不同的第二次编码,得到两个二次编码数据;基于两个二次编码数据,通过重参数化的方式采样得到隐变量;对隐变量进行两次解码,得到细胞表达矩阵。4.如权利要求3所述的基于配对的单细胞多组学数据整合方法,其特征在于,所述不同组学的表达矩阵对应不同参数的训练好的变分自编码器;所述变分自编码器的结构相同,包括由一个全连接层组成的第一编码器,第一隐藏层,由两个全连接层组成的第二编码器,由一个全连接层组成的第一解码器,第二隐藏层,由一个全连接层组成的第二解码器。5.如权利要求1所述的基于配对的单细胞多组学数据整合方法,其特征在于,所述利用伪孪生神经网络模型,将不同维度的两两组学的细胞表达矩阵和表达矩阵嵌入在同一维度空间下,得到整合后的单细胞多组学数据,包括:基于不同组学的表达矩阵和细胞表达矩阵,构建不同组学的输入三元组;利用伪孪生神经网络模型,将不同维度的两两组学的输入三元组缩放到...

【专利技术属性】
技术研发人员:刘健闫乘玮陈娇
申请(专利权)人:南开大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1