基于配对的单细胞多组学数据整合方法及系统技术方案

技术编号：38577834 阅读：11 留言：0更新日期：2023-08-26 23:24

本发明专利技术属于单细胞多组学分析领域，提供了一种基于配对的单细胞多组学数据整合方法及系统，包括获取配对的单细胞多组学数据并进行预处理，得到不同组学的表达矩阵；基于不同组学的表达矩阵，利用预先训练好的伪孪生神经网络模型将不同组学的表达矩阵嵌入在同一维度空间下进行数据整合，得到整合后的单细胞多组学数据；在训练阶段基于不同组学的表达矩阵，利用不同的变分自编码器生成不同的细胞表达矩阵，该数据将有助于得到更好的预先训练好的孪生神经网络模型。本发明专利技术进行配对细胞联合嵌入时，消除了不同批次数据的批次效应问题，且保护了大量生物学信息，使得在低纬空间下的细胞类型分布更加明显，并保持了高水平的细胞对齐关系。齐关系。齐关系。

全部详细技术资料下载

【技术实现步骤摘要】
基于配对的单细胞多组学数据整合方法及系统

[0001]本专利技术属于单细胞多组学分析
，具体涉及一种基于配对的单细胞多组学数据整合方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息，不必然构成在先技术。
[0003]近年来，单细胞多组学测序技术是指在同一个细胞上进行多个组学测量的技术，随着该技术的不断发展和完善，其克服了单一组学可能无法精确解释细胞状态以及异质性的问题，提供了在细胞层面更精细的分子分析，也成为了了解生物体的细胞功能和探究生物体的调控机理的数据基础。
[0004]现有的许多机器学习方法都在尝试通过联合嵌入的方式充分地整合多组学数据，但其大多都是无监督学习。专利技术人发现这类方法虽然可以解决更广泛的多组学联合嵌入问题，但是对于配对的多组学数据往往无法做到更好，因为其没有利用细胞标签的对应关系。而随着测序技术的不断发展，配对的单细胞多组学数据也会越来越多，之前的方法对于处理该类数据上所发挥的效果是有限的，其针对细胞对齐效果、去除批次效应效果和根据细胞类型分群效果的综合表现一般。因此，开发一种专注于处理配对的单细胞多组学数据的整合方法以解决上述问题是必要的。

技术实现思路

[0005]为了解决上述问题，本专利技术提出了一种基于配对的单细胞多组学数据整合方法及系统，本专利技术通过将单细胞多组学数据联合嵌入在同一特征空间，同时尽可能地消除了数据的批次效应问题，并保护了大量生物学信息。从而为多组学的下游分析提供了数据支持。
[00...

【技术保护点】

【技术特征摘要】
1.基于配对的单细胞多组学数据整合方法，其特征在于，包括：获取配对的单细胞多组学数据并进行预处理，得到不同组学的表达矩阵；基于不同组学的表达矩阵，利用预先训练好的伪孪生神经网络模型将不同组学的表达矩阵嵌入在同一维度空间下进行数据整合，得到整合后的单细胞多组学数据；其中，伪孪生神经网络模型的训练过程，具体为：获取配对的单细胞多组学数据并进行预处理，得到不同组学的表达矩阵；对不同组学的表达矩阵，利用不同的预先训练好的变分自编码器生成不同的细胞表达矩阵；利用伪孪生神经网络模型，将不同维度的两两组学的细胞表达矩阵和表达矩阵嵌入在同一维度空间下，得到整合后的单细胞多组学数据；在嵌入维度计算分类损失和三重损失以不断优化伪孪生神经网络模型，得到训练好的伪孪生神经网络模型。2.如权利要求1所述的基于配对的单细胞多组学数据整合方法，其特征在于，所述获取配对的单细胞多组学数据并进行预处理，得到不同组学的表达矩阵，具体为：获取配对的单细胞多组学数据；过滤掉不同组学的细胞中线粒体基因含量高、细胞计数深度浅以及基因表达数据低的细胞；得到不同组学的表达矩阵。3.如权利要求1所述的基于配对的单细胞多组学数据整合方法，其特征在于，所述对不同组学的表达矩阵，利用不同的预先训练好的变分自编码器生成不同的细胞表达矩阵，具体为：将一组学的表达矩阵进行第一次编码并映射，得到一次编码数据；对一次编码数据同时进行两种不同的第二次编码，得到两个二次编码数据；基于两个二次编码数据，通过重参数化的方式采样得到隐变量；对隐变量进行两次解码，得到细胞表达矩阵。4.如权利要求3所述的基于配对的单细胞多组学数据整合方法，其特征在于，所述不同组学的表达矩阵对应不同参数的训练好的变分自编码器；所述变分自编码器的结构相同，包括由一个全连接层组成的第一编码器，第一隐藏层，由两个全连接层组成的第二编码器，由一个全连接层组成的第一解码器，第二隐藏层，由一个全连接层组成的第二解码器。5.如权利要求1所述的基于配对的单细胞多组学数据整合方法，其特征在于，所述利用伪孪生神经网络模型，将不同维度的两两组学的细胞表达矩阵和表达矩阵嵌入在同一维度空间下，得到整合后的单细胞多组学数据，包括：基于不同组学的表达矩阵和细胞表达矩阵，构建不同组学的输入三元组；利用伪孪生神经网络模型，将不同维度的两两组学的输入三元组缩放到...

【专利技术属性】
技术研发人员：刘健，闫乘玮，陈娇，
申请(专利权)人：南开大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人