一种单细胞转录组测序数据的填充方法、存储介质、设备技术

技术编号：43353758 阅读：12 留言：0更新日期：2024-11-19 17:40

本发明专利技术公开一种单细胞转录组测序数据的填充方法、存储介质、设备，涉及生物信息分析技术领域，方法包括：基于单细胞转录组的基因表达矩阵的k均值聚类结果中每个类的基因表达，求每个类的基因表达的期望，得到初始填充矩阵；基于基因表达矩阵得到细胞和基因的相似性矩阵，并构建图正则化非负矩阵分解的目标函数，设计迭代更新规则；通过迭代更新规则迭代后的细胞和基因的相似性矩阵，得到迭代后的填充矩阵；将迭代后的填充矩阵的每个元素与设定的阈值比较，得到元素为0或1的目标矩阵；将迭代后的填充矩阵为0且目标矩阵为1的元素标注为技术零值，得到最终填充矩阵。本发明专利技术可以准确的识别出真实的细胞表达，并对真实的数据进行填充。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及生物信息分析，尤其涉及一种单细胞转录组测序数据的填充方法、存储介质、设备。

技术介绍

1、单细胞转录组测序(single-cell rna sequencing,scrna-seq)是一种强大的技术，用于研究单个细胞中的基因表达。它填补了传统转录组测序技术的空白，使研究人员能够在单细胞水平上揭示基因表达的异质性。

2、单细胞转录组测序技术通过分离单个细胞，从每个细胞中提取rna，并进行高通量测序。与传统的转录组测序相比，scrna-seq可以在单细胞水平上捕获基因表达的动态变化和细胞间的差异。

3、目前由于单细胞转录组测序技术目前发展还不太完善，所以获取的数据还存在许多问题。许多技术噪音会影响scrna-seq数据，其中一个重要特征称为“dropout”，其中基因在一个细胞中适度表达，但在另一个细胞中未检测到。这是因为大多数scrna-seq技术通常需要大量扩增，因为逆转录后rna的转录本可能会在反转录和扩增步骤中丢失，因此在后续测序中无法检测到它们。由技术引起的丢失事件提高了细胞间的变异性，导致信号对每个基因的影响，以及基因-基因和细胞-细胞真实关系的模糊。因此，dropout值的存在将大大降低下游分析的准确性。此外，通过选择性基因表达，单个细胞中存在许多真正未表达的基因，这导致生物零点与技术诱导的零点混淆。区分这两种情况是一个非常重要但尚未完全解决的问题。因此必须通过一些填充方法估算scrna-seq数据中由技术引起的丢失事件。然而，对于海量的生物数据集，仍然没有通用的和有效的填充算法来

4、因此，如何从这些已有数据中挖掘出其所蕴含的有价值的信息进行填充才是科研人员所面临的重要问题。

技术实现思路

1、本专利技术的目的在于：为了解决现有填补技术中不能识别基因不表达的零值对所有零值进行填补的问题，提出一种单细胞转录组测序数据的填充方法，包括以下步骤：

2、s1、获取单细胞转录组基因表达的原始矩阵，将原始矩阵进行预处理，得到预处理矩阵；

3、s2、基于预处理矩阵对细胞进行k均值聚类，根据聚类结果中每个类的基因表达，求每个类的基因表达的期望，得到初始填充矩阵；

4、基于预处理矩阵得到细胞的相似性矩阵和基因的相似性矩阵；

5、s3、根据初始填充矩阵、细胞的相似性矩阵和基因的相似性矩阵构建图正则化非负矩阵分解的目标函数，设计细胞的相似性矩阵和基因的相似性矩阵的迭代更新规则求解目标函数的局部最优解；

6、s4、通过迭代更新规则迭代后的细胞的相似性矩阵和基因的相似性矩阵，得到迭代后的填充矩阵；

7、s5、将迭代后的填充矩阵的每个元素与设定的阈值比较，得到元素为0或1的目标矩阵；

8、s6、将迭代后的填充矩阵与目标矩阵对比，将迭代后的填充矩阵为0且目标矩阵为1的元素标注为技术零值，迭代后的填充矩阵其他元素保留原值，得到最终填充矩阵。

9、进一步地，求每个类的基因表达的期望，得到初始填充矩阵表示为：

10、

11、其中，e(xij)表示初始填充矩阵第i行第j列的基因表达，h表示类的数量，e(xij∣ch)表示第h个类的细胞的第i行第j列的基因表达的期望。

12、进一步地，基于预处理矩阵得到细胞的相似性矩阵和基因的相似性矩阵具体为：

13、利用皮尔逊相关系数构建基因相似性矩阵，具体为：

14、

15、其中，vab表示第a个基因和第b个基因的相似性，xi和yi分别表示第a个基因、第b个基因在第i个细胞中的表达值，和为第a个基因、第b个基因在所有细胞中表达的均值，n表示细胞数量；

16、利用皮尔逊相关系数构建细胞相似性矩阵，具体为：

17、

18、其中，uab表示第a个细胞和第b个细胞的相似性，gi和hi分别表示第i个基因在第a个细胞、第b个细胞中的表达值，和分别表示第a个细胞、第b个细胞所有基因表达量的均值，m表示基因数量。

19、进一步地，根据细胞的相似性矩阵和基因的相似性矩阵构建图正则化非负矩阵分解的目标函数具体为：

20、

21、s.t.u≥0,v≥0

22、其中，y表示初始填充矩阵，u表示细胞相似性矩阵，v表示基因相似性矩阵，‖‖f表示f范数，β表示正则化参数，λc和λg分别表示矩阵u和v的正则化参数，tr()表示求括号中矩阵的迹，lc和lg分别表示矩阵u和v的损失项。

23、进一步地，细胞的相似性矩阵和基因的相似性矩阵的迭代更新规则具体为：

24、

25、其中，uki和vki分别表示u和v的第k行第i列，cor1和cor2分别表示图拉普拉斯矩阵，dc和dg分别关于表示细胞的相似性矩阵和基因的相似性矩阵的对角矩阵，y表示初始填充矩阵，()ki表示括号内得到的矩阵的第k行第i列；

26、通过迭代预设的次数，得到迭代完成的u和v。

27、进一步地，迭代后的填充矩阵表示为：

28、y1＝utv

29、其中，y1表示迭代后的填充矩阵。

30、进一步地，目标矩阵表示为：

31、

32、其中，y*表示目标矩阵，表示目标矩阵的第i行第j列，表示迭代后的填充矩阵的第i行第j列，α表示根据聚类的指标得到的阈值。

33、本专利技术还提出一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述的单细胞转录组测序数据的填充方法。

34、本专利技术还提出一种电子设备，包括处理器和存储器，所述处理器与所述存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括计算机可读指令，所述处理器被配置用于调用所述计算机可读指令，执行上述的单细胞转录组测序数据的填充方法。

35、本专利技术提供的技术方案带来的有益效果是：

36、本专利技术提出本专利技术提出了一种单细胞转录组测序数据填充方法，基于单细胞转录组基因表达的原始矩阵对细胞进行k均值聚类，根据聚类结果中每个类的基因表达，求每个类的基因表达的期望，得到初始填充矩阵；基于单细胞转录组基因表达的原始矩阵得到细胞和基因的相似性矩阵，根据细胞和基因的相似性矩阵构建图正则化非负矩阵分解目标函数，通过迭代规则，得到迭代后的填充矩阵，并将迭代后的填充矩阵每个元素与设定阈值比较，得到目标矩阵；将迭代后的填充矩阵与目标矩阵对比，将迭代后的填充矩阵为0且目标矩阵为1的元素标注为技术零值，其他元素保留原值，得到最终填充矩阵。本专利技术通过以上方法可以准确的识别出真实的细胞表达，并对真实的数据进行填充，可应用到细胞类型以及细胞分化的预测中，为临床医学研究提供技术支持。

本文档来自技高网...

【技术保护点】

1.一种单细胞转录组测序数据的填充方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种单细胞转录组测序数据的填充方法，其特征在于，求每个类的基因表达的期望，得到初始填充矩阵表示为：

3.根据权利要求1所述的一种单细胞转录组测序数据的填充方法，其特征在于，基于预处理矩阵得到细胞的相似性矩阵和基因的相似性矩阵具体为：

4.根据权利要求3所述的一种单细胞转录组测序数据的填充方法，其特征在于，根据细胞的相似性矩阵和基因的相似性矩阵构建图正则化非负矩阵分解的目标函数具体为：

5.根据权利要求4所述的一种单细胞转录组测序数据的填充方法，其特征在于，细胞的相似性矩阵和基因的相似性矩阵的迭代更新规则具体为：

6.根据权利要求5所述的一种单细胞转录组测序数据的填充方法，其特征在于，迭代后的填充矩阵表示为：

7.根据权利要求1所述的一种单细胞转录组测序数据的填充方法，其特征在于，目标矩阵表示为：

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现

9.一种电子设备，其特征在于，包括处理器和存储器，所述处理器与所述存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括计算机可读指令，所述处理器被配置用于调用所述计算机可读指令，执行如权利要求1-7任一项所述的方法。

...

【技术特征摘要】

1.一种单细胞转录组测序数据的填充方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种单细胞转录组测序数据的填充方法，其特征在于，求每个类的基因表达的期望，得到初始填充矩阵表示为：

3.根据权利要求1所述的一种单细胞转录组测序数据的填充方法，其特征在于，基于预处理矩阵得到细胞的相似性矩阵和基因的相似性矩阵具体为：

5.根据权利要求4所述的一种单细胞转录组测序数据的填充方法，其特征在于，细胞的相似性矩阵和基因的相似性矩阵的迭...

【专利技术属性】
技术研发人员：姜霖丰，朱媛，
申请(专利权)人：中国地质大学武汉，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人