空间单细胞注释模型的训练方法、装置、设备及存储介质制造方法及图纸

技术编号：44489441 阅读：0 留言：0更新日期：2025-03-04 17:54

本发明专利技术适用生物信息学领域，提供了一种空间单细胞注释模型的训练方法，该方法包括：采用图神经网络和度量学习相结合的模型构建策略构建空间单细胞注释模型，该空间单细胞注释模型的模型结构包括空间邻居图构造模块、三元组构造模块、编码器模块、以及用于训练用的解码器模块，使用单细胞样本集合对空间单细胞注释模型进行无监督学习训练，并在训练过程中迭代地更新空间单细胞注释模型的模型参数以最小化空间单细胞注释模型的目标损失函数，直至目标损失函数收敛，从而提高了对空间单细胞注释模型的训练效果，进而提高了空间单细胞注释模型对空间分辨的单细胞数据进行细胞类型的识别和注释的准确性，有助于揭示细胞在组织中的空间分布和功能特性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于生物信息学领域，尤其涉及一种空间单细胞注释模型的训练方法、装置、设备及存储介质。

技术介绍

1、空间转录组技术和空间多组学是现代生物学研究中的两个重要领域，它们在揭示生物系统的复杂性和异质性方面发挥着关键作用。其中，空间转录组学是将空间信息与细胞转录组结合，研究基因表达的空间分布，揭示细胞的空间排布、核糖核酸（ribonucleicacid，rna）的原位表达及衰老过程复杂性和异质性的科学，该技术通过测量完整组织切片的总信使核糖核酸（messenger ribonucleic acid，mrna），将总mrna的空间信息与形态学内容相结合，以明确定量和定位组织中的细胞，并绘制所有基因表达发生的位置。它利用特异性设计的探针或引物，对组织样本进行基因表达的检测，这些探针或引物可以与靶基因的特定区域结合，并携带荧光标记或分子条形码。通过原位荧光成像技术，可以在组织切片或器官的特定区域中观察到这些荧光标记或条形码，从而确定基因表达的位置和强度。空间多组学是通过整合多种组学数据（如基因组、转录组、蛋白质组、代谢组等），对生物样本中的多种生物分子信息进行全面解析的技术，该技术利用多种高通量测序和成像技术，同时获取生物样本中多种生物分子的空间分布和表达信息，这些数据可以在单一框架下进行整合和分析，以揭示生物系统的功能和调控机制。

2、空间转录组技术相较于空间多组学，主要缺点在于数据的单一性，局限于mrna表达，缺乏对蛋白质组、表观基因组等多种生物分子信息的覆盖。单独的mrna数据难以全面反映细胞的真实功能状态，尤其是

技术实现思路

1、本专利技术的目的在于提供一种空间单细胞注释模型的训练方法、装置、设备及存储介质，旨在解决由于现有技术导致对空间单细胞注释的准确性低的问题。

2、一方面，本专利技术提供了一种空间单细胞注释模型的训练方法，所述方法包括下述步骤：

3、采用图神经网络和度量学习相结合的模型构建策略构建空间单细胞注释模型，其中，所述空间单细胞注释模型的模型结构包括空间邻居图构造模块、三元组构造模块、编码器模块、以及用于训练用的、与所述编码器模块对应的解码器模块；

4、使用单细胞样本集合对所述空间单细胞注释模型进行无监督学习训练，并在训练过程中迭代地更新所述空间单细胞注释模型的模型参数以最小化所述空间单细胞注释模型的目标损失函数，直至所述目标损失函数收敛。

5、优选地，使用单细胞样本集合对所述空间单细胞注释模型进行无监督学习训练，并在训练过程中迭代地更新所述空间单细胞注释模型的模型参数以最小化所述空间单细胞注释模型的目标损失函数的步骤，包括：

6、根据所述单细胞样本集合中每个单细胞样本的空间坐标数据，通过所述空间邻居图构造模块为所述单细胞样本集合生成对应的空间邻居图；

7、根据所述单细胞样本集合中每个单细胞样本的多组学表达数据和所述空间邻居图，通过所述三元组构造模块生成若干模态三元组，其中，每个所述模态三元组均由锚点、正样本及负样本构成；

8、根据所述多组学表达数据，通过所述编码器模块对所述空间邻居图中的每个节点进行编码，生成各所述节点对应的多组学特征嵌入；

9、根据所述多组学特征嵌入，通过所述解码器模块对所述空间邻居图中的每个节点进行解码，生成各所述节点对应的节点重构特征；

10、根据所述多组学表达数据、所述模态三元组及所述节点重构特征，计算所述目标损失函数的目标损失值，并根据所述目标损失值更新所述模型参数，以最小化所述目标损失函数。

11、优选地，所述目标损失函数包括三元组损失函数和重构损失函数，其中，所述重构损失函数用于通过最小化所述多组学表达数据与所述节点重构特征之间的差异来优化所述空间单细胞注释模型，所述三元组损失函数用于通过最小化所述锚点与所述正样本之间的距离、并最大化所述锚点与所述负样本之间的距离来优化所述空间单细胞注释模型。

12、优选地，所述编码器模块和所述解码器模块均包含sageconv层。

13、优选地，通过所述编码器模块对所述空间邻居图中的每个节点进行编码的步骤，包括：

14、对于所述空间邻居图中的每个节点，随机采样预设数量的邻居节点；

15、利用所述sageconv层将每个所述节点的节点特征与其对应的、采样得到的所有所述邻居节点的节点特征进行聚合，生成每个所述节点对应的所述多组学特征嵌入。

16、另一方面，本专利技术提供了一种空间单细胞注释模型的训练装置，所述装置包括：

17、注释模型构建单元，用于采用图神经网络和度量学习相结合的模型构建策略构建空间单细胞注释模型，其中，所述空间单细胞注释模型的模型结构包括空间邻居图构造模块、三元组构造模块、编码器模块、以及用于训练用的、与所述编码器模块对应的解码器模块；

18、注释模型训练单元，用于使用单细胞样本集合对所述空间单细胞注释模型进行无监督学习训练，并在训练过程中迭代地更新所述空间单细胞注释模型的模型参数以最小化所述空间单细胞注释模型的目标损失函数，直至所述目标损失函数收敛。

19、优选地，所述注释模型训练单元包括：

20、邻居图生成单元，用于根据所述单细胞样本集合中每个单细胞样本的空间坐标数据，通过所述空间邻居图构造模块为所述单细胞样本集合生成对应的空间邻居图；

21、三元组生成单元，用于根据所述单细胞样本集合中每个单细胞样本的多组学表达数据和所述空间邻居图，通过所述三元组构造模块生成若干模态三元组，其中，每个所述模态三元组均由锚点、正样本及负样本构成；

22、特征嵌入生成单元，用于根据所述多组学表达数据，通过所述编码器模块对所述空间邻居图中的每个节点进行编码，生成各所述节点对应的多组学特征嵌入；

23、重构特征生本文档来自技高网...

【技术保护点】

1.一种空间单细胞注释模型的训练方法，其特征在于，所述方法包括下述步骤：

2.如权利要求1所述的方法，其特征在于，使用单细胞样本集合对所述空间单细胞注释模型进行无监督学习训练，并在训练过程中迭代地更新所述空间单细胞注释模型的模型参数以最小化所述空间单细胞注释模型的目标损失函数的步骤，包括：

3.如权利要求2所述的方法，其特征在于，所述目标损失函数包括三元组损失函数和重构损失函数，其中，所述重构损失函数用于通过最小化所述多组学表达数据与所述节点重构特征之间的差异来优化所述空间单细胞注释模型，所述三元组损失函数用于通过最小化所述锚点与所述正样本之间的距离、并最大化所述锚点与所述负样本之间的距离来优化所述空间单细胞注释模型。

4.如权利要求2所述的方法，其特征在于，所述编码器模块和所述解码器模块均包含SAGEConv层。

5.如权利要求4所述的方法，其特征在于，通过所述编码器模块对所述空间邻居图中的每个节点进行编码的步骤，包括：

6.一种空间单细胞注释模型的训练装置，其特征在于，所述装置包括：

7.如权利要求6所述

8.如权利要求7所述的装置，其特征在于，所述目标损失函数包括三元组损失函数和重构损失函数，其中，所述重构损失函数用于通过最小化所述多组学表达数据与所述节点重构特征之间的差异来优化所述空间单细胞注释模型，所述三元组损失函数用于通过最小化所述锚点与所述正样本之间的距离、并最大化所述锚点与所述负样本之间的距离来优化所述空间单细胞注释模型。

9.一种计算设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。

...

【技术特征摘要】

1.一种空间单细胞注释模型的训练方法，其特征在于，所述方法包括下述步骤：

4.如权利要求2所述的方法，其特征在于，所述编码器模块和所述解码器模块均包含sageconv层。

5.如权利要求4所述的方法，其特征在于，通过所述编码器模块对所述空间邻居图中的每个节点进行编码的步骤...

【专利技术属性】
技术研发人员：杜智华，陈麒亦，
申请(专利权)人：深圳大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人