基于迁移学习的分布式转录调控网络大模型构建方法技术

技术编号：44132359 阅读：23 留言：0更新日期：2025-01-24 22:52

本发明专利技术公开了基于迁移学习的分布式转录调控网络大模型构建方法，以有文献支撑的可靠转录调控先验关系作为分布式子网络输入变量和输出变量的选择依据，利用迁移学习思想进行模型训练，以获取转录过程中的调控关系，包括以下步骤：步骤S1，通过转录调控先验知识获取转录调控关系；步骤S2，构建分布式转录调控网络大模型；步骤S3，在泛转录组数据上进行模型预训练；步骤S4，采用时序数据集，对模型进行微调以得到特异性分布式大模型；步骤S5，根据数据特征制定预测结果的评价指标。采用本方法，可以实现转录调控关系方向的预测，进一步指导靶基因表达水平的调控，加快转录调控关系的相关研究。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及生物科学与人工智能交叉领域，尤其涉及基于迁移学习的分布式转录调控网络大模型构建方法。

技术介绍

1、转录调控是细胞代谢活动的核心调节机制之一。真核细胞中大量转录因子和靶基因之间的相互作用组成了极其庞大复杂的转录调控网络，用于维持细胞代谢稳态和调控细胞代谢分化。鉴于真核细胞中转录调控网络的极端复杂性和多变性，亟需在系统和全局水平开展转录调控网络基础模型搭建，以精准解析基因调控机制，并在系统水平上解析细胞衰老、肿瘤发生等重要生命活动背后的分子机理。因此开展真核细胞转录调控网络基础模型构建对我国精准医学和健康产业发展具有重大研究意义。

2、目前转录调控网络构建方法可分为机理建模和数据驱动建模。机理建模的方法指的是从一组核心转录调控网络的先验知识出发，应用数学模型或信号通路来模拟基因的动态表达过程。对于已经得到广泛研究的细胞和系统来说，积累的大量知识有助于构建效果较好的转录调控网络模型。然而，截止目前，细胞中转录调控关系尚未完全解析，其如何响应外界环境刺激仍不得而知。因此基于机理的转录调控网络建模策略存在着明显缺陷。数据驱动的构建方法是指基于全基因组或转录组学数据，采用机器学习或统计的方法来大规模的推断转录调控网络。这种数据驱动的方法在没有充足的先验调控关系知识但已有大量的转录组学数据的情况下，可以推断可能的基因相互作用，并预测影响关键功能或调控关系的基因靶点。然而，两种构建方法都存在着一些局限性，无法对转录调控过程实现准确的模拟。因此，采用机理与数据融合驱动的方法，可以充分利用已知的转录调控先验知识，并更好的

3、转录调控过程中的一个关键问题是找到转录因子对应靶基因的调控方向，这将决定当需要对某个靶基因的表达水平进行调控时，需要将对应的转录因子增强或是抑制。但是，由于微生物细胞生长过程的极度复杂性与高度的耦合性，且同种微生物在不同实验条件、不同生长阶段呈现的调控关系存在差异，单一的调控关系难以被直接捕捉到。现有数据库中的转录调控关系也大多为布尔型，即仅表征该转录因子与靶基因之间是否存在调控关系，而调控方向的信息大多缺失。因此，通过机器学习的方法从批量数据中学习准确的转录调控关系有着重要的意义，可以从数据集中学习到数据之间的内在联系，从而帮助理解转录因子与靶基因之间的调控方向，进而发掘基因表达的调控手段，加快转录调控关系的研究。所以，建立一个用于描述细胞内转录调控关系的转录调控网络模型，对细胞的生命科学研究有着非常重要的作用。

4、当前生物领域中的大模型的构建主要由两个步骤组成：预训练与微调，即迁移学习的思想。预训练过程是指在没有特定任务的情况下预先训练模型，因此使用无监督预训练的方式来学习基因间的潜在关系。微调则是将预训练好的参数初始化，根据下游任务的具体数据进行特异性训练。因此，采用包含多种菌株的泛转录组数据作为预训练数据集，从泛转录组数据中学习得到某一类细胞、某一种物种内基因之间的转录调控关系。随着被送入机器学习模型的数据量增加，模型会从这些数据中提取出高阶的、抽象的、更加贴近本质的特征信息。在迁移学习的微调阶段，将预训练模型的部分参数固定，将其他参数在更加具体的数据集上进行重新训练。即实现从预训练模型中的抽象特征出发，对下游任务的数据进行针对性训练，将下游任务的特异性特征提取出来，得到一个微调后的精细模型。

5、在转录调控过程中，一个基因一般需要受到多个转录因子的共同调控，同时由于细胞中的基因数量非常庞大，一般达到数千个到万个不等，这就导致转录调控网络是一个非常庞大的系统。因此，当我们采用人工神经网络方法对其进行建模时，如果将所有转录因子与靶基因构成一个完整神经网络结构，即使可以根据转录调控先验知识将部分层与层之间的连接舍弃，其包含的参数量仍然十分庞大，会收到计算机运行内存的限制，模型计算也会过于复杂导致训练时间过长。并且，对于参数量较大的网络模型，其训练所需的数据量也是非常庞大的。

技术实现思路

1、本专利技术的目的在于提供基于迁移学习的分布式转录调控网络大模型构建方法，以解决上述
技术介绍
中提出的问题。

2、为实现上述专利技术目的，本专利技术提供基于迁移学习的分布式转录调控网络大模型构建方法，是以有文献支撑的可靠转录调控先验关系作为分布式子网络输入变量和输出变量的选择依据，利用迁移学习思想进行两个阶段的模型训练，以获取转录过程中的调控关系，进而指导基因表达调控的研究。建立分布式转录调控网络大模型，是通过机器学习的方法从数据中提取转录调控关系的高阶抽象特征信息，分布式的结构可避免了计算机运行内存的局限性，并且可以实现靶基因调控的预测，为调控关系的研究提供可靠的工具。为了实现具体转录调控关系的获取，采用迁移学习的思想。包括以下步骤：

3、步骤s1，通过转录调控先验知识获取转录调控关系，得到转录因子对应靶基因的配对。

4、步骤s2，构建分布式转录调控网络大模型；

5、步骤s3，在泛转录组数据上进行模型预训练，获取多种菌株中存在的转录调控关系的高阶特征。

6、步骤s4，采用时序数据集，对模型进行微调以得到特异性分布式大模型；

7、步骤s5，根据数据特征制定预测结果的评价指标，将预测结果的分为三级准确程度，根据各子网络的准确程度来观察数据集对模型预测性能的影响以及它们的可靠性。

8、进一步的，所述转录调控先验知识，转录调控关系由一对转录因子及其靶基因形成的，一个转录因子可以调控多个靶基因，同样的一个靶基因可能受到多个转录因子的调控。数据库中获取的转录调控先验知识，是从中选择具有文献报道和支持的转录因子以及靶基因的研究中选择的。所得到的调控关系是一组配对，即表征转录因子与该靶基因之间存在调控关系，但不包含调控方向等其他信息。将数据库中所有相关基因配对，即可得到一个转录调控知识图谱，基于该知识图谱即可构建一个转录调控的机理网络。

9、进一步的，所述分布式转录调控网络大模型由分布式子网络组成，所述分布式子网络基于数据库中获取的转录调控机理网络，将机理网络以靶基因为中心进行分离，得到靶基因受到的转录因子调控关系进行提取，以转录因子的表达水平作为输入，靶基因的表达水平作为输出；所述是分布式子网络多输入单输出的；所有子网络的整合表征细胞整体的转录调控关系。

10、进一步的，当靶基因仅受到一个转录因子或自身调控时，所述分布式子网络是单输入单输出的结构。

11、进一步的，所述步骤s3中的预训练，是根据确定好结构后的分布式网络在泛转录组数据集上进行数据处理和对齐并进行分布式训练的过程。包括以下步骤：

12、步骤s301，需要对预训练数据进行处理，泛转录组数据是以tpm(transcripts permillion)为单位的，它是rna测序数据分析领域经常使用的一种单位，表示每百万读取次数中某个转录本的占比，并且tpm可以消除样本的测序深度对基因表达量分析的影响。其中，由于泛转录组数据集在多种菌株中收集测本文档来自技高网...

【技术保护点】

1.基于迁移学习的分布式转录调控网络大模型构建方法，其特征在于，以有文献支撑的可靠转录调控先验关系作为分布式子网络输入变量和输出变量的选择依据，利用迁移学习思想进行模型训练，以获取转录过程中的调控关系，包括以下步骤：

2.根据权利要求1所述的基于迁移学习的分布式转录调控网络大模型构建方法，其特征在于，步骤S1中，将数据库中所有相关基因配对，得到一个转录调控知识图谱，基于所述转录调控知识图谱构建出转录调控的机理网络。

3.根据权利要求1所述的基于迁移学习的分布式转录调控网络大模型构建方法，其特征在于，所述分布式转录调控网络大模型由分布式子网络组成，所述分布式子网络基于数据库中获取的转录调控机理网络，将机理网络以靶基因为中心进行分离，以转录因子的表达水平作为输入，靶基因的表达水平作为输出；所述分布式子网络为多输入单输出的结构。

4.根据权利要求1所述的基于迁移学习的分布式转录调控网络大模型构建方法，其特征在于，当靶基因仅受到一个转录因子或自身调控时，所述分布式子网络是单输入单输出的结构。

5.根据权利要求1所述的基于迁移学习的分布式转录

6.根据权利要求1所述的基于迁移学习的分布式转录调控网络大模型构建方法，其特征在于，所述步骤S4中的微调是将预训练完成的各个子模型在下游任务的具体数据集上继续训练的过程，包括以下步骤：

7.根据权利要求1所述的基于迁移学习的分布式转录调控网络大模型构建方法，其特征在于，所述的预测结果评价指标，是根据微调模型的输出结果与实际标签值之间的不同关系制定评价指标，将其结果分为三个等级，包括：优、合格和不合格，分别用来表示预测结果与实际标签的误差较小、预测结果与实际标签的误差较大但方向正确和预测结果与实际标签的误差很大。

...

【技术特征摘要】

2.根据权利要求1所述的基于迁移学习的分布式转录调控网络大模型构建方法，其特征在于，步骤s1中，将数据库中所有相关基因配对，得到一个转录调控知识图谱，基于所述转录调控知识图谱构建出转录调控的机理网络。

4.根据权利要求1所述的基于迁移学习的分布式转录调控网络大模型构建方法，...

【专利技术属性】
技术研发人员：鲁洪中，颜学峰，范星存，曹凌峰，廖文彬，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人