当前位置: 首页 > 专利查询>江南大学专利>正文

一种基于扩散模型生成非天然启动子的方法技术

技术编号:39277365 阅读:10 留言:0更新日期:2023-11-07 10:53
本发明专利技术公开了一种基于扩散模型生成非天然启动子的方法,属于生物信息技术领域。所述为实现生成启动子,建立了基于扩散模型的深度学习网络。同时,本申请对生成启动子进行了真假判定和功能性区间分析,结果显示,生成的启动子中超过40%为真启动子,且序列具有显著的

【技术实现步骤摘要】
一种基于扩散模型生成非天然启动子的方法


[0001]本专利技术涉及一种基于扩散模型生成非天然启动子的方法,属于生物信息


技术介绍

[0002]启动子设计可辅助代谢工程网络搭建,用于在微生物体内从头合成化学品、药品以及其他原料。启动子的作用主要是启动基因转录及翻译,对靶基因的表达量产生直观的影响。最新研究表明,启动子启动基因的转录量和翻译量的皮尔森相关系数高达0.8,因此,调控启动子将可以实现蛋白表达的精准调控。在前期的研究中,研究人员尝试了不同方法用于挖掘非天然启动子,包括定向进化方案,目标启动子中随机引入突变位点,还包括理性设计,即只针对启动子的保守区或非保守区中一个小的区段进行突变。
[0003]现阶段虽然对非天然启动子筛选已经获得了一定的进展,但构建的启动子库仍然较小。通常情况下,启动子长短为50个碱基,具有450种组成方式,仅采用实验方法难以进行验证。而真核生物的启动子长度则远超于50个碱基,在实验筛选上难度更大。因此,开发计算辅助启动子生成的方法极为重要,将有助于启动子的筛选。
[0004]Wang等在2020年提出了以对抗生成网络实现启动子的从头设计,将启动子基因转化为一维数组进行学习,进而通过生成器与判别器的自我博弈,生成与天然生物分子位于类似分布的全新人工分子序列,实现启动子的从头设计。但对抗生成网络由于训练最优判别器与最小化生成器之间的相互矛盾导致其训练具有很大的不稳定性,而且对抗学习所生成的启动子的多样性也有一定的限制,因此不容易扩展到建模复杂的多模态分布。基于上述原因,有必要研究一种新型的非天然启动子的生成方法。

技术实现思路

[0005]为了解决目前以对抗生成网络实现启动子的从头设计时存在的不稳定问题,本专利技术提供了一种基于扩散模型生成非天然启动子的方法,所述方法包括:
[0006]步骤S1:构建用于生成非天然启动子的扩散模型,所述用于生成非天然启动子的扩散模型依托于卷积神经网络中的UNet,在搭建UNet的编码区时,采用卷积神经网络;非编码区采用上采样的方式进行图像尺寸还原;在编码区及非编码区之间采用范式化的UNet跳跃连接进行特征传递,并且编码区及解码区中均引入自注意力机制;
[0007]步骤S2:采用公开数据集中的启动子作为训练数据,对所述用于生成非天然启动子的扩散模型进行训练;
[0008]步骤S3:采用训练好的用于生成非天然启动子的扩散模型生成新的启动子。
[0009]可选的,所述步骤S2包括:
[0010]对公开数据集中的启动子的基因序列进行数字化处理;
[0011]利用数字化处理后的启动子的基因序列对所述用于生成非天然启动子的扩散模型进行训练,训练过程中计算损失值,对于输出样本进行启动子识别以及保守性评估,保存
训练完成后的模型参数;
[0012]启动子识别采用基于深度学习的PromoR模块对生成的每个序列进行真、伪判别,并计算真启动子占所有生成启动子的比例;
[0013]启动子保守性评估为对生成启动子进行序列比对,并观察

35和

10区序列,当

35和

10区的标识为TT和TATAAT时,则认为生成启动子具有天然启动子的特征。
[0014]可选的,所述方法观察

35和

10区序列时,采用工具为MetaLogo。
[0015]可选的,所述对公开数据集中的启动子的基因序列进行数字化处理包括:
[0016]采用独热编码方法进行特征提取,将长度为50个碱基的序列转化为通道数为1、长为4、宽为50的向量;
[0017]转化后碱基A、T、C、G分别为:[1 0 0 0]、[0 0 0 1]、[0 1 0 0]、[0 0 1 0]。
[0018]可选的,所述方法还包括,设定真启动子占所有生成启动子的比例阈值。
[0019]本申请还提供上述基于扩散模型生成非天然启动子的方法在化学品、药品中的应用。
[0020]本专利技术有益效果是:
[0021]通过将基因序列进行计算机编码实现其数字化,对公开数据集进行收集,构建训练用数据集。以数字化的基因作为输入并采用扩散模型学习其特征,评估生成样本质量并用于生成非天然启动子,与现有通过对抗生成网络设计启动子的技术相比,本专利技术采用的生成模型训练更为稳定,可有效识别序列的小区段关键区域,并同时可识别小区域与全长序列的关联。且不具有训练不稳定的缺陷。同时,扩散模型更有益于稳定生成多样性更高的启动子,有利于挖掘新的启动子。
附图说明
[0022]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0023]图1是本专利技术一个实施例中提供的基于扩散模型生成启动子的流程图。
[0024]图2是本专利技术采用扩散模型生成启动子的序列标识图。
具体实施方式
[0025]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。
[0026]PyTorch:是torch的python版本,是由Facebook开源的神经网络框架,专门针对GPU加速的深度神经网络(DNN)编程。Torch是一个经典的对多维矩阵数据进行操作的张量(tensor,张量是机器学习程序中的数字容器,本质上就是各种不同维度的数组,通常把张量的维度称为轴,轴的个数称为阶)库,在机器学习和其他数学密集型应用有广泛应用。与Tensorflow的静态计算图不同,pytorch的计算图是动态的,可以根据计算需要实时改变计算图。
[0027]实施例一:
[0028]本实施例提供一种基于扩散模型生成非天然启动子的方法,该方法基于启动子基因序列进行扩散模型训练并生成新的启动子,参见图1,所述方法包括:
[0029]步骤S1:输入基因序列的标准化处理。
[0030]构建训练集:采用Thomason报道的数据集中的启动子(为大肠杆菌启动子)作为训练数据。该训练集共包含启动子数量为11884个;
[0031]步骤S2:输入启动子的基因序列的数字化处理。
[0032]采用独热编码方法进行特征提取,将长度为50个碱基的序列转化为通道数为1、长为4、宽为50的向量。转化后碱基A、T、C、G分别为:[1 0 0 0]、[0 0 0 1]、[0 1 0 0]、[0 0 1 0]。
[0033]通过该步骤可以将基因序列进行数字化处理,比如将启动子:
[0034]CCGCTCAAATATTGTTAAATTGCCGGTTTTGTATCAACTACTCACCCGGG转化为:[[0 1 00][0 1 0 0][0 0 1 0][0 1 0 0][0 0 0 1]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于扩散模型生成非天然启动子的方法,其特征在于,所述方法包括:步骤S1:构建用于生成非天然启动子的扩散模型,所述用于生成非天然启动子的扩散模型依托于卷积神经网络中的UNet,在搭建UNet的编码区时,采用卷积神经网络;非编码区采用上采样的方式进行图像尺寸还原;在编码区及非编码区之间采用范式化的UNet跳跃连接进行特征传递,并且编码区及解码区中均引入自注意力机制;步骤S2:采用公开数据集中的启动子作为训练数据,对所述用于生成非天然启动子的扩散模型进行训练;步骤S3:采用训练好的用于生成非天然启动子的扩散模型生成新的启动子。2.根据权利要求1所述的方法,其特征在于,所述步骤S2包括:对公开数据集中的启动子的基因序列进行数字化处理;利用数字化处理后的启动子的基因序列对所述用于生成非天然启动子的扩散模型进行训练,训练过程中计算损失值,对于输出样本进行启动子识别以及保守性评估,保存训练完成后的模型参数;启动子识别采用基于深度学习的PromoR模块对生成的每个序列进行真、伪判别,并计算真启动子占所有生成启动子的比例;启动子保守性评估为...

【专利技术属性】
技术研发人员:周景文王兴隆徐康杰谭亚梦赵欣怡陈坚曾伟主
申请(专利权)人:江南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1