一种跨多物种的启动子预测方法及系统技术方案

技术编号：34512769 阅读：26 留言：0更新日期：2022-08-13 20:59

本公开属于数据处理技术领域，提供了一种跨多物种的启动子预测方法及系统。该方法包括，获取DNA序列，分别提取所述DNA序列的第一特征和第二特征；基于所述第一特征，采用随机森林模型，得到第一预测概率值；基于第二特征，采用卷积神经网络模型，得到第二预测概率值；分别假设随机森林模型的权重和卷积神经网络模型的权重，并基于第一预测概率值和第二预测概率值，构建损失函数；通过最小化损失函数确定随机森林模型和卷积神经网络模型的权重值；根据随机森林模型的权重值和卷积神经网络模型的权重值与其预测概率值的乘积的和，即为用于判断是否为启动子的概率值。于判断是否为启动子的概率值。于判断是否为启动子的概率值。

全部详细技术资料下载

【技术实现步骤摘要】
一种跨多物种的启动子预测方法及系统

[0001]本公开属于数据处理
，尤其涉及一种跨多物种的启动子预测方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息，不必然构成在先技术。
[0003]启动子是位于转录起始位点(TSS)附近的非编码DNA区域，对于通过与RNA聚合酶(RNAP)合作启动特定基因的转录和不同物种中的基因表达至关重要。在原核生物中，启动子参与许多生物学功能，例如热休克反应、固氮等。在真核生物中，启动子控制转录的确切起始位置并且通过染色质环与其远端调节元件合作并参与发育疾病、肿瘤发生和时空基因表达的过程。因此，启动子的鉴定成为一大热点。在早期启动子检测的研究中，通常使用组蛋白修饰的全基因组图谱等生物方法进行检测，然而这些技术面临着成本昂贵、费时费力等难题。随后，一些预测启动子的计算方法被提出以解决这些难题。然而，这些计算方法性能和泛化性较差，对实际中的应用带来了巨大的不便，难以满足我们对预测工作的高精度和高泛化性的要求。此外，这些方法只在一种物种上验证了性能，因此实际中的可应用性尚未得到证实。因此，在多物种中实现启动子的高精度和高泛化的预测成为了预测启动子的重要研究方向。
[0004]在现实中，启动子的预测存在数据要求高、预测精度低和物种间差距大的问题。数据要求高的问题导致获取数据的成本高、任务重；预测精度低的问题导致预测结果的可信度较低，难以进行下一步分析；物种间差距大的问题导致对不同物种的启动子的预测能力差异较大，因此针对不同物种的启动子需要重...

【技术保护点】

【技术特征摘要】
1.一种跨多物种的启动子预测方法，其特征在于，包括：获取DNA序列，分别提取所述DNA序列的第一特征和第二特征；基于所述第一特征，采用随机森林模型，得到第一预测概率值；基于第二特征，采用卷积神经网络模型，得到第二预测概率值；分别假设随机森林模型的权重和卷积神经网络模型的权重，并基于第一预测概率值和第二预测概率值，构建损失函数；通过最小化损失函数确定随机森林模型和卷积神经网络模型的权重值；根据随机森林模型的权重值和卷积神经网络模型的权重值与其预测概率值的乘积的和，即为用于判断是否为启动子的概率值。2.根据权利要求1所述的跨多物种的启动子预测方法，其特征在于，所述第一特征包括：融合的反向互补k
‑
mer、不匹配的k
‑
mer、k
‑
间隔核酸对组成、三核苷酸理化性质和伪三核苷酸组成。3.根据权利要求1所述的跨多物种的启动子预测方法，其特征在于，所述第二特征为词嵌入向量，所述词嵌入向量通过采用词嵌入模型提取DNA序列得到。4.根据权利要求1所述的跨多物种的启动子预测方法，其特征在于，所述损失函数为：其中，w
i
是第i个模型的权重，h
i
(x)是第i个模型的输出。5.根据权利要求1所述的跨多物种的启动子预测方法，其特征在于，所述权重的约束条件为：。6.根据权利要求1所述的跨多物种的启动子预测方法，其特征在于，所述权重确定的过程包括：获取DNA序列数据集，将DNA序列数据集划分为：训练集和测试集；采用训练集中的样本分别训练随机森林模型和卷积神经网络模型，得到训练好的随机森林模型和训练好的卷积神经网络模型；基于测试集，均对训练好的随机森林模型和训练好的卷积神经网络模型进行测试，分别得到第一预测概率值和第二预测概率值；基于第一预测概率值和第二预测概率值...

【专利技术属性】
技术研发人员：吴昊，张鹏宇，
申请(专利权)人：山东大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人