当前位置: 首页 > 专利查询>山东大学专利>正文

一种跨多物种的启动子预测方法及系统技术方案

技术编号:34512769 阅读:18 留言:0更新日期:2022-08-13 20:59
本公开属于数据处理技术领域,提供了一种跨多物种的启动子预测方法及系统。该方法包括,获取DNA序列,分别提取所述DNA序列的第一特征和第二特征;基于所述第一特征,采用随机森林模型,得到第一预测概率值;基于第二特征,采用卷积神经网络模型,得到第二预测概率值;分别假设随机森林模型的权重和卷积神经网络模型的权重,并基于第一预测概率值和第二预测概率值,构建损失函数;通过最小化损失函数确定随机森林模型和卷积神经网络模型的权重值;根据随机森林模型的权重值和卷积神经网络模型的权重值与其预测概率值的乘积的和,即为用于判断是否为启动子的概率值。于判断是否为启动子的概率值。于判断是否为启动子的概率值。

【技术实现步骤摘要】
一种跨多物种的启动子预测方法及系统


[0001]本公开属于数据处理
,尤其涉及一种跨多物种的启动子预测方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息,不必然构成在先技术。
[0003]启动子是位于转录起始位点(TSS)附近的非编码DNA区域,对于通过与RNA聚合酶(RNAP)合作启动特定基因的转录和不同物种中的基因表达至关重要。在原核生物中,启动子参与许多生物学功能,例如热休克反应、固氮等。在真核生物中,启动子控制转录的确切起始位置并且通过染色质环与其远端调节元件合作并参与发育疾病、肿瘤发生和时空基因表达的过程。因此,启动子的鉴定成为一大热点。在早期启动子检测的研究中,通常使用组蛋白修饰的全基因组图谱等生物方法进行检测,然而这些技术面临着成本昂贵、费时费力等难题。随后,一些预测启动子的计算方法被提出以解决这些难题。然而,这些计算方法性能和泛化性较差,对实际中的应用带来了巨大的不便,难以满足我们对预测工作的高精度和高泛化性的要求。此外,这些方法只在一种物种上验证了性能,因此实际中的可应用性尚未得到证实。因此,在多物种中实现启动子的高精度和高泛化的预测成为了预测启动子的重要研究方向。
[0004]在现实中,启动子的预测存在数据要求高、预测精度低和物种间差距大的问题。数据要求高的问题导致获取数据的成本高、任务重;预测精度低的问题导致预测结果的可信度较低,难以进行下一步分析;物种间差距大的问题导致对不同物种的启动子的预测能力差异较大,因此针对不同物种的启动子需要重新调整参数再进行预测。

技术实现思路

[0005]为了解决上述
技术介绍
中存在的技术问题,本公开提供一种跨多物种的启动子预测方法及系统,其仅使用DNA序列数据一种数据,构建了一个基于加权平均集成学习方法预测不同物种中的启动子的高精度高泛化性模型,可以有效地预测跨细胞系的启动子以及有效区分增强子和启动子。
[0006]为了实现上述目的,本公开采用如下技术方案:
[0007]本公开的第一个方面提供一种跨多物种的启动子预测方法。
[0008]一种跨多物种的启动子预测方法,包括:
[0009]获取DNA序列,分别提取所述DNA序列的第一特征和第二特征;
[0010]基于所述第一特征,采用随机森林模型,得到第一预测概率值;
[0011]基于第二特征,采用卷积神经网络模型,得到第二预测概率值;
[0012]分别假设随机森林模型的权重和卷积神经网络模型的权重,并基于第一预测概率值和第二预测概率值,构建损失函数;
[0013]通过最小化损失函数确定随机森林模型和卷积神经网络模型的权重值;
[0014]根据随机森林模型的权重值和卷积神经网络模型的权重值与其预测概率值的乘积的和,即为用于判断是否为启动子的概率值。
[0015]本公开的第二个方面提供一种跨多物种的启动子预测系统。
[0016]一种跨多物种的启动子预测系统,包括:
[0017]获取与特征提取模块,其被配置为:获取DNA序列,分别提取所述DNA序列的第一特征和第二特征;
[0018]第一预测模块,其被配置为:基于所述第一特征,采用随机森林模型,得到第一预测概率值;
[0019]第二预测模块,其被配置为:基于第二特征,采用卷积神经网络模型,得到第二预测概率值;
[0020]损失函数构建模块,其被配置为:分别假设随机森林模型的权重和卷积神经网络模型的权重,并基于第一预测概率值和第二预测概率值,构建损失函数;
[0021]权重确定模块:其被配置为:通过最小化损失函数确定随机森林模型和卷积神经网络模型的权重值;
[0022]判断模块,其被配置为:根据随机森林模型的权重值和卷积神经网络模型的权重值与其预测概率值的乘积的和,即为用于判断是否为启动子的概率值。
[0023]本公开的第三个方面提供一种计算机可读存储介质。
[0024]一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一个方面所述的跨多物种的启动子预测方法中的步骤。
[0025]本公开的第四个方面提供一种计算机设备。
[0026]一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一个方面所述的跨多物种的启动子预测方法中的步骤。
[0027]与现有技术相比,本公开的有益效果是:
[0028]本公开首先将DNA通过词向量技术进行特征编码,然后使用CNN通过卷积计算提取输入的不同特征,同时通过堆叠卷积层提取更复杂的特征。此外,本公开使用传统的特征提取算法提取DNA序列的特征并作为随机森林的输入特征。通过这些深度学习神经网络和机器学习方法捕获数据特征有效地提升了预测启动子的性能和泛化能力,同时经过集成学习的研究,进一步提高了预测启动子准确性。
附图说明
[0029]构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
[0030]图1是本公开实施例示出的IPro

WAEL的模型结构图;
[0031]图2是本公开实施例示出的IPro

WAEL检测流程图;
[0032]图3是本公开实施例示出的IPro

WAEL和其他分类器在六个交集上的性能对比效果图;
[0033]图4是本公开实施例示出的IPro

WAEL跨细胞系预测的性能效果图。
具体实施方式
[0034]下面结合附图与实施例对本公开作进一步说明。
[0035]应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属
的普通技术人员通常理解的相同含义。
[0036]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0037]需要注意的是,附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意,在有些作为备选的实现中,方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,或者它们有时也可以按照相反的顺序执行,这取决于所涉及的功能。同样应当注意的是,流程图和/或框图中的每个方框、以及本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种跨多物种的启动子预测方法,其特征在于,包括:获取DNA序列,分别提取所述DNA序列的第一特征和第二特征;基于所述第一特征,采用随机森林模型,得到第一预测概率值;基于第二特征,采用卷积神经网络模型,得到第二预测概率值;分别假设随机森林模型的权重和卷积神经网络模型的权重,并基于第一预测概率值和第二预测概率值,构建损失函数;通过最小化损失函数确定随机森林模型和卷积神经网络模型的权重值;根据随机森林模型的权重值和卷积神经网络模型的权重值与其预测概率值的乘积的和,即为用于判断是否为启动子的概率值。2.根据权利要求1所述的跨多物种的启动子预测方法,其特征在于,所述第一特征包括:融合的反向互补k

mer、不匹配的k

mer、k

间隔核酸对组成、三核苷酸理化性质和伪三核苷酸组成。3.根据权利要求1所述的跨多物种的启动子预测方法,其特征在于,所述第二特征为词嵌入向量,所述词嵌入向量通过采用词嵌入模型提取DNA序列得到。4.根据权利要求1所述的跨多物种的启动子预测方法,其特征在于,所述损失函数为:其中,w
i
是第i个模型的权重,h
i
(x)是第i个模型的输出。5.根据权利要求1所述的跨多物种的启动子预测方法,其特征在于,所述权重的约束条件为:。6.根据权利要求1所述的跨多物种的启动子预测方法,其特征在于,所述权重确定的过程包括:获取DNA序列数据集,将DNA序列数据集划分为:训练集和测试集;采用训练集中的样本分别训练随机森林模型和卷积神经网络模型,得到训练好的随机森林模型和训练好的卷积神经网络模型;基于测试集,均对训练好的随机森林模型和训练好的卷积神经网络模型进行测试,分别得到第一预测概率值和第二预测概率值;基于第一预测概率值和第二预测概率值...

【专利技术属性】
技术研发人员:吴昊张鹏宇
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1