全基因组水平预测杨树根特异性顺式调控元件与模块的方法技术

技术编号:38854207 阅读:20 留言:0更新日期:2023-09-17 10:00
本发明专利技术属于生物信息学技术领域,具体涉及全基因组水平预测杨树根特异性顺式调控元件与模块的方法。本发明专利技术公开了一种在全基因组水平上预测杨树根特异性顺式调控元件和模块的方法,首次将FIMO和tidymodels进行联合,在全基因组预测杨树组织特异性顺式调控元件和模块。并且,将启动子区域做截断分析,分别运用5个启动子区域的TFBSs,构建随机森林预测模型,获得高特征分数的TFBSs作为候选CREs,利用候选CREs筛选根特异性顺式调控模块,并进行实验验证。本发明专利技术方法具有快速、高通量等特点,对于预测植物根特异性的顺式调控模块提供了技术支持,具有实用价值和广泛的应用前景。具有实用价值和广泛的应用前景。具有实用价值和广泛的应用前景。

【技术实现步骤摘要】
全基因组水平预测杨树根特异性顺式调控元件与模块的方法


[0001]本专利技术属于生物信息学
,具体涉及全基因组水平预测杨树根特异性顺式调控元件与模块的方法。

技术介绍

[0002]生物学中的一个基本问题是如何调节基因表达的复杂模式。其核心是影响蛋白质编码和长链非编码RNA(lncRNA)基因表达的顺式调控元件(CRE)与顺式调控模块(CRM)的全基因组鉴定和表征。在这里将CRE称为单个转录因子结合位点(TFBS),而CRM是CRE的集合,包括启动子、转录增强子、沉默子与绝缘子。CRM决定基因在哪个细胞中、在什么时间以及在什么水平表达。在动物中,染色质可及性与表观基因组图谱的构建使基因调控序列的鉴定成为常规工作。精确定位和表征CRM及其目标基因是一项具有挑战性的工作;然而,有多种方法已被证明是有效的。
[0003]识别未知CRM的一种方法是开发转基因增强子

陷阱系,拟南芥中鉴定了几个具有组织特异性表达模式的品系,成功鉴定增强子。虽然上述技术在处理易于转化的小基因组生物时很有用,但对于大基因组生物,如玉米是使用数量性状位点(QTL)作图和遗传精细作图方法发现的。高通量测序技术的出现极大地促进了在全基因组范围内识别CRM。特别是,表观基因组特征、TF结合和染色质相互作用已证明对CRM检测有用。单细胞ATAC

seq对于以单细胞分辨率检测CRM非常有效。目前一个主要挑战是发现植物组织和环境特异性CRM。
[0004]机器学习(ML)方法是推理统计的一种有前途的替代方法,可用于由全基因组注释数据中推断顺式调控代码。在人类基因组核心启动子中,下游核心启动子区域(DPR)、DNA和RNA结合序列和其它特征已经通过机器学习被确定。在最近植物研究中,对转录因子结合谱的综合研究,预测或推断了转录基因调控背后的顺式调控代码。

技术实现思路

[0005]本专利技术的目的在于采用生物信息学技术,高通量、快速地从全基因组中筛选杨树根组织特异性CRMs。
[0006]本专利技术提供了以下技术方案:
[0007]根据杨树全基因组测序数据,利用FIMO在全基因组中检测杨树TFBSs元件,并以此为基础,获得TFBSs在每一基因启动子分布情况,然后运用tidymodels构建随机森林预测模型,获得TFBSs的特征分数,筛选高特征分数的TFBSs,用于预测根特异CRMs。联合这两个生物信息学工具完成杨树全基因组根特异CREs的筛选。由于CREs排列和保守性变化十分复杂,对现有的大多数生物学软件来说,准确鉴定根特异性元件相对困难,FIMO能够搜索包括全基因组序列在内的较大规模的基因组数据,并且有着相比其它软件来说更高的准确性、且具有高通量等特征;tidymodels则是机器学习集成软件,可以方便高效地构建和训练模型。
[0008]本专利技术包含以下步骤:
[0009]S101、利用FIMO,将全基因组序列作为输入文件,获得杨树转录因子结合位点(TFBSs)在全基因组的分布情况;
[0010]S102、利用自编python脚本统计每一基因启动子中TFBSs分布规律;
[0011]S103、结合杨树RNA

seq数据与组织特异性参数(τ),将基因进行分组;
[0012]S104、利用tidymodels软件,将每一基因启动子中TFBSs分布特征作为输入矩阵,S103中的基因分组作为标签,构建随机森林预测模型;
[0013]S105、调整预测模型参数,获得高性能评价分数和特征重要性分数;
[0014]S106、根据特征重要性分数,筛选高特征分数的TFBSs作为候选CREs;
[0015]S107、利用高特征分数的TFBSs,筛选顺式调控模块,进行实验验证。
[0016]本专利技术首次公开一种联合FIMO和tidymodels,在全基因组预测杨树组织特异性顺式调控元件和模块的方法。并且,将启动子区域做截断分析,分别运用5个启动子区域的TFBSs,构建随机森林预测模型,获得高特征分数的TFBSs作为候选CREs,利用候选CREs筛选根特异性顺式调控模块,并进行实验验证。
附图说明
[0017]图1为毛果杨FIMO结果统计TFBSs分布情况示意图;
[0018]图2为利用python脚本获得毛果杨学习输入数据示意图;
[0019]图3为毛白杨FIMO结果统计TFBSs分布情况示意图;
[0020]图4为利用python脚本获得毛白杨学习输入数据示意图;
[0021]图5为PopRTS1在84K中表达模式;
[0022]图6为PopRTS1启动子中TFBSs分布;
[0023]图7为RTS在烟草中调控iGUS基因表达模式;
[0024]图8为全基因组水平预测杨树根特异性顺式调控元件与模块的方法流程图;
[0025]图9为处理FIMO结果的python脚本。
具体实施方式
[0026]为了进一步说明本专利技术,下面结合实施例对本专利技术提供的全基因组水平预测杨树根特异性顺式调控元件与模块的方法进行详细地描述,但不能将它们理解为对本专利技术保护范围的限定。
[0027]实施例1
[0028]实施例1:根据图8所示流程毛果杨全基因组范围内TFBSs的预测与模型构建
[0029]选取毛果杨基因组测序文件,利用FIMO软件鉴定其全基因组水平的TFBSs元件,并将结果作为机器学习的输入文件,构建随机森林模型,预测TFBSs的重要性分数。
[0030]运行步骤:
[0031]1、FIMO运行
[0032]FIMO尽管是由多个perl语言脚本组成,但是专利技术人能够用一个命令运行,以毛果杨基因组为例:
[0033]fimo[options]<motif file><sequence file>
[0034]<motif file>是379个毛果杨TFBSs的PWM文件(从PlantTFDB v5.0数据库中下
载),文件后缀meme(XXX.meme);
[0035]<sequence file>是预测的DNA序列,fasta格式。
[0036]2、FIMO输出结果处理
[0037]运行结果输出后,将基因起始密码子(ATG)上游3000bp和下游200bp定义为启动子,将3200bp启动子区域分为+200~

1000(1200bp),+200~

1500(1700bp),+200~2000(2200bp),+200~

2500(2700bp),+200~

3000bp(3200bp)5个区域;利用python脚本(图9)分别统计每一区域中每一个TFBSs在每一个启动子中的分布情况。结果(部分)如本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种在全基因组水平上预测杨树根组织特异性顺式调控元件和模块的方法,其特征在于,包括以下步骤:S101、利用FIMO,将全基因组序列作为输入文件,获得转录因子结合位点(TFBSs)在杨树全基因组的分布情况;S102、利用自编python脚本统计每一基因启动子中TFBSs分布规律;S103、结合RNA

seq数据和组织特异性参数(τ),将基因进行分组;S104、利用tidymodels软件,将每一基因启动子中TFBSs的分布特征作为输入矩阵,以S103中的基因分组作为标签,构建随机森林预测模型;S105、调整预测模型参数,获得高性能评价分数和特征重要性分数;S106、根据特征重要性分数,筛选高特征分数的TFBSs作为候选CREs;S107、利用高特征分数的TFBSs,筛选顺式调控模块,进行...

【专利技术属性】
技术研发人员:张德强卢纯昊宋跃朋
申请(专利权)人:北京林业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1