当前位置: 首页 > 专利查询>东南大学专利>正文

利用TCGA数据库资源发现直肠癌相关microRNA分子标志物的方法及系统和应用技术方案

技术编号:15640042 阅读:103 留言:0更新日期:2017-06-16 03:24
本发明专利技术公开了一种利用TCGA数据库资源发现直肠癌相关microRNA分子标志物的方法及系统和应用。基于公共数据资源例如癌症基因组图谱TCGA数据库的直肠癌miRNA测序数据,合理运用开放性的大数据资源和多样的生物信息学分析手段,对miRNA表达数据进行分析处理,识别与直肠癌等复杂疾病相关的miRNA。包括:样本数据下载和整理;对miRNA表达数据的差异表达分析;将miRNA按照变化幅度排序;选定靶基因;对靶基因进行功能分析。本发明专利技术能解决不擅长整合现有网络资源、不熟悉miRNA相关的最常用数据库及前沿分析方法以及不能独立完成miRNA表达谱相关的生物信息学分析等问题。

【技术实现步骤摘要】
利用TCGA数据库资源发现直肠癌相关microRNA分子标志物的方法及系统和应用
本专利技术涉及医学基因组学和计算生物学领域,具体涉及一种利用TCGA公共数据资源发现直肠癌相关miRNA的方法。
技术介绍
生物信息学是一门生命科学和计算机科学相结合的学科,研究生物信息的采集、处理、存储、分析和解释等,通过综合利用生物学、计算机科学及信息技术来揭示复杂的生物数据所蕴藏的生物学奥秘。公共数据库是开展生物信息学研究的重要工具。如何充分利用免费资源、高效整合数据、深入挖掘分析已成为生物信息学的一个重要课题。美国政府发起的癌症和肿瘤基因图谱(TheCancerGenomeAtlas,TCGA)计划,试图通过应用基因组分析技术,特别是采用大规模的基因组测序,将人类全部癌症的基因组变异图谱绘制出来,并进行系统分析,旨在找到所有致癌和抑癌基因的微小变异,了解癌细胞发生、发展的机制,在此基础上取得新的诊断和治疗方法,最后可以勾画出整个新型“预防癌症的策略”。2005年12月13日,这一项目由美国国家癌症和肿瘤研究所(NCI)和国家人类基因组研究所(NHGRI)联合进行,预计耗资1亿美元,是迄今为止世界上所进行的最大一项基因工程。绘制癌症基因图谱有助于把研究人员从目前逐个追踪基因的大量劳动中解放出来,便于迅速设计和找到针对性抗癌药物。这项计划是生物医学研究中的一大转折点,也是药物治疗的一大转折点,人们用一种新的观点去审视遗传改变与恶性肿瘤的联系,突破固有的知识的限制,尝试研究某个病人一生的遗传序列,然后用得到的信息去设计目标性强的、基于个性化的治疗。在癌症医学研究领域,TCGA试验项目革命性的将癌症生物学、基因组学技术、生物储藏库和生物信息学领域的最新成果协调发展和应用。目前,已成为最大的癌症基因信息数据库,收集了39种癌症,262,293个样本,mRNA/microRNA表达谱、拷贝数变异、突变、甲基化等大规模数据,数据量依然在逐年递增。TCGA推动了人们对癌症基因组学认识的大幅度提高,并将继续引领如何大规模的将分子数据真正应用到临床的研究。虽然TCGA公开了大量数据,但是样本庞大,信息繁多,格式难以转化,下载到的数据不能直接使用。而在我国,从事癌症相关研究的科研人员大多不具备生物信息学背景,如何有效的从TCGA进行数据收集、预处理和分析是一个难点。MicroRNA(miRNA)是一类内生的、长度约为20-24个核苷酸的小RNA,是最早发现的非编码RNA。研究发现,每个miRNA可以有多个靶基因,而几个miRNA也可以调节同一个基因。这种复杂的调节网络既可以通过一个miRNA来调控多个基因的表达,也可以通过几个miRNA的组合来精细调控某个基因的表达。miRNA是众多细胞过程的关键调控子,与发育和癌症进程密切相关。人类目前已知的miRNA有两千多个,对应的测序数据得到的表达数据达到两千多维,虽然有些疾病相关miRNA已被发现,但是大多数的相关miRNA有待于进一步研究。直肠癌是消化道最常见的恶性肿瘤之一,在我国的发病率,特别是经济发达地区,逐年上升。由于其早期诊断手段缺乏,在疾病确诊时,往往已经发展到晚期。我国直肠癌发病年龄中位数在45岁左右,青年人发病率有升高的趋势。直肠癌的病因目前仍不十分清楚,与多种因素有关。miRNA在作为直肠癌等疾病的新型临床诊断标记物的开发应用上取得了很大进展,但仍有很多不足。而且因为科研成本等问题,很多研究人员缺乏资金支持,不能负担实验所需费用,也不能承受高通量技术服务费特别是大样本量的高通量检测费用,而生物信息学研究所需的投资有限却可以做出高水平的工作,这是面临同样困境的工作者能够继续研究工作的最佳解决方案。目前的公共数据平台,虽然大多公开免费,然而所提供下载供本地化分析的数据都是原始数据,需要进行再次或多次处理才可以使用,给科研人员带来极大不便。甚至不同数据库使用的基因组注释信息来源不同、标准不同,很多数据库还会专门使用自己数据库的特殊命名,也给工作者整合多个数据库信息的工作带来很大难度。再加上对miRNA功能机制了解的太少,分析手段单一简单,因此如何合理利用网络资源,有效地收集、整合、分析miRNA高通量大数据,研究其潜在功能特别是预测与疾病相关miRNA成为该领域目前最急需解决的问题,也是科研人员特别是无生物信息学背景的实验、临床人员面临的最大难点。
技术实现思路
本专利技术的目的是提供利用TCGA公共数据资源发现直肠癌相关miRNA的方法,以解决不擅长整合现有网络资源以及不能独立完成miRNA相关的生物信息学分析等问题。为实现上述目的,本专利技术采用的技术方案是:一种利用TCGA数据库资源发现直肠癌相关microRNA分子标志物的方法,包括如下步骤:步骤1,样本数据下载和整理:获取miRNA表达数据,选定目标疾病直肠癌和测序平台,下载数据,数据包含疾病样本和对应的正常样本;步骤2,对步骤1得到的miRNA表达数据的差异表达分析;步骤3,将经过步骤2处理后的miRNA表达数据按照变化幅度排序,变化率越大的排名越靠前,筛选排名靠前的10个miRNA表达数据作为相关miRNA表达数据;步骤4,应用靶基因预测网站或软件作为预测miRNA靶基因的工具,获取靶基因;步骤5,对靶基因进行功能分析并找出与疾病相关的条目,构建网络示意图。优选的,所述的步骤1具体包括如下步骤:步骤1.1,进入R语言工作界面,载入TCGAbiolinks包;步骤1.2,在TCGA数据库设定目标疾病直肠癌、测序平台和miRNA文件类型;步骤1.3,批量下载所需的标准化数据;步骤1.4,将上述步骤得到的数据进行合并,并去除极值,得到理论上有效的miRNA表达值。优选的,所述步骤1.1中,所述TCGAbiolinks包是一个最新的数据库表达数据下载分析语言包。优选的,所述步骤1.2中,所述的TCGA数据库是目前最大的癌症基因信息数据库,已收集了39种癌症,262,293个样本,涉及mRNA/microRNA表达谱、拷贝数变异、突变、甲基化等大规模数据,且数据量在逐年递增。优选的,所述步骤1.4中,所述极值数据是作为RNA表达值的标准化测序片段数目为零的数据。优选的,所述的步骤2中,差异表达分析选取1.5倍或者2倍的差异倍数,选用三个标准Benjamini–Hochberg方法、FDR方法或者Bonforroni方法校正P-value得到差异表达的miRNA。优选的,所述的步骤4中,预测靶基因采用靶基因预测网站中已有数据资源整合和软件预测算法两种方式,需遵循预选基因至少被两个以上预测算法或数据库同时预测到;所述的靶基因预测网站是miRWalk数据库和TargetScan;所述的预测软件是TargetScan和miRanda。优选的,所述的步骤5中,所述的对mRNA的功能性分析基于DAVID数据库信息,包括基因本体分析,代谢通路分析,疾病相关分析和调控网络的构建;所述的基因本体分析采用DAVID数据库信息从生物过程、分子功能和细胞组分三个成分进行注释和富集分析;所述的代谢通路分析采用DAVID数据库信息包含的KEGG、Reactome数据库信息进行分析;所述的疾病相关分析采用DAVID数据库信息包含的GAD_DISEASE、GA本文档来自技高网
...
利用TCGA数据库资源发现直肠癌相关microRNA分子标志物的方法及系统和应用

【技术保护点】
一种利用TCGA数据库资源发现直肠癌相关microRNA分子标志物的方法,其特征在于:包括如下步骤:步骤1,样本数据下载和整理:获取miRNA表达数据,选定目标疾病直肠癌和测序平台,下载数据,数据包含疾病样本和对应的正常样本;步骤2,对步骤1得到的miRNA表达数据的差异表达分析;步骤3,将经过步骤2处理后的miRNA表达数据按照变化幅度排序,变化率越大的排名越靠前,筛选排名靠前的10个miRNA表达数据作为相关miRNA表达数据;步骤4,应用靶基因预测网站或软件作为预测miRNA靶基因的工具,获取靶基因;步骤5,对靶基因进行功能分析并找出与疾病相关的条目,构建网络示意图。

【技术特征摘要】
1.一种利用TCGA数据库资源发现直肠癌相关microRNA分子标志物的方法,其特征在于:包括如下步骤:步骤1,样本数据下载和整理:获取miRNA表达数据,选定目标疾病直肠癌和测序平台,下载数据,数据包含疾病样本和对应的正常样本;步骤2,对步骤1得到的miRNA表达数据的差异表达分析;步骤3,将经过步骤2处理后的miRNA表达数据按照变化幅度排序,变化率越大的排名越靠前,筛选排名靠前的10个miRNA表达数据作为相关miRNA表达数据;步骤4,应用靶基因预测网站或软件作为预测miRNA靶基因的工具,获取靶基因;步骤5,对靶基因进行功能分析并找出与疾病相关的条目,构建网络示意图。2.根据权利要求1所述的利用TCGA数据库资源发现直肠癌相关microRNA分子标志物的方法,其特征在于:所述的步骤1具体包括如下步骤:步骤1.1,进入R语言工作界面,载入TCGAbiolinks包;步骤1.2,在TCGA数据库设定目标疾病直肠癌、测序平台和miRNA文件类型;步骤1.3,批量下载所需的标准化数据;步骤1.4,将上述步骤得到的数据进行合并,并去除极值,得到理论上有效的miRNA表达值。3.根据权利要求2所述的利用TCGA数据资源发现直肠癌相关miRNA的方法,其特征在于:所述的步骤1.4中,所述极值数据是作为RNA表达值的标准化测序片段数目为零的数据。4.根据权利要求1所述的利用TCGA数据资源发现直肠癌相关miRNA的方法,其特征在于:所述的步骤2中,差异表达分析选取1.5倍或者2倍的差异倍数,选用三个标准Benjamini–Hochberg方法、FDR方法或者Bonforroni方法校正P-value得到差异表达的miRNA。5.根据权利要求1所述的利用TCGA数据资源发现直肠癌相关miRNA的方法,其特征在于:所述的步骤4中,预测靶基因采用靶基因预测网站中已有数据资源整合和软件预测算...

【专利技术属性】
技术研发人员:陈瑞高娜李晓波孟庆涛吴申申
申请(专利权)人:东南大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1