当前位置: 首页 > 专利查询>北京大学专利>正文

基于多元熵距离法的微生物基因预测方法技术

技术编号:1757062 阅读:266 留言:0更新日期:2012-04-11 18:40
一种基于多元熵距离法的微生物基因预测方法,其特征在于包括以下步骤:    a、设置已知编码的ORF和非编码的ORF,一一映射到EDP相空间,作为初始状态的聚类中心点;    b、读取待检测的微生物DNA序列;    c、从DNA序列中找出所有最长的ORF,记录它们在此序列中的位置,将每个ORF都映射成EDP相空间上的一点,其初始状态都为未定ORF;    d、利用系统初始状态的聚类中心点,根据EDP相空间上定义的欧氏距离,在EDP相空间对所有的未定ORF进行分析判别,将其分为编码ORF、非编码ORF和未定ORF三类;    e、将新判定为编码和非编码的ORF加入到聚类中心点,重复步骤d,直到所有的未定ORF都归入到编码ORF或者非编码ORF;    f、将判别为编码类的ORF确定为编码蛋白质的基因。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及生物信息技术,尤其涉及微生物基因组序列分析、微生物基因识别、微生物物种识别等生物信息技术。
技术介绍
二十一世纪是生命科学的时代,也是信息科学的时代。随着人类基因组计划(Human Genome Project)的各项任务接近完成,有关核酸、蛋白质的序列和结构数据呈指数增长。面对巨大而复杂的数据,运用计算机管理数据、控制误差、加速分析过程势在必行,生物信息学因此成为当今生命科学和自然科学的重大前沿领域之一,也是二十一世纪自然科学的核心领域之一。以生物信息学研究成果为推动力的生物信息技术的重要性也越来越突出。近年来,计算机技术和互联网技术的发展更是为生物信息的传递提供了硬件基础和实现的条件,大大地推动了生物信息技术的发展。美国能源部于2001年4月紧接着人类基因组计划提出了旨在了解生命奥秘的新的“从基因组到生命(Genome ToLife)”的十年宏伟规划,该计划前言中郑重指出“二十一世纪的生物学最重要的任务是在基因组水平上认识生命的奥秘。毫无疑义,要达到这个目标将依赖于建立在系统生物学和生物信息学相结合基础之上的新一轮的生物信息技术革命。”因此,集信息技术和生物技术于一身的生物信息技术已经成为当前技术革命的热点,它是今后进行几乎所有生物、医药研究开发所必需的舵手和动力,也是未来经济发展的支柱。多年以来,实验方法是解决在基因组DNA序列中发现新基因的主要途径。但是,随着生物信息技术的蓬勃发展,根据理论方法、利用计算机技术即所谓的生物信息学方法进行基因预测越来越成为解决这类问题的重要途径。所谓基因预测,就是利用计算机技术和理论方法对基因组DNA序列中的众多基因及其调控区进行定位。由于生物信息技术的特点,只需花费较低的成本和较快的时间,就能够获得可靠的基因位置、功能位点位置等重要信息。基因预测方法是对生物基因组信息进行分析和开发的必不可少的工具,是今后发现新基因的重要手段,也是生物信息学研究的基础问题之一。当前生物基因组数据呈现爆炸式增长的趋势,基因组信息的集成、DNA序列数据的管理、分析和应用都变得更为复杂,因此,专业和信息技术的服务将会成为主导,尤其是利用计算机技术、信息技术进行基因预测的服务,将成为后基因组时代的生物医学技术、制药
发展的核心技术。微生物(包括细菌、放线菌、真菌、病毒、立克次氏体、枝原体、衣原体及一些单细胞低等动植物)是进行现代分子遗传学研究的良好材料,是研究人类遗传学必不可少的一条途径;同时,微生物作为微生物基因工程的反应器,又能直接运用于干扰素、人胰岛素、生长激素、乙型肝炎疫苗等现代基因工程产品的生产,在农业、工业和生物制药工程上的应用十分广泛。因此,微生物基因组遗传信息的研究对现代生命科学和基因工程领域的发展具有十分重要的意义,其经济利益不可估量。尽管目前人们对某些微生物(例如大肠杆菌)的遗传学特性研究得较为透彻;但是,微生物物种数目据估计多达2~3百万种,其中为科学家所识别的比例还不到全部的0.5%,到2003年初,对它们全基因组DNA序列已经完成测序并对基因进行定位的则仅100余种,这些基因的定位大多数是通过国际上现有的微生物基因预测软件系统的计算来实现的。随着人们对现有微生物基因组水平上的生命奥秘的进一步的研究,而且随着对更多未知微生物物种的研究和生物工程运用的推进,可以预见,基因预测软件系统将越来越体现出其重要的技术作用和经济价值。当前最著名的微生物基因预测软件系统主要有美国佐治亚理工学院M.Borodovsky等发展的GeneMark软件系统(包括最近推出的GeneMarkS)和美国约翰·霍普金斯大学S.L.Salzberg等推出的GLIMMER软件系统。它们进行基因预测的原理主要是提取DNA序列的某些局部特征的信息,例如启动子信号以及邻近碱基的关联结构,由此采用了高阶马尔科夫链或隐马尔科夫模型。这两个软件系统是目前国际上精度最高的软件系统,可以通过互联网访问。GeneMark和GeneMarkS的网址为http//opal.biology.gatech.edu/GeneMark,用户必须通过互联网向程序所在的服务器提交需要进行基因预测的未知DNA序列,经过系统分析预测得到的基因信息包括每个基因的起始位点和终止位点的定位、基因的转录方向以及基因的长度等,最后通过电子邮件的方式发送给用户。GLIMMER的网址为http//www.tigr.org/software/glimmer或http//www.cs.jhu.edu/labs/compbio/glimmer.html,该系统包括两个相关的可执行程序,用户可以在上述网站下载这两个程序,在本地计算机上运行。程序运行结果给出未知DNA序列中的基因位置信息(包括每个基因的位置、长度和转录方向),将这些信息存为一个文本文件。尽管自1998年以来GeneMarkS和GLIMMER已经被国际上多家测序中心采用,单独或与其他软件配合对新测序列进行基因识别,但是,有越来越多的证据表明,现有基因预测系统注释的微生物基因信息存在的错误要远远高于人们的想象,这些错误主要是由于那些预测系统所采用的基因预测方法带来的。因此,发展新的基因预测方法,设计更高效、更精确的微生物基因预测系统,是生物信息技术发展的迫切需要。
技术实现思路
本专利技术的目的是提供先进的微生物基因预测方法,可以方便而准确地测试微生物地基因组序列。为此,本专利技术采用如下方案一种,其特征在于包括以下步骤a、设置已知编码的ORF和非编码的ORF,一一映射到EDP相空间,作为初始状态的聚类中心点;b、读取待检测的微生物DNA序列;c、从DNA序列中找出所有最长的ORF,记录它们在此序列中的位置,每个ORF都映射成EDP相空间上的一点,初始状态都为未定ORF;d、利用系统初始状态的聚类中心点,根据EDP相空间上定义的欧氏距离,在EDP相空间对所有的未定ORF进行分析判别,将其分为编码ORF、非编码ORF和未定ORF三类;e、将新判定为编码和非编码的ORF加入到聚类中心点,重复步骤d,直到所有的未定ORF都归入到编码ORF或者非编码ORF;f、将判别为编码类的ORF确定为编码蛋白质的基因。所述的步骤b中,该微生物DNA序列,既可以是全基因组序列,也可以是一段连续基因组序列。所述的步骤d中,采用如下方式Dc/Dnc<coef其中,Dc和Dnc是待测ORF距已知编码ORF平均中心点和已知非编码ORF平均中心点的距离,coef是可调系数;当该式成立时,该DNA序列为编码序列;当该式不成立时,该DNA序列为非编码序列。所述的coef取值为1。所述的ORF是指出现在DNA序列中以翻译起始密码子ATG开始,沿着转录方向,以最近的翻译终止密码子TAA、TGA、TAG结束的一段连续的三联码核酸序列。所述的,还包括将步骤f中,确定为编码蛋白的基因的信息,形成文本文件并输出的步骤。采用本专利技术的预测方法,可以方便准确地预测出基因组序列中的编码蛋白质基因及其位置。预测精度与国际现有最好技术至少处于同一水平,并且预测速度明显提高,使用方法简便易行。附图说明图1是本专利技术的测试流程示意图;图2是本专利技术具体实施方式的测试界面示意图;图3是本专利技术具体实施方式的另一个测试界面示意图。具体实施例方式下本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:佘振苏朱怀球欧阳正清姚新秋
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1