基于多元熵距离法的微生物基因预测方法技术

技术编号：1757062 阅读：273 留言：0更新日期：2012-04-11 18:40

一种基于多元熵距离法的微生物基因预测方法，其特征在于包括以下步骤：　　　　ａ、设置已知编码的ＯＲＦ和非编码的ＯＲＦ，一一映射到ＥＤＰ相空间，作为初始状态的聚类中心点；　　　　ｂ、读取待检测的微生物ＤＮＡ序列；　　　　ｃ、从ＤＮＡ序列中找出所有最长的ＯＲＦ，记录它们在此序列中的位置，将每个ＯＲＦ都映射成ＥＤＰ相空间上的一点，其初始状态都为未定ＯＲＦ；　　　　ｄ、利用系统初始状态的聚类中心点，根据ＥＤＰ相空间上定义的欧氏距离，在ＥＤＰ相空间对所有的未定ＯＲＦ进行分析判别，将其分为编码ＯＲＦ、非编码ＯＲＦ和未定ＯＲＦ三类；　　　　ｅ、将新判定为编码和非编码的ＯＲＦ加入到聚类中心点，重复步骤ｄ，直到所有的未定ＯＲＦ都归入到编码ＯＲＦ或者非编码ＯＲＦ；　　　　ｆ、将判别为编码类的ＯＲＦ确定为编码蛋白质的基因。（*该技术在2023年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及生物信息技术，尤其涉及微生物基因组序列分析、微生物基因识别、微生物物种识别等生物信息技术。
技术介绍
二十一世纪是生命科学的时代，也是信息科学的时代。随着人类基因组计划(Human Genome Project)的各项任务接近完成，有关核酸、蛋白质的序列和结构数据呈指数增长。面对巨大而复杂的数据，运用计算机管理数据、控制误差、加速分析过程势在必行，生物信息学因此成为当今生命科学和自然科学的重大前沿领域之一，也是二十一世纪自然科学的核心领域之一。以生物信息学研究成果为推动力的生物信息技术的重要性也越来越突出。近年来，计算机技术和互联网技术的发展更是为生物信息的传递提供了硬件基础和实现的条件，大大地推动了生物信息技术的发展。美国能源部于2001年4月紧接着人类基因组计划提出了旨在了解生命奥秘的新的“从基因组到生命(Genome ToLife)”的十年宏伟规划，该计划前言中郑重指出“二十一世纪的生物学最重要的任务是在基因组水平上认识生命的奥秘。毫无疑义，要达到这个目标将依赖于建立在系统生物学和生物信息学相结合基础之上的新一轮的生物信息技术革命。”因此，集信息技术和生物技术于一身的生物信息技术已经成为当前技术革命的热点，它是今后进行几乎所有生物、医药研究开发所必需的舵手和动力，也是未来经济发展的支柱。多年以来，实验方法是解决在基因组DNA序列中发现新基因的主要途径。但是，随着生物信息技术的蓬勃发展，根据理论方法、利用计算机技术即所谓的生物信息学方法进行基因预测越来越成为解决这类问题的重要途径。所谓基因预测，就是利用计算机技术和理论方法对基因组DNA...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员：佘振苏，朱怀球，欧阳正清，姚新秋，
申请(专利权)人：北京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人