一种基于后缀数组的模糊串联重复序列识别方法技术

技术编号：10655127 阅读：219 留言：0更新日期：2014-11-19 16:36

本发明专利技术公开了一种基于后缀数组的模糊串联重复序列识别方法，将得到的DNA碱基序列以字符串形式输入计算机中；基于字典排序算法对基因序列进行处理，生成相应的后缀数组；基于后缀数组得到最大公共前缀列；基于精确串联重复识别算法得到序列的最大串联重复；基于改进的FFT变换得到序列的最优偏移量；基于动态规划算法对序列进行比对；基于模糊串联重复识别算法得到序列的模糊串联重复。本发明专利技术能快速识别与准确分析基因组中的重复序列，找出序列的模糊串联重复。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术公开了，将得到的DNA碱基序列以字符串形式输入计算机中；基于字典排序算法对基因序列进行处理，生成相应的后缀数组；基于后缀数组得到最大公共前缀列；基于精确串联重复识别算法得到序列的最大串联重复；基于改进的FFT变换得到序列的最优偏移量；基于动态规划算法对序列进行比对；基于模糊串联重复识别算法得到序列的模糊串联重复。本专利技术能快速识别与准确分析基因组中的重复序列，找出序列的模糊串联重复。【专利说明】
本专利技术涉及DNA重复序列识别领域，特别是一种基于后缀数组的模糊串联重复序列识别方法。
技术介绍
人类基因组计划（Human Genomic Project, HGP)的完成，以及其他物种测序工作的进行，使得生物序列数据以前所未有的速度迅速增加。海量的数据是计算机成为生物学研究中不可或缺的重要工具。通过测序得到基因组序列数据仅是成功的第一步，更重要的工作是理解和使用这些数据，获得隐藏在数据后面的知识和规律，加深对生命现象的理解。与本申请方法相近的识别方法有TRF(Tandem Repeats Finder)算法和REPuter 程序。其中TRF是由Benson于1999年开发的串联重复识别程序，它的不足之处是对重复周期大小有限制，TRF 3. 21版本中，所允许的最大重复周期为2000bp ;而REPuter程序采用基于后缀树的算法来识别重复序列，当序列较长时，构造的后缀数将很大，占用很大的内存空间，输入序列中的每个字符平均需要12. 5字节的存储量，因此对程序应用于大数据量的序列是一个限...

【技术保护点】
一种基于后缀数组的模糊串联重复序列识别方法，其特征在于，包括以下步骤：1)将DNA序列表示成包含A、C、G、T四个字母的字符串；2)使用字典排序法对上述字符串序列排序，得到上述字符串序列的后缀数组；3)根据上述后缀数组得到所述字符串序列的最大公共前缀列；4)根据上述后缀数组和最大公共前缀列，利用串联重复识别方法求得所述字符串序列的最大串联重复序列；5)将所述字符串序列的左/右扩展序列与所述最大串联重复序列进行变换，得到所述字符串序列的最优偏移量；6)根据上述最优偏移量，利用动态规划方法得到所述字符串序列的最佳比对序列；7)利用上述最佳比序列，得到所述字符串序列的模糊串联重复序列。

【技术特征摘要】

【专利技术属性】
技术研发人员：刘正春，陈熹，张春明，赵雪丰，朱自强，
申请(专利权)人：中南大学，
类型：发明
国别省市：湖南;43

全部详细技术资料下载我是这个专利的主人