当前位置: 首页 > 专利查询>中南大学专利>正文

一种基于后缀数组的模糊串联重复序列识别方法技术

技术编号:10655127 阅读:209 留言:0更新日期:2014-11-19 16:36
本发明专利技术公开了一种基于后缀数组的模糊串联重复序列识别方法,将得到的DNA碱基序列以字符串形式输入计算机中;基于字典排序算法对基因序列进行处理,生成相应的后缀数组;基于后缀数组得到最大公共前缀列;基于精确串联重复识别算法得到序列的最大串联重复;基于改进的FFT变换得到序列的最优偏移量;基于动态规划算法对序列进行比对;基于模糊串联重复识别算法得到序列的模糊串联重复。本发明专利技术能快速识别与准确分析基因组中的重复序列,找出序列的模糊串联重复。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了,将得到的DNA碱基序列以字符串形式输入计算机中;基于字典排序算法对基因序列进行处理,生成相应的后缀数组;基于后缀数组得到最大公共前缀列;基于精确串联重复识别算法得到序列的最大串联重复;基于改进的FFT变换得到序列的最优偏移量;基于动态规划算法对序列进行比对;基于模糊串联重复识别算法得到序列的模糊串联重复。本专利技术能快速识别与准确分析基因组中的重复序列,找出序列的模糊串联重复。【专利说明】
本专利技术涉及DNA重复序列识别领域,特别是一种基于后缀数组的模糊串联重复序 列识别方法。
技术介绍
人类基因组计划(Human Genomic Project, HGP)的完成,以及其他物种测序工作 的进行,使得生物序列数据以前所未有的速度迅速增加。海量的数据是计算机成为生物学 研究中不可或缺的重要工具。通过测序得到基因组序列数据仅是成功的第一步,更重要的 工作是理解和使用这些数据,获得隐藏在数据后面的知识和规律,加深对生命现象的理解。 与本申请方法相近的识别方法有TRF(Tandem Repeats Finder)算法和REPuter 程序。其中TRF是由Benson于1999年开发的串联重复识别程序,它的不足之处是对重复 周期大小有限制,TRF 3. 21版本中,所允许的最大重复周期为2000bp ;而REPuter程序采用 基于后缀树的算法来识别重复序列,当序列较长时,构造的后缀数将很大,占用很大的内存 空间,输入序列中的每个字符平均需要12. 5字节的存储量,因此对程序应用于大数据量的 序列是一个限制。
技术实现思路
本专利技术所要解决的技术问题是,针对现有技术不足,提供一种基于后缀数组的模 糊串联重复序列识别方法,快速识别与准确分析基因组中的重复序列,找出序列的模糊串 联重复。 为解决上述技术问题,本专利技术所采用的技术方案是:一种基于后缀数组的模糊串 联重复序列识别方法,包括以下步骤: 1)将DNA序列表示成包含A、C、G、T四个字母的字符串; 2)使用字典排序法对上述字符串序列排序,得到上述字符串序列的后缀数组; 3)根据上述后缀数组得到所述字符串序列的最大公共前缀列; 4)根据上述后缀数组和最大公共前缀列,利用串联重复识别方法求得所述字符串 序列的最大串联重复序列; 5)将所述字符串序列的左/右扩展序列与所述最大串联重复序列进行变换,得到 所述字符串序列的最优偏移量; 6)利用动态规划方法得到所述字符串序列的最佳比对; 7)根据上述最佳比对,利用回溯法,得到所述字符串序列的模糊串联重复序列。 所述步骤2)中,后缀数组获取过程如下: 1)考察长为η且用A、C、G、T四个字符表示的DNA序列5,用#表示DNA序列S的 终止符;将DNA序列S中从第i个字母开始一直到终止符#的子序列作为DNA序列S的后 缀,包括#在内,共有n+1个后缀; 2)将上述n+1个后缀按字典顺序排列,所有后缀的具体的排序方法如下:先按照 所有后缀第一个字母的先后顺序排列,若后缀的第一个字母相同则按照第二个字母的先后 顺序排列,依此类推,得到一个由DNA序列S的所有后缀按照字典顺序排列而成的后缀表; 3)保存每个后缀的首子母在DNA序列S中的起始标号,将后缀表中所有后缀的起 始标号存入一个数组M,第i个后缀的起始标号用M表示,后缀表中的n+1个后缀的起 始标号用数组Μ中的元素M表示,数组Μ即为后缀数组;其中,1彡i彡η。 所述最大公共前缀列获取过程如下: 1)用数组lCp记录后缀表中第i+Ι个后缀和第i个后缀之间的最大公共前缀 的长度,并令lcp为0,得到最大公共前缀列LCP ; 2)令lcp(i,j)表示第i+Ι个后缀和第j+Ι个后缀之间的最大公共前缀的长度, 则: lcp (i,j) = min {lcp ,lcp ,...,lcp ]}。 所述最大串联重复序列的获取过程如下: 计算DNA序列S中所有长度length > ml,并且满足以下条件的最大公共如缀列: a)考察LCP的每个元素 lcp,若lcp〈 (ml+l)/2,则标记lcp;那么,未做 标记的 LCP 列元素 lcp均满足 lcp (ml+l)/2>ml/2 ; b)考察LCP列元素,若前后两个标记过的LCP列元素之间共有k个未标记的元 素 lcp 、lcp 、…、lcp ,则计算lcp (1···]·),并且计算是否存在一个起始于 位置position = min {M, Μ}的右最大重复,若存在这样一个右最大重复,设其为 repeat, repeat e R,R为右最大重复集合,l〈j〈k ; c)判断repeat是否属于左最大重复集合L,若repeat e L,则repeat e N,N为 最大串联重复集合; d)判断repeat是否大于最小长度ml和最小周期minlen(比如最小周期默认为 10,最小长度默认为6),若否,则将其删除; e)重复步骤b)到d)直至所有未标记元素均被处理,得到最大串联重复序列。 所述最优偏移量计算过程如下: 1)将所述最大串联重复序列的左扩展序列或者右扩展序列作为Si,将所述最大串 联重复序列作为序列S 2 ; 2)计算Si的向量α⑴和S2的向量α '⑴;其中a e Σ = {A,G,C,T}; 3)对向量α⑴进行FFT变换,将向量α '(i)倒置后进行FFT变换; 4)将步骤3)中经FFT变换后的向量进行点乘,得到Ca (d) ;d表示元素的位置; 5)计算偏移向量 C (d),C (d) = CA (d) +Cc (d) +Ce(d) +CT (d),则偏移向量 C (d)中的 元素大小呈周期性变化,设变化周期为?;((1); 6)C(d)中第一个变化周期Te(d)内最大元素值对应的d值即为最优偏移量|d|。 所述最佳比对序列计算过程如下: 1)将序列S2向左或向右偏移|d|个单位; 2)根据递归公式计算得分矩阵H,其中得分矩阵Η中的元素H(m,η)的递归公式 为: 【权利要求】1. ,其特征在于,包括以下步骤: 1) 将DNA序列表示成包含A、C、G、T四个字母的字符串; 2) 使用字典排序法对上述字符串序列排序,得到上述字符串序列的后缀数组; 3) 根据上述后缀数组得到所述字符串序列的最大公共前缀列; 4) 根据上述后缀数组和最大公共前缀列,利用串联重复识别方法求得所述字符串序列 的最大串联重复序列; 5) 将所述字符串序列的左/右扩展序列与所述最大串联重复序列进行变换,得到所述 字符串序列的最优偏移量; 6) 根据上述最优偏移量,利用动态规划方法得到所述字符串序列的最佳比对序列; 7) 利用上述最佳比序列,得到所述字符串序列的模糊串联重复序列。2. 根据权利要求1所述的基于后缀数组的模糊串联重复序列识别方法,其特征在于, 所述步骤2)中,后缀数组获取过程如下: 1) 考察长为η且用A、C、G、T四个字符表示的DNA序列S,用#表示DNA序列S的终止 符;将DNA序列S中从第i个字母开始一本文档来自技高网
...

【技术保护点】
一种基于后缀数组的模糊串联重复序列识别方法,其特征在于,包括以下步骤:1)将DNA序列表示成包含A、C、G、T四个字母的字符串;2)使用字典排序法对上述字符串序列排序,得到上述字符串序列的后缀数组;3)根据上述后缀数组得到所述字符串序列的最大公共前缀列;4)根据上述后缀数组和最大公共前缀列,利用串联重复识别方法求得所述字符串序列的最大串联重复序列;5)将所述字符串序列的左/右扩展序列与所述最大串联重复序列进行变换,得到所述字符串序列的最优偏移量;6)根据上述最优偏移量,利用动态规划方法得到所述字符串序列的最佳比对序列;7)利用上述最佳比序列,得到所述字符串序列的模糊串联重复序列。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘正春陈熹张春明赵雪丰朱自强
申请(专利权)人:中南大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1