一种用一维细胞神经网络检测DNA序列相似度的方法技术

技术编号:9618540 阅读:194 留言:0更新日期:2014-01-30 06:26
本发明专利技术公开了一种用一维细胞神经网络检测DNA序列相似度的方法,首先设计出一维细胞神经网络基本模型,然后利用这种模型建构一个一维的对偶细胞神经网络;再用两个待检测的DNA序列信息对该网络进行初始化,网络运行过程中,记录各时刻网络中的细胞状态和输出,据此形成最优输出矩阵;再对最优输出矩阵中的元素进行遍历,从而确定最佳的对齐路径;最后根据对齐路径对两个序列进行空格插入操作以便将两个序列全局对齐;序列对齐后,再根据对齐的碱基数量和总的碱基数量来计算其全局相似度。经过测试对比表明,本发明专利技术在保证检测准确的基础上,对于长度较长的DNA序列,所需的计算时间比现有方法明显有较大幅度地减少。

Method for detecting similarity of DNA sequence by using one-dimensional cellular neural network

The invention discloses a method for detecting DNA sequence similarity of cellular neural networks, we design the basic model of one-dimensional cellular neural network, and then construct the dual cellular neural network is a one-dimensional using this model; then two to DNA sequence information detection to initialize the network, network operation process, record the when cells in the network state and output, whereby the formation of optimal output matrix; then search for the optimal output matrix elements, so as to determine the best alignment path; finally aligned path of two space sequence insertion operation so that the two global sequence alignment based on sequence alignment; after, according to the number of aligned bases and the total base to calculate the global similarity. The test shows that the calculation time required for the longer DNA sequence is significantly reduced compared with the existing method on the basis of ensuring accurate detection.

【技术实现步骤摘要】
—种用一维细胞神经网络检测DNA序列相似度的方法
本专利技术属于生物信息学中的DNA序列相似度检测
,更为具体地讲,涉及一种用一维细胞神经网络检测DNA序列相似度的方法,用于对DNA双序列全局相似度的检测。
技术介绍
20世纪70年代,DNA测序方法的出现产生出许多生物分子序列数据,这些数据正以几何速度迅速增长,它已成为人类实践产生数据量最大的领域。在人类基因组序列图绘制成功后,人们又相继启动了各种动植物的基因组测序计划。但是,数据并不等于知识和信息,研究和处理这些数据的任务越来越重,我们必须寻找高效地方法来解决这类问题。DNA 一般是通过碱基配对相连接以双链形式存在,而碱基的配对存在特异性,总是一条链上的碱基G与另一条链上的碱基C连接,一条链上的碱基T与另一条链上的碱基A连接。DNA核酸序列就是由这4个基本元素组成的字符序列。因此,DNA序列匹配实际上就是匹配两个由ACGT这4个字符中任意一个字符组成的序列之间的相似度。序列比对就是一个通过某种特定的算法寻找两条或多条序列之间最大匹配。匹配碱基数的过程通过序列比对的方法来挖掘序列之间在结构或功能上的相似性,这对于生物数据库的搜索算法,蛋白质或DNA的结构预测、进化分析和功能分析具有非常重要的实践意义。根据进行比对的生物序列的个数的不同,序列比对方法可以分为双序列比对方法和多序列比对方法。双序列比对方法又可以分为三种,分别是点阵法、动态规划算法和启发式算法(BLAST算法、FASTA算法等)。多序列比对是一个NP完全问题,是一个尚未解决的难题,它可以分为以下几种:精确比对算法、迭代比对算法、渐进比对算法、启发式算法和基于图论的比对算法等。双序列比对方法中,点阵法是1970年McIntyre和Gibbs首先提出来的,是最基本的一种可视化的双序列比对方法点阵法的优点是可以直接的发现两个序列间所有可能的匹配,但是它得到的比对结果不够精确,而且只适用于较短的两个序列,面对如今数据量庞大的生物序列数据明显存在着缺陷。动态规划算法的基本思想就是将待求解的问题分解成若干个子问题,先分别把子问题的解求解出来,然后存储子问题的解而避免重复计算,最后通过将子问题的解合并起来就得到了原问题的解。采用动态规划算法求解生物序列比对问题可以在给定的得分系统下得到最优的比对结果,但是如果问题量特别大,那么它的计算速度会非常慢,而且这种方法对参数的选择很敏感,参数的微小改动也会使比对的结果有着较大的变化。求解生物序列比对问题的动态规划算法主要有1970年由Needleman和Wunsch提出的一种全局序列比对算法-Needleman-Wunsch算法(简称NW算法),Smith和Waterman于1981年提出的一种用来解决寻找具有局部相似性区域的Smith-Waterman算法(简称为SW算法),1985年由Pearsom和Lipman首先提出并在1988年进行了改进的一种FASTA算法双序列比对的启发式算法,1990年由Altschul等人提出的一种BLAST算法双序列比对的启发式算法。而传统的比对算法在解决数据量较大的双序列比对问题时,所需要的时间和存储空间随着序列条数和序列长度的增长呈指数级增长,因此,我们需要研究更好更新的方法来提高算法的搜索速度,减少计算时间。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种用一维细胞神经网络检测DNA序列相似度的方法,以减少计算时间。为实现上述专利技术目的,本专利技术用一维细胞神经网络检测DNA序列相似度的方法,其特征在于,包括以下步骤:(I)、设计一维细胞神经网络基本模型将单细胞进行链状排列,各细胞序号依次用“…、i_l、1、i+l、…”来表示,其中的字母i表不细胞的排列序号;该基本模型中细胞状态用微分方程组来表示:本文档来自技高网
...

【技术保护点】
一种用一维细胞神经网络检测DNA序列相似度的方法,包括以下步骤:(1)、设计一维细胞神经网络基本模型将单细胞进行链状排列,各细胞序号依次用“…、i?1、i、i+1、…”来表示,其中的字母i表示细胞的排列序号;该基本模型中细胞状态用微分方程组来表示:C∂xi(t)∂t=-xi(t)Rx+A⊗Yi(t)+B⊗Ui(t)+Iiyi(t)=f(xi(t))---(1)其中,方程组(1)中,t表示时间,xi表示细胞i的状态,A是反馈模板,B是控制模板,Ii、Rx和C分别是三个常量,f(xi(t))是细胞状态的输出调制函数;Yi(t)表示细胞i包括自己的邻域输出矩阵,Ui(t)表示细胞i包括自己的邻域输入,分别表示为:Yi(t)=yi-1(t)yi(t)yi(t+1)Ui(t)=ui-1(t)ui(t)ui+1(t);细胞输出调制函数f(xi(t))的具体形态为:yi(t)=f(xi(t))=12(|xi(t)+1|-|xi(t)-1|)---(2)(2)、构建一维对称细胞神经网络用步骤(1)设计的一维细胞神经网络模型,先分别生成主子网CNN1和从子网CNN2,再由二者构建一个一维对偶细胞神经网络:在一维对偶细胞神经网络中,主子网CNN1是固定不动的,而从子网CNN2则是可以沿主子网CNN1平行移动,时间t每增加1,从子网CNN2移动一步,且从子网CNN2每次移动的距离等于主子网CNN1中两个相连细胞之间的距离;主子网CNN1由细胞0、1、2、…、m?1组成,从子网CNN2由细胞0、1、2、…、n组成;在一维对偶细胞神经网络中,令C=1、Rx=1,则用以表示细胞状态的微分方程简化为:xi(t+1)=Σl∈L(i)A⊗Yl(t)+Σl∈L(i)B⊗Ul(t)+Ii---(3);时间T=t+1时,细胞i的输出yi(t+1)相应被重新定义为:yi(t+1)=f(xi(t+1))=12(|xi(t+1)+1|-|xi(t+1)-1|)---(4)(3)、利用步骤(2)构建的一维对偶细胞神经网络,对两个待检测相似度的DNA序列进行全局的碱基对齐;3.1)、对偶细胞网络的初始化待匹配的两个DNA碱基序列S1和S2的碱基数量分别为K1和K2,碱基序列的碱基代码分别表示为S1(k1)和S2(k2),且0≤k1≤K1?1和0≤k2≤K2?1,则主子网CNN1和从子网CNN2的细胞数量分别被初始化为K1+1和K2+1,即细胞数量m=K1+1和n=K2+1;用u1(i)和u2(j)表示主子网CNN1的第i个细胞输入和从子网CNN2的第j个细胞输入,则满足0≤i≤K1且0≤j≤K2,主子网CNN1和从子网CNN2中各细胞的细胞输入分别按公式(5)和公式(6)进行赋值:其中,符号“*”表示细胞的输入u设置为空值;主子网CNN1中的另一个常量参数初始化赋值为Ii=2;主子网CNN1中使用到的反馈模板Α和控制模板B分别初始化为下列两个常数矩阵:A=[0?1?0]和B=[0?1??1];此外,还要将主子网CNN1中细胞i,i=0,1,..,K1,的初始状态即t=0时均分别设置为xi(0)=0、yi(0)=0;主子网CNN1的第0个细胞和从子网CNN2第K2个细胞对齐;3.2)、迭代地计算主子网CNN1中细胞在各时刻的状态和输出时间t每增加1,从子网CNN2沿主子网CNN1的排列需要增加方向移动一步;对主子网CNN1,如果细胞i的正下方的那个细胞jL存在,则选取其3个邻域细胞即细胞i?1,i以及从子网CNN2中正处于i正下方的那个细胞jL;在时间t,t=1,2,…,m+n?1时,当时间t和细胞序号i同时满足条件1≤t≤m+n?1和1≤i≤m+1时,分别计算各细胞的最优状态和最优输出而如果细胞i的正下方的那个细胞jL不存在,则不计算细胞最优状态的和最优输出值;所述的最优状态和最优输出分别按下列公式计算:xi‾(t)=max{xi-1(t-2)+2Ii,xi-1(t-1)-Ii,xi(t-1)-Ii}---(7)其中,函数max(...)表示求取输入参数中的最大值,xi?1(t?2)、xi?1(t?1)和xi(t?1)均按公式(3)进行计算;3.3)、形成细胞的最优输出矩阵根据步骤3.2)计算得到主子网CNN1的所有细胞在各时刻的最优状态和最优输出,然后按照第1列为细胞1从t=1...

【技术特征摘要】
1.一种用一维细胞神经网络检测DNA序列相似度的方法,包括以下步骤: (I )、设计一维细胞神经网络基本模型 将单细胞进行链状排...

【专利技术属性】
技术研发人员:纪禄平郝德水周龙黄青君尹力杨洁
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1