The invention discloses a method and a system design target region specific liquid probe, wherein the method comprises the following steps: (1) the target area to the upper and lower reaches a predetermined length, in order to obtain the target area after processing, the target area was treated by a number of Wnum (the window; 2) for the construction of the initial probe set through the target area processing; (3) the first selection of initial probe set; (4) to determine the concentration of each probe after the first screening of a probe probe attribute parameter; (5) probe is based on the parameters of the probe, after first screening set second screening; (6) to determine the concentration of each probe after second screening a probe Pscore score; (7) for each window, the value of Pscore is determined based on an optimal probe; (8) with the optimal probe all window. Using this method, a specific liquid probe for target region can be obtained rapidly and efficiently.
【技术实现步骤摘要】
设计目标区域特异性液相探针的方法和系统
本专利技术涉及设计目标区域特异性液相探针的方法和系统。
技术介绍
伴随测序技术的不断发展,在未来我们可以在较快的时间内以较为廉价的价格获得人类的基因组序列,对于DNA的研究将更加便利。但在现阶段,想要获得一个人类基因组的DNA测序序列,通常需要较为昂贵的价格,而且对于研究者而言,更多的针对某种疾病来研究可能引起该疾病的基因的DNA序列的变异情况,对于研究者而言,全基因组测序一方面价格较高,另一方面存在有大量的冗余数据。因此如果可以通过某些技术来捕获期望的目标区域的DNA片段,通过对捕获的目标DNA片段进行测序,一方面节约经费,另一方面缩小测序范围,降低数据冗余。目标区域捕获测序技术应运而生,为生物研究带来了极大的便利。目标区域捕获技术依托于探针。探针通常分为DNA探针和RNA探针,都表示一段与目的基因或DNA(目标序列)互补的特异核苷酸序列。经过长期的发展,现阶段的探针由原来的20多bp逐步发展到现在的几十bp甚至上百bp的长度,不同的长度通常对应于不同的检测应用,对于人类基因组这类的区域捕获,通常探针长度在50bp以上。目前主流的杂交捕获芯片有两种:On-arraycapture和In-solutioncapture,由于On-arraycapture有着较为明显的劣势,因此现在主流的杂交捕获芯片都是In-solutioncapture。对于In-solution,RocheNimbleGen和Agilent是现阶段占据最大市场的份额的两家芯片提供商,用户通过提供感兴趣的目标区域给NimbleGen和Agilent ...
【技术保护点】
一种设计目标区域特异性液相探针的方法,其特征在于,包括以下步骤:(1)将目标区域向上下游延伸预定长度,以便获得经过处理的目标区域,所述经过处理的目标区域是由数量为Wnum的窗口构成的;(2)针对所述经过处理的目标区域,间隔固定步长选取长度为Plen的探针序列,以便构建获得初始探针集;(3)对所述初始探针集进行第一筛选,去除含有未知碱基的探针序列,以便获得经过第一筛选的探针集;(4)确定所述经过第一筛选的探针集中每一条探针的探针属性参数;(5)基于所述探针属性参数,对所述经过第一筛选的探针集进行第二筛选,以便获得经过第二筛选的探针集;(6)确定所述经过第二筛选的探针集中每一条探针的分值Pscore;(7)针对所述经过处理的目标区域的每个窗口,基于所述经过第二筛选的探针集中在所述窗口内的所有探针的Pscore值,确定一条最优探针;以及(8)合并所有窗口的最优探针,以便获得最优探针集。
【技术特征摘要】
1.一种设计目标区域特异性液相探针的方法,其特征在于,包括以下步骤:(1)将目标区域向上下游延伸预定长度,以便获得经过处理的目标区域,所述经过处理的目标区域是由数量为Wnum的窗口构成的;(2)针对所述经过处理的目标区域,间隔固定步长选取长度为Plen的探针序列,以便构建获得初始探针集;(3)对所述初始探针集进行第一筛选,去除含有未知碱基的探针序列,以便获得经过第一筛选的探针集;(4)确定所述经过第一筛选的探针集中每一条探针的探针属性参数;(5)基于所述探针属性参数,对所述经过第一筛选的探针集进行第二筛选,以便获得经过第二筛选的探针集;(6)确定所述经过第二筛选的探针集中每一条探针的分值Pscore;(7)针对所述经过处理的目标区域的每个窗口,基于所述经过第二筛选的探针集中在所述窗口内的所有探针的Pscore值,确定一条最优探针;以及(8)合并所有窗口的最优探针,以便获得最优探针集。2.根据权利要求1所述的方法,其特征在于,在步骤(1)中,所述预定长度为30-50bp,优选40bp,任选地,在步骤(2)中,所述固定步长为1-3bp,优选1bp,任选地,Plen为30-200bp,优选90bp,任选地,在步骤(4)中,所述探针属性参数为选自探针序列中简单重复序列的含量Prepeat、探针序列的15mer的频数的平均值PavgKmerFreq、探针序列在源基因组中的比对次数PwHits和探针序列是否含有连续相同的碱基PisPoly的至少一种,任选地,Prepeat是按照以下公式计算获得的:其中,Rep(P)为探针中的小写字符的数量,Plen为探针的长度,任选地,PavgKmerFreq是按照以下公式计算获得的:其中,j=Plen-15+1,f(i)为探针上第i个15mer的频数,Plen为探针的长度,任选地,所述连续相同碱基数量为8,任选地,在步骤(5)中,所述第二筛选进一步包括:(a)判断探针序列的Prepeat是否超过参数设定值,如果是则丢弃该探针;(b)判断探针序列的PavgKmerFreq是否超过参数设定值,如果是则丢弃该探针;(c)判断探针序列的PwHits是否超过参数设定值,如果是则丢弃该探针;(d)判断探针序列的PisPoly属性是否为真,如果是则丢弃该探针,其中,以探针序列含有连续相同的碱基表示PisPoly属性为真,以探针序列不含有连续相同的碱基表示PisPoly属性为假,任选地,Prepeat的参数设定值为0~1,PavgKmerFreq的参数设定值为1~255优选100,PwHits的参数设定值为大于1。3.根据权利要求1所述的方法,其特征在于,在步骤(6)中,Pscore是按照以下公式计算获得的:Pscore=WwHits*PwHits+Wtm*Tmscore+WkmerFreq*Kmerscore+Wgc*GCscore+Wrepeat*Repscore其中,WwHits+Wtm+WkmerFreq+Wgc+Wrepeat=1,PwHits为探针序列在源基因组中的比对次数,WwHits为PwHits的权重系数,Tmscore是按照以下公式计算获得的:Tmscore=-|Ptm-Tmexpc|/Tmexpc,其中Tmexpc为通过参数设置的预期的探针的解链温度,Ptm为探针的解链温度,Ptm=81.5+16.6(log10([Na+]))+0.41*Pgc-600/Plen,[Na+]表示钠离子的浓度,Pgc表示探针的GC含量,Plen为探针的长度,Wtm为Tmscore的权重系数,Kmerscore是按照以下公式计算获得的:Kmerscore=1/PavgKmerFreq,其中j=Plen-15+1,f(i)为探针上第i个15mer的频数,Plen为探针的长度,WKmerFreq为Kmerscore的权重系数,GCscore是按照以下公式计算获得的:其中GC(P)为探针的GC碱基的数量,GCmin和GCmax分别为通过参数设置的GC碱基数量的最小值和最大值,GCmid=(GCmin+GCmax)/2,Wgc为GCscore的权重系数,Repscore是按照以下公式计算获得的:Repscore=-Prepeat其中Prepeat探针简单重复序列的含量,Rep(P)为探针中的小写字符的数量,Plen为探针的长度,Wrepeat为Repscore的权重系数。4.根据权利要求1所述的方法,其特征在于,在步骤(1)中,Wnum是按照以下公式计算获得的:Wnum=Targetsize*Pdepth/Plen,其中,Targetsize为目标区域的大小,Pdepth为探针深度,Plen为探针长度,任选地,在步骤(7)中,针对所述经过处理的目标区域的每个窗口,将所述经过第二筛选的探针集里起始位置在所述窗口内的所有探针中Pscore值最高的探针作为最优探针。5.根据权利要求1所述的方法,其特征在于,进一步包括:(9)确定所述最优探针集对所述目标区域的覆盖情况;以及(10)基于所述最优探针集对所述目标区域的覆盖情况,进行如下操作:A、当所述最优探针集覆盖了所述目标区域时,终止操作;B、当所述目标区域中存在没有被所述最优探针集覆盖的区域,且没有被覆盖的区域达到45bp或者占所述目标区域大小的20%以上时,使用用户设置的更宽松的Prepeat,返回重复步骤(4)-(8),对所述没有被覆盖的区域重新进行探针筛选,直到使用了用户允许的最大的Prepeat为止,任选地,Prepeat是按照以下公式计算获得的:其中,Rep(P)为探针中的小写字符的数量,Plen为探针的长度。6.一种用于设计目标区域特异性液相探针的系统,其特征在于,包括:区域延伸装置,所述区域延伸装置用于将目标区域向上下游延伸预定长度,以便获得经过处理的目标区域,所述经过处理的目标区域是由数量为Wnum的窗口构成的;初始探针集构建装置,所述初始探针集构建装置与所述区域延伸装置相连,用于针对所述经过处理的目标区域,间隔固定步长选取长度为Plen的探针序列,以便构建获得初始探针集;第一筛选装置,所述第一筛选装置与所述初始探针集构建装置相连,用于对所述初始探针集进行第一筛选,去除含有未知碱基的探针序列,以便获得经过第一筛选的探针集;探针属性参数确定装置,所述探针属性参数确定装置与所述第一筛选装置相连,用于确定所述经过第一筛...
【专利技术属性】
技术研发人员:张浩,李振宇,马升升,李红玉,李建康,黄慧强,申丹,蒋慧,张建国,
申请(专利权)人:深圳华大基因科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。