设计目标区域特异性液相探针的方法和系统技术方案

技术编号:16456828 阅读:211 留言:0更新日期:2017-10-25 21:05
本发明专利技术公开了设计目标区域特异性液相探针的方法和系统,其中该方法包括以下步骤:(1)将目标区域向上下游延伸预定长度,以便获得经过处理的目标区域,所述经过处理的目标区域是由数量为Wnum的窗口构成的;(2)针对经过处理的目标区域构建获得初始探针集;(3)对初始探针集进行第一筛选;(4)确定经过第一筛选的探针集中每一条探针的探针属性参数;(5)基于探针属性参数,对经过第一筛选的探针集进行第二筛选;(6)确定经过第二筛选的探针集中每一条探针的分值Pscore;(7)针对每个窗口,基于Pscore值确定一条最优探针;(8)合并所有窗口的最优探针。利用该方法能够快速、高效地设计获得目标区域的特异性液相探针。

Method and system for designing target specific region liquid probes

The invention discloses a method and a system design target region specific liquid probe, wherein the method comprises the following steps: (1) the target area to the upper and lower reaches a predetermined length, in order to obtain the target area after processing, the target area was treated by a number of Wnum (the window; 2) for the construction of the initial probe set through the target area processing; (3) the first selection of initial probe set; (4) to determine the concentration of each probe after the first screening of a probe probe attribute parameter; (5) probe is based on the parameters of the probe, after first screening set second screening; (6) to determine the concentration of each probe after second screening a probe Pscore score; (7) for each window, the value of Pscore is determined based on an optimal probe; (8) with the optimal probe all window. Using this method, a specific liquid probe for target region can be obtained rapidly and efficiently.

【技术实现步骤摘要】
设计目标区域特异性液相探针的方法和系统
本专利技术涉及设计目标区域特异性液相探针的方法和系统。
技术介绍
伴随测序技术的不断发展,在未来我们可以在较快的时间内以较为廉价的价格获得人类的基因组序列,对于DNA的研究将更加便利。但在现阶段,想要获得一个人类基因组的DNA测序序列,通常需要较为昂贵的价格,而且对于研究者而言,更多的针对某种疾病来研究可能引起该疾病的基因的DNA序列的变异情况,对于研究者而言,全基因组测序一方面价格较高,另一方面存在有大量的冗余数据。因此如果可以通过某些技术来捕获期望的目标区域的DNA片段,通过对捕获的目标DNA片段进行测序,一方面节约经费,另一方面缩小测序范围,降低数据冗余。目标区域捕获测序技术应运而生,为生物研究带来了极大的便利。目标区域捕获技术依托于探针。探针通常分为DNA探针和RNA探针,都表示一段与目的基因或DNA(目标序列)互补的特异核苷酸序列。经过长期的发展,现阶段的探针由原来的20多bp逐步发展到现在的几十bp甚至上百bp的长度,不同的长度通常对应于不同的检测应用,对于人类基因组这类的区域捕获,通常探针长度在50bp以上。目前主流的杂交捕获芯片有两种:On-arraycapture和In-solutioncapture,由于On-arraycapture有着较为明显的劣势,因此现在主流的杂交捕获芯片都是In-solutioncapture。对于In-solution,RocheNimbleGen和Agilent是现阶段占据最大市场的份额的两家芯片提供商,用户通过提供感兴趣的目标区域给NimbleGen和Agilent,这两家公司提供相应的设计好的芯片反馈给用户。两家公司目前不提供开源的设计方式,用户只能得到设计好的芯片,无法知道芯片内具体的探针序列及对应的设计方式。目前国内也有不少生物芯片设计公司,但是大都是通过购买NimbleGen和Agilent的设计好的芯片来进行二次包装。并且,目标区域的覆盖度,覆盖深度,均一性等这些对于研究者有着重要作用的因素,都是由选择的探针来决定的,因此探针设计方法对于商业芯片公司而言,是其重要竞争力。对于探针设计方法,可参考资料很少,尤其国内暂未见诸相关的文献的报道,寥寥可数的几款设计软件多为国外一些机构提供,而且这些机构通常提供相应的芯片服务,公众只能通过文献来大体了解其设计理念,无法获知具体的设计方法,从而,现阶段的学科研究和科学发展都急需一种公开的目标区域特异性液相探针设计方法。
技术实现思路
本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术的一个目的在于提出一种能够快速、有效地设计目标区域特异性液相探针的手段。根据本专利技术的一个方面,本专利技术提供了一种设计目标区域特异性液相探针的方法。根据本专利技术的实施例,该方法包括以下步骤:(1)将目标区域向上下游延伸预定长度,以便获得经过处理的目标区域,所述经过处理的目标区域是由数量为Wnum的窗口构成的;(2)针对所述经过处理的目标区域,间隔固定步长选取长度为Plen的探针序列,以便构建获得初始探针集;(3)对所述初始探针集进行第一筛选,去除含有未知碱基的探针序列,以便获得经过第一筛选的探针集;(4)确定所述经过第一筛选的探针集中每一条探针的探针属性参数;(5)基于所述探针属性参数,对所述经过第一筛选的探针集进行第二筛选,以便获得经过第二筛选的探针集;(6)确定所述经过第二筛选的探针集中每一条探针的分值Pscore;(7)针对所述经过处理的目标区域的每个窗口,基于所述经过第二筛选的探针集中在所述窗口内的所有探针的Pscore值,确定一条最优探针;以及(8)合并所有窗口的最优探针,以便获得最优探针集。专利技术人惊奇地发现,利用本专利技术的方法能够快速、高效地设计获得目标区域的特异性液相探针,并且本专利技术的方法对目标区域的来源物种没有限制,对目标区域的数量也没有限制,且大小大于0bp的目标区域均适用于本专利技术的方法。此外,根据本专利技术的实施例,该方法尤其适合与深圳华大基因研究院的合成平台合成仪(例如OligoArray芯片式合成仪)配合使用,也即本专利技术的方法所采用的探针设计流程对应上述合成平台合成仪的探针制备策略。根据本专利技术的另一方面,本专利技术还提供了一种用于设计目标区域特异性液相探针的系统。根据本专利技术的实施例,该系统包括:区域延伸装置,所述区域延伸装置用于将目标区域向上下游延伸预定长度,以便获得经过处理的目标区域,所述经过处理的目标区域是由数量为Wnum的窗口构成的;初始探针集构建装置,所述初始探针集构建装置与所述区域延伸装置相连,用于针对所述经过处理的目标区域,间隔固定步长选取长度为Plen的探针序列,以便构建获得初始探针集;第一筛选装置,所述第一筛选装置与所述初始探针集构建装置相连,用于对所述初始探针集进行第一筛选,去除含有未知碱基的探针序列,以便获得经过第一筛选的探针集;探针属性参数确定装置,所述探针属性参数确定装置与所述第一筛选装置相连,用于确定所述经过第一筛选的探针集中每一条探针的探针属性参数;第二筛选装置,所述第二筛选装置与所述探针属性参数确定装置相连,用于基于所述探针属性参数,对所述经过第一筛选的探针集进行第二筛选,以便获得经过第二筛选的探针集;Pscore确定装置,所述Pscore确定装置与所述第二筛选装置相连,用于确定所述经过第二筛选的探针集中每一条探针的分值Pscore;最优探针确定装置,所述最优探针确定装置与所述Pscore确定装置相连,用于针对所述经过处理的目标区域的每个窗口,基于所述经过第二筛选的探针集中在所述窗口内的所有探针的Pscore值,确定一条最优探针;以及最优探针集构建装置,所述最优探针集构建装置与所述最优探针确定装置相连,用于合并所有窗口的最优探针,以便获得最优探针集。根据本专利技术的实施例,利用本专利技术的系统能够快速、高效地设计获得目标区域的特异性液相探针,并且,该系统的适用于任何已测序的物种,对目标区域的数量和大小也没有特别限制,大于0bp的目标区域均可适用。此外,该系统尤其适合与深圳华大基因研究院的合成平台合成仪(例如OligoArray芯片式合成仪)配合使用。根据本专利技术实施例的设计目标区域特异性液相探针的方法和系统具有下列优点的至少之一:1、本专利技术的目标区域特异性液相探针设计技术快速有效,对于小于5Mbp的目标区域,可在24小时内完成设计并反馈。2、本专利技术的方法和系统,针对DNA序列自身属性进行探针设计,可与深圳华大基因研究院合成仪配合使用,但不限于该合成仪,也即本专利技术具有一定的通用性。3、本专利技术的方法和系统,能够保证目标区域的覆盖度,能够对目标区域进行评估,详细生成对目标区域能够覆盖情况以及覆盖的探针数量,并且能直观地获得生成覆盖目标区域的每一条探针的自身属性,用户可以依据生成的探针序列方便地调整覆盖的深度情况和理论覆盖度。4、本专利技术的方法和系统,能够让使用人员依据实际情况灵活处理时间和空间的问题。具体地,本专利技术的技术方案是基于目标区域来进行设计的,用户可以灵活的将所有的区域一并进行设计也可以依据自身的计算性能分割区域进行设计,最终将所设计的结果合并即可。本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实本文档来自技高网
...
设计目标区域特异性液相探针的方法和系统

【技术保护点】
一种设计目标区域特异性液相探针的方法,其特征在于,包括以下步骤:(1)将目标区域向上下游延伸预定长度,以便获得经过处理的目标区域,所述经过处理的目标区域是由数量为Wnum的窗口构成的;(2)针对所述经过处理的目标区域,间隔固定步长选取长度为Plen的探针序列,以便构建获得初始探针集;(3)对所述初始探针集进行第一筛选,去除含有未知碱基的探针序列,以便获得经过第一筛选的探针集;(4)确定所述经过第一筛选的探针集中每一条探针的探针属性参数;(5)基于所述探针属性参数,对所述经过第一筛选的探针集进行第二筛选,以便获得经过第二筛选的探针集;(6)确定所述经过第二筛选的探针集中每一条探针的分值Pscore;(7)针对所述经过处理的目标区域的每个窗口,基于所述经过第二筛选的探针集中在所述窗口内的所有探针的Pscore值,确定一条最优探针;以及(8)合并所有窗口的最优探针,以便获得最优探针集。

【技术特征摘要】
1.一种设计目标区域特异性液相探针的方法,其特征在于,包括以下步骤:(1)将目标区域向上下游延伸预定长度,以便获得经过处理的目标区域,所述经过处理的目标区域是由数量为Wnum的窗口构成的;(2)针对所述经过处理的目标区域,间隔固定步长选取长度为Plen的探针序列,以便构建获得初始探针集;(3)对所述初始探针集进行第一筛选,去除含有未知碱基的探针序列,以便获得经过第一筛选的探针集;(4)确定所述经过第一筛选的探针集中每一条探针的探针属性参数;(5)基于所述探针属性参数,对所述经过第一筛选的探针集进行第二筛选,以便获得经过第二筛选的探针集;(6)确定所述经过第二筛选的探针集中每一条探针的分值Pscore;(7)针对所述经过处理的目标区域的每个窗口,基于所述经过第二筛选的探针集中在所述窗口内的所有探针的Pscore值,确定一条最优探针;以及(8)合并所有窗口的最优探针,以便获得最优探针集。2.根据权利要求1所述的方法,其特征在于,在步骤(1)中,所述预定长度为30-50bp,优选40bp,任选地,在步骤(2)中,所述固定步长为1-3bp,优选1bp,任选地,Plen为30-200bp,优选90bp,任选地,在步骤(4)中,所述探针属性参数为选自探针序列中简单重复序列的含量Prepeat、探针序列的15mer的频数的平均值PavgKmerFreq、探针序列在源基因组中的比对次数PwHits和探针序列是否含有连续相同的碱基PisPoly的至少一种,任选地,Prepeat是按照以下公式计算获得的:其中,Rep(P)为探针中的小写字符的数量,Plen为探针的长度,任选地,PavgKmerFreq是按照以下公式计算获得的:其中,j=Plen-15+1,f(i)为探针上第i个15mer的频数,Plen为探针的长度,任选地,所述连续相同碱基数量为8,任选地,在步骤(5)中,所述第二筛选进一步包括:(a)判断探针序列的Prepeat是否超过参数设定值,如果是则丢弃该探针;(b)判断探针序列的PavgKmerFreq是否超过参数设定值,如果是则丢弃该探针;(c)判断探针序列的PwHits是否超过参数设定值,如果是则丢弃该探针;(d)判断探针序列的PisPoly属性是否为真,如果是则丢弃该探针,其中,以探针序列含有连续相同的碱基表示PisPoly属性为真,以探针序列不含有连续相同的碱基表示PisPoly属性为假,任选地,Prepeat的参数设定值为0~1,PavgKmerFreq的参数设定值为1~255优选100,PwHits的参数设定值为大于1。3.根据权利要求1所述的方法,其特征在于,在步骤(6)中,Pscore是按照以下公式计算获得的:Pscore=WwHits*PwHits+Wtm*Tmscore+WkmerFreq*Kmerscore+Wgc*GCscore+Wrepeat*Repscore其中,WwHits+Wtm+WkmerFreq+Wgc+Wrepeat=1,PwHits为探针序列在源基因组中的比对次数,WwHits为PwHits的权重系数,Tmscore是按照以下公式计算获得的:Tmscore=-|Ptm-Tmexpc|/Tmexpc,其中Tmexpc为通过参数设置的预期的探针的解链温度,Ptm为探针的解链温度,Ptm=81.5+16.6(log10([Na+]))+0.41*Pgc-600/Plen,[Na+]表示钠离子的浓度,Pgc表示探针的GC含量,Plen为探针的长度,Wtm为Tmscore的权重系数,Kmerscore是按照以下公式计算获得的:Kmerscore=1/PavgKmerFreq,其中j=Plen-15+1,f(i)为探针上第i个15mer的频数,Plen为探针的长度,WKmerFreq为Kmerscore的权重系数,GCscore是按照以下公式计算获得的:其中GC(P)为探针的GC碱基的数量,GCmin和GCmax分别为通过参数设置的GC碱基数量的最小值和最大值,GCmid=(GCmin+GCmax)/2,Wgc为GCscore的权重系数,Repscore是按照以下公式计算获得的:Repscore=-Prepeat其中Prepeat探针简单重复序列的含量,Rep(P)为探针中的小写字符的数量,Plen为探针的长度,Wrepeat为Repscore的权重系数。4.根据权利要求1所述的方法,其特征在于,在步骤(1)中,Wnum是按照以下公式计算获得的:Wnum=Targetsize*Pdepth/Plen,其中,Targetsize为目标区域的大小,Pdepth为探针深度,Plen为探针长度,任选地,在步骤(7)中,针对所述经过处理的目标区域的每个窗口,将所述经过第二筛选的探针集里起始位置在所述窗口内的所有探针中Pscore值最高的探针作为最优探针。5.根据权利要求1所述的方法,其特征在于,进一步包括:(9)确定所述最优探针集对所述目标区域的覆盖情况;以及(10)基于所述最优探针集对所述目标区域的覆盖情况,进行如下操作:A、当所述最优探针集覆盖了所述目标区域时,终止操作;B、当所述目标区域中存在没有被所述最优探针集覆盖的区域,且没有被覆盖的区域达到45bp或者占所述目标区域大小的20%以上时,使用用户设置的更宽松的Prepeat,返回重复步骤(4)-(8),对所述没有被覆盖的区域重新进行探针筛选,直到使用了用户允许的最大的Prepeat为止,任选地,Prepeat是按照以下公式计算获得的:其中,Rep(P)为探针中的小写字符的数量,Plen为探针的长度。6.一种用于设计目标区域特异性液相探针的系统,其特征在于,包括:区域延伸装置,所述区域延伸装置用于将目标区域向上下游延伸预定长度,以便获得经过处理的目标区域,所述经过处理的目标区域是由数量为Wnum的窗口构成的;初始探针集构建装置,所述初始探针集构建装置与所述区域延伸装置相连,用于针对所述经过处理的目标区域,间隔固定步长选取长度为Plen的探针序列,以便构建获得初始探针集;第一筛选装置,所述第一筛选装置与所述初始探针集构建装置相连,用于对所述初始探针集进行第一筛选,去除含有未知碱基的探针序列,以便获得经过第一筛选的探针集;探针属性参数确定装置,所述探针属性参数确定装置与所述第一筛选装置相连,用于确定所述经过第一筛...

【专利技术属性】
技术研发人员:张浩李振宇马升升李红玉李建康黄慧强申丹蒋慧张建国
申请(专利权)人:深圳华大基因科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1