基于物种序列设计靶向探针的方法及系统技术方案

技术编号:35611504 阅读:14 留言:0更新日期:2022-11-16 15:35
本发明专利技术属于生物探针的设计技术领域,具体而言,涉及基于物种序列设计靶向探针的方法及系统。本发明专利技术公开了一种基于物种序列设计靶向探针的方法,其步骤包括:从数据库中对探针靶向物种的基因组序列或CDS区域序列进行下载;将上述下载的基因组序列或CDS区域序列使用滑动窗口的方法,将其分割成多个长度为120bp的探针序列;使用blast对前述的多个探针序列进行比对,得到json格式的比对结果文件;提取比对结果文件信息,对探针序列进行筛选,得到符合对应物种的特异性探针,通过目录输出最后的探针序列。本发明专利技术还公开了基于物种序列设计靶向探针的系统。本发明专利技术可以一步完成从基因组或CDS序列到特异性靶向探针设计。CDS序列到特异性靶向探针设计。CDS序列到特异性靶向探针设计。

【技术实现步骤摘要】
基于物种序列设计靶向探针的方法及系统


[0001]本专利技术属于生物探针的设计
,具体而言,涉及基于物种序列设计靶向探针的方法及系统。

技术介绍

[0002]下一代测序(NGS)方法的发展已经彻底改变了人类临床研究,因为它能够每次运行快速生成大量测序数据,同时降低测序成本,帮助进行临床诊断,进行更加精确的临床治疗,挽救患者的生命。到目前为止,聚合酶链反应(PCR)一直是传染临床诊断的金标准方法,这种方法基于一般短而保守的基因组区域的扩增,正是由于其高特异性,PCR可能无法检测到其序列与所设计的引物靶向的微生物相差太大的微生物,这就遗失了部分信息;同样如果样本量极少的情况下,也很难捕获到复杂生物样品中的较低含量的病原体核酸或其他遗传物质。
[0003]由于上面所述的局限性,所以现在开发了杂交捕获的方法,通过设计的靶向探针进行靶标富集,其允许检索基因组片段以完成具有高测序覆盖率的测序,这有助于下游研究,例如:系统发育,进化,流行病学和耐药性等。但是,目前设计靶向探针的方法,存在一定的缺陷,包括:1.需要手动设计捕获的物种序列;2.探针不具有高特异性,捕获区域不唯一性;3.探针设计没有通用的方法,较多都为单一物种,例如:病毒捕获探针;4.设计的探针没有达到批量化设计的要求;5.无法明确设计每一探针的相关信息;6.探针设计步骤比较繁琐,不太便捷。

技术实现思路

[0004]本专利技术的目的在于提供一种基于物种序列设计靶向探针的方法及系统。本专利技术的方法能够自动进行物种序列的获取,同时获取探针的相关信息,包括位置、GC含量和代表物种的学名等;在这里,本专利技术能够一步式完成从物种序列到特异性靶向探针的设计。
[0005]本专利技术的目的及解决其技术问题是采用以下技术方案来实现的。
[0006]本专利技术的一个方面提供了一种基于物种序列设计靶向探针的方法,包括以下步骤:(1)从数据库中找到需要的基因组或者CDS序列,以相应物种的taxid和拉丁文学名命名,并下载该物种的fasta序列文件;(2)将步骤(1)中得到的物种fasta序列分割成长度一致的fasta序列,并且对每一序列进行唯一命名;(3)使用NCBI网站上的nt序列作为源数据建库,基于blastn软件对步骤(2)中得到的长度一致的fasta序列进行比对,得到json格式的比对结果文件;(4)提取步骤(3)中结果文件的信息,筛选出符合该物种的fasta序列,此即为高特异性的探针序列;(5)对步骤(4)中的结果进行整理,并输出特异性探针序列及统计序列数。
[0007]进一步地,步骤(2)中所述fasta序列命名方式为taxid+序列在基因组或CDS区域的起始和终止位置+物种访问号+物种学名+GC含量。
[0008]进一步地,所述GC含量为fasta序列中碱基G和碱基C占该序列中所有碱基的比例,同时筛选出GC含量范围在30%~70%的fasta序列。
[0009]进一步地,步骤(2)中所述fasta序列分割大小为120bp。
[0010]进一步地,步骤(4)中所述筛选条件为序列唯一比对到该物种且比对到连续bp数大于50,或者不唯一比对到该物种但比对到其他物种的连续bp数小于40bp。
[0011]本专利技术的另一个方面还提供了一种基于物种序列设计靶向探针的系统,其中含有存储装置,与其相连的处理器,于存储装置里,同时能够在处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序时执行如上所述的设计靶向探针的方法。
[0012]进一步地,所述计算机程序基于python语言编写。
[0013]借由上述技术方案,本专利技术至少具有下列优点:1、本专利技术可根据使用者需要,非常便捷地获取所需设计探针的物种序列(包括:基因组或者CDS区域序列)。
[0014]2、对于设计的探针序列,提供了每条序列的相关信息,包括:靶向的物种名称、序列所处基因组的相对位置、靶向物种的分类id和GC含量等。
[0015]3、对于设计的探针序列,由于利用了blast比对,探针比对的结果基本都指向同一物种,具有较好的物种指向性。
[0016]4、不局限于单一物种批量设计,可以设计的物种包括:病毒、细菌和真菌等微生物。
[0017]5、输入物种后可以获得物种对应的所有可用探针序列,同时为使用者对每个物种提供5个优选探针的推荐,降低探针选择对使用者造成的困扰。
[0018]6、获取探针比较便捷,只需要输入所需设计的物种,会输出一系列便于使用者查看的中间文件以及最终结果文件。
[0019]7、探针设计程序运行时间较短,运行占用内存较少。
[0020]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,并可依照说明书的内容予以实施,以下以本专利技术的较佳实施例详细说明如后。
附图说明
[0021]图1为下载的基因组或CDS区域序列;图2为分割成长度一致的fasta序列;图3为使用blastn比对序列的结果信息文件;图4为整理后高特异性可用探针序列;图5为整理后探针序列统计计数;图6为本专利技术的流程图。
具体实施方式
[0022]为了使本专利技术实现的技术手段、创作特征、达成目的与功效易于明白了解,下面将结合本专利技术实施例,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的
实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。
[0023]实施例1以微小脲原体为例,基于物种序列设计靶向探针的方法,其步骤包括:(1)从NCBI官网(或其他物种数据库)网站上找到微小脲原体的基因组或CDS序列,以微小脲原体的taxid和拉丁文学名命名,并下载fasta序列文件,命名为134821_Ureaplasma_parvum.fa.gz,如图1所示。
[0024](2)将微小脲原体的基因组序列使用滑动窗口的方法(窗口长度为50bp),分割成长度为120bp的序列片段(如图2所示),这些序列都有唯一的命名,记录了该片段序列的多种信息,包括:物种学名、序列相对位置、靶向物种的分类id和GC含量等。
[0025](3)对于步骤(2)得到的探针序列,经过blast进行比对,得到步骤(3)中的比对结果的json文件,再提取需要的信息,得到比对信息文件(如图3所示),其中的信息包括:序列名称、比对上的访问号id、比对上的描述信息、比对一致bp数、比对缺失bp数,序列以及比对击中情况。
[0026](4)在步骤(4)中,使用多种明确的筛选条件,得到微小脲原体的高特异性可用的探针序列(如图4所示),筛选的条件为序列唯一比对到微小脲原体且连续比对bp数大于50,或者不唯一比对到微小脲原体但比对到其他物种的连续比对bp数小于40bp。
[0027](5)在步骤(5)中,统计得到的特异性探针,并记录(如图5所示),显示信息包括:taxid、物种中文名本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于物种序列设计靶向探针的方法,其特征在于,包括以下步骤:(1)从数据库中找到需要的基因组或者CDS序列,以相应物种的taxid和拉丁文学名命名,并下载该物种的fasta序列文件;(2)将步骤(1)中得到的物种fasta序列分割成长度一致的fasta序列,并且对每一序列进行唯一命名;(3)使用NCBI网站上的nt序列作为源数据建库,基于blastn软件对步骤(2)中得到的长度一致的fasta序列进行比对,得到json格式的比对结果文件;(4)提取步骤(3)中结果文件的信息,根据筛选条件筛选出符合该物种的fasta序列,此即为高特异性的探针序列;(5)对步骤(4)中的结果进行整理,并输出特异性探针序列及统计序列数。2.根据权利要求1所述的基于物种序列设计靶向探针的方法,其特征在于,步骤(2)中所述fasta序列命名方式为taxid+序列在基因组或CDS区域的起始和终止位置+物种访问号+物种学名+GC含量。3.根据权利要求2所述的基于物种序列设计靶向探针的方法...

【专利技术属性】
技术研发人员:易康樊晓梅李靖
申请(专利权)人:南京诺因生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1