用于对查询序列的基因型与亚型进行分类的方法技术

技术编号:8219008 阅读:200 留言:0更新日期:2013-01-18 01:06
本发明专利技术涉及一种用于对查询序列的基因型与亚型进行分类的方法。更具体地,本发明专利技术针对一种用于对查询序列的基因型与亚型进行分类的方法,包括:(i)选择不同病毒的碱基序列作为参考序列,这些病毒的基因型或亚型是已知的,并且通过在所述参考序列的多重比对中计算序列之间的距离而获得一种距离矩阵;以及(ii)开发一种判别方程,该判别方程可以对这些参考序列进行分类,这是通过对通过该距离矩阵的多维定标对所述参考序列成簇而获得的聚簇执行判别分析而实现的,接着根据所述判别方程对一种查询序列的基因型与亚型进行分类。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及一种。更具体地,本专利技术针对一种,包括(i)选择不同病毒的碱基序列作为参考序列,这些病毒的基因型或亚型是已知的,并且通过在所述参考序列的多重比对中计算序列之间的距离而获得距离矩阵;以及(ii)开发一种判别方程,该判别方程可以对这些参考序列进行分类,这是通过对通过该距离矩阵的多维定标对所述参考序列成簇而获得的聚簇执行判别分析来实现的,接着根据所述判别方程对查询序列的基因型与亚型进行分类。
技术介绍
在理解趋异病毒的进化方面,精确的基因分型(或分亚型)是关键。近来,公共数据库里的病毒序列的数量的迅速增长被注意到。例如,NCBI基因库(NCBI GenBank)拥有的 HIV-I与HCV序列条目几乎每三年翻一番。这些病毒还显示出非常好的基因型多样性并且因此已经被分类成组,被称作基因型与亚型(Robertson等人,2000 ;Simmonds等人,2005)。因此,基于这些病毒株的序列相似性对它们进行基因分型(或分亚型),在理解它们的进化、流行病学以及研发抗病毒疗法或疫苗方面已经成为最基本的步骤之一。传统的分亚型方法包括以下(I)最近邻法,寻找该查询序列与被称作参考的每一亚型的代表的最佳匹配;(2)系统发育方法,寻找该查询序列分支至其上的单系群。由于这些亚型原本已经被定义为单独的聚簇群,所以这些直观上合理的方法已经得以广泛使用并且对于许多案例而言十分成功。然而,随着序列数目的渐增,观察到不能被确切地分亚型的离群值或对其而言这些方法不适宜的离群值。最近一份将这些不同的自动分亚型方法与HIV-I序列作比较的报告显示,除了亚型B与C之外,它们之中的相符性低于50% (Gifford R、de Oliveira T、Rambaut A、Myers RE、GaleCVΛ Dunn D、Shafer R、Vandamme AM、Kellam P、Pillay D UKCollaborative Group on HIV Drug Resistance:Assessmentof automatedgenotyping protocols as tools for surveillance of HIV-Igeneticdiversity. AIDS2006, 20:1521-1529)。该不相符性的原因之一要归结于由于重组而引起的增加的趋异性与复杂性。还应注意到,在那些方法中,紧密关联的亚型(B与D)或分享共同起源的亚型(A和CRF01_AE)显示出较差的一致性。本专利技术人认为,这一问题的根本是每一亚型的参考序列的数目太少。这些方法使用两至四种手选的参考序列。它们是由各专家在高质量的全基因组序列中仔细挑选的,是要尽量覆盖每一亚型的多样性。然而,利用每一亚型的本质上小数目的参考序列,它们不能解决亚型预测的可信性;低E值的双序列比对或高系统发育树的高引导值(bootstrapvalue)表明单元操作的可靠性,但是就整体而言并不必然保证一个可信的亚型分类。对缺少统计置信测度这一问题的认识带来了 STAR的引入,这是一种基于特定位点打分矩阵的统计模型的方法,该特定位点打分矩阵是从每一亚型的多重序列比对(MSA)建立的。然而,其当前的实施有一些限制它仅适用于HIV-I氨基酸序列,以小数目的参考(总共11个亚型的141种)为基础,并且利用少于1000种序列进行了测试。最近,已经引入了新颖的基于核苷酸组成字符串的基因分型(或分亚型)方法。它的独特在于它绕过了多重序列比对并且仍旧达到高精确度。然而,它也仅使用了 42种参考序列并且已经用1156种序列进行了测试。考虑到这些病毒序列数目的爆炸式增长,这些传统方法的测试案例非常少,最多万分之一。因此,本专利技术的目的是要提供一种新颖的用于对公知的查询序列的基因型或亚型进行分类的方法。关键是在试图对一种查询序列进行分类之前,评估每一亚型群的聚簇程度如何。考虑这样一个案例,其中这些参考序列大部分都被亚型很好地分开了,除了两种或更多种亚型至少部分地重叠依赖少数参考的这些方法可能没有注意到这一问题并且可能将高分分配给一种明显的亚型。由于序列范围内的不同突变率,所以每一基因片段的系统发育动力(phylogenetic power)也可能不同。这对于相对短的部分序列来说尤为关键。换言之,如果在基因分型(或分亚型)中仅考虑序列区域的一部分,那么即使这些本应区别成 簇的、具有很好特征的参考也不能被分辨出。这些最近邻法不能评估该背景分类模型的这种有效性,因为它们仅关注查询与参考之间的比对,而不是参考与参考之间。REGA,基于树的方法之一,关注该查询是在由一组参考形成的聚族的内部还是外部(deOliveira TDeforche K、Cassol S、Salminen Μ、Paraskevis D、SeebregtsC、Snoeck J>van Rensburg EJ>ffensing AM、van de Vijver DA、BoucherCA、Camacho R>Vandamme AM An automated genotyping system foranalysis ofHIV-Iand other microbial sequences. Bioinformatics 2005、21:3797-3800)。然而,就本专利技术人所知晓的,没有工具定量地报道这样一种测量。所以,本专利技术人提出一种方法,该方法基于这些参考序列之间的距离开发了这些背景分类模型,重新评估了它们对于每一查询的有效性,并且就后验概率报告了基因型(或亚型)赋值的统计显著性。如此,本专利技术的方法适合于其中许多参考序列可用的案例。本专利技术通过将主坐标分析(PCoA)与线性判别分析(LDA)(两者是使用生物科学中普遍的应用能很好建立的统计工具)结合起来而实现这些目标。PCoA (也称为经典多维定标(MDS)),将这些序列标绘在高维主坐标空间,同时尽可能地尽力保持它们之间的距离关系。PCoA已经广泛地应用于探索序列集中的全球趋势,在系统发育分析方面对基于树的方法进行了补充。因为亚型已经被定义为系统发育树中的不同单系类群,所以如果选择一种适当的高维,每一亚型应该在MDS空间里形成良好分离的聚簇。在此类案例中,可以发现一组将这些聚簇分开的超平面并且与这些超平面相关的查询可以得到分类。为了这一目的,本专利技术将LDA (—种直接的并且强大的分类方法)应用于MDS坐标并且将一种查询分配给显示出最闻的关系后验概率的基因型(或亚型)。这种概率在检测任何需要仔细检验的模糊案例时是有用的。本专利技术的方法通过留一法交叉验证(L00CV)来测试这些LDA模型,该验证可以用以通过检测误分类率来估测模型有效性。由于这些序列是由坐标来表示的,因此还可以开发一种简单的措施用以检测基因型(或亚型)离群值。本专利技术人实质上已经利用所有来自NCBI基因库(核苷酸)与GenPept (蛋白质)的HIV-I和HCV序列对本专利技术进行了测试。披露内容技术问题本专利技术的主要目的是提供一种,包括(i)选择不同病毒的碱基序列作为参考序列,这些病毒的基因型或亚型是已知的,并且通过在所述参考序列的多重对比中计算序列之间的距离而获得距离矩阵;以及(ii)开发一种判别方程,该判别本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:金尚洙
申请(专利权)人:崇实大学校产学协力团
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1