鉴定氨基酸复杂模式的系统与方法技术方案

技术编号:2843631 阅读:205 留言:0更新日期:2012-04-11 18:40
公开了一种鉴定和/或定位氨基酸序列中复杂模式的方法与系统,所述氨基酸序列储存于计算机文件或数据库中。根据本发明专利技术的一个方面,提供有利于蛋白质数据库查询的技术。对于应查询要求接受的蛋白质描述,本发明专利技术的实施方案可以扫描接受的蛋白质描述以鉴定且定位Replikin模式。Replikin模式被定义为7-约50个氨基酸的序列,所述序列包括下列3个特征,其中每一个特征均可被本发明专利技术的一个实施方案识别:(1)该序列有至少一个赖氨酸残基,其定位于距离第二个赖氨酸残基6-10个氨基酸残基处;(2)该序列有至少一个组氨酸残基;并且(3)该序列中至少6%的氨基酸为赖氨酸残基。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术总的来说涉及生物信息学领域。更具体而言,本专利技术涉及促进核苷酸或氨基酸序列复杂模式鉴定的技术。
技术介绍
众所周知,氨基酸是蛋白质的结构单元。蛋白质构成细胞结构的主体,并且某些蛋白质充当酶促进细胞反应。已知蛋白质中存在二十种不同的氨基酸。每种蛋白质的特性都部分由组分氨基酸的精确序列决定。氨基酸和蛋白质数据库由多个研究机构维持,所述研究机构包括,例如美国国家医学图书馆(National Library of Medicine)的国立生物技术信息中心(National Center for BiotechnologyInformation)(NCBI)、以及Los Alamos National Laboratory的流感序列数据库。一般经因特网通过网页可以访问这些数据库,所述网页给研究者提供了搜索并检索(retrieve)特定蛋白的能力。研究者也可通过局域网和广域网访问这些数据库。此外,研究者可以直接访问存储于外部设备中的氨基酸和蛋白质数据库,所述外部设备例如磁盘、光盘、静态存储设备以及本领域已知的各种其他数字存储介质。在氨基酸和蛋白质数据库中,氨基酸一般按字母字符编码。附图说明图1列出了已知存在于蛋白质中的每种氨基酸并且提供了根据国际纯粹和应用化学联合会(International Union of Pure and AppliedChemistry)(IUPAC)提供的标准,数据库中可以代表氨基酸的、一般的三字母缩写以及单字母代码。给定蛋白可以通过其氨基酸序列描述。例如,利用图1给出的单字母代码,字符串“crvpsgvdla”对应于由下列氨基酸序列定义的蛋白质半胱氨酸、精氨酸、缬氨酸、脯氨酸、丝氨酸、甘氨酸、缬氨酸、天冬氨酸、亮氨酸以及丙氨酸。在蛋白质数据库中搜索满足某种标准的蛋白质时(例如,与人类癌症相关的蛋白),蛋白质数据库搜索引擎可以通过鉴定出数百种或数千种匹配蛋白予以回应。通过提供附加搜索标准可以缩小匹配蛋白组。在搜索过程的任何时刻均可选择并回顾特定蛋白。图2的输出资料描述了从NCBI搜索与人类癌症相关的蛋白中鉴定的一个特定蛋白。如图2中所示,蛋白质描述可以包括除其他鉴定因素外的详细信息描述,此类信息如蛋白质的标题(“Differential expression of a novelserine protease homologue in squamous cell carcinoma of the head andneck”)、蛋白质描述的作者(“Lang,J.C.and Schuller,D.E.”)以及从中分离蛋白的生物(“Homo sapiens”)。蛋白质描述可以包括定义蛋白质的氨基酸的特定序列。例如,在图2中,在蛋白质描述的结尾,在输出资料中以单词“ORIGIN”开始的部分发现了氨基酸序列数据。在这个实例中,最初几个氨基酸为“myrpdvvrar”,其对应于甲硫氨酸、酪氨酸、精氨酸、脯氨酸、天冬氨酸、缬氨酸、缬氨酸、精氨酸、丙氨酸以及精氨酸。某些蛋白质描述可以包括定义蛋白的核酸碱基序列,而不是氨基酸序列。如已知的,根据图3中发现的表格提供的映射,一个三核酸碱基序列(即,一个核酸碱基三联体)可以对应一种氨基酸。表格中被鉴定的每个核酸碱基三联体代表或对应于一种特定的氨基酸。例如,核酸三联体GCT(鸟嘌呤-胞嘧啶-胸腺嘧啶)对应于氨基酸丙氨酸。类似地,核酸三联体GCA(鸟嘌呤-胞嘧啶-腺嘌呤)同样对应于氨基酸丙氨酸。作为另一个实例,核酸三联体AAA和AAG(分别为,腺嘌呤-腺嘌呤-腺嘌呤和腺嘌呤-腺嘌呤-鸟嘌呤)各自对应于氨基酸赖氨酸。Replikin模式在先前的专利申请中,本专利技术人已鉴定且描述了一种被命名为“Replikin模式”或简称“Replikin”的氨基酸模式。Replikin模式包括约7-约50个邻接氨基酸的序列,所述序列包括下列三个特征(1)该序列有至少一个赖氨酸残基,其定位于距离第二个赖氨酸残基6-10个氨基酸残基处;(2)该序列有至少一个组氨酸残基;并且(3)该序列有至少6%的赖氨酸残基。Replikin已经显示与真菌、酵母、病毒、细菌、藻类以及癌细胞中的快速复制相关联。基于这种关联,人们相信Replikin可以作为疾病的一种指示。此外,随着时间过去Replikin浓度的增加可以作为疾病即将发作的一种指示。例如,在上个世纪的三次流感大流行(鉴定为H1N1、H2N2和H3N2)的每次流行之前,相应流感病毒中的Replikin浓度有着显著的增加。关于H5N1流感,图4阐述了恰好在1997(标注为E1)、2001(标注为E2)和2004(标注为E3)年的流行之前,每100个氨基酸的Replikin浓度的快速增加。已经在多种疾病相关蛋白中发现了Replikin模式,包括肺癌、脑癌、肝癌、软组织癌、唾液腺癌、鼻咽癌、食道癌、胃癌、结肠癌、直肠癌、胆囊癌、乳腺癌、前列腺癌、子宫癌、子宫颈癌、膀胱癌、眼癌、黑色素瘤形式癌、淋巴瘤形式癌、白血病形式癌以及肾癌。重要的是,正常健康的人类基因组似乎缺少Replikin模式。图5列出了已在各种生物中发现的Replikin模式的选择性实例。例如,存在于丙型肝炎(这是图5的肿瘤病毒种类中的最后一项)中的13个残基的模式“hyppkpgcivpak”,是一种Replikin模式,因为(1)它包含两个相距8个位置的赖氨酸残基;(2)它包含一个组氨酸残基;并且(3)赖氨酸残基的百分比为2/13,也就是15.4%。氨基酸搜索工具如本领域已知的,可以利用多种数据库工具和搜索引擎来搜索蛋白质和氨基酸数据库。利用这些公众可获得的工具,可以在与多种不同生物相对应的多种不同蛋白质中描述且定位氨基酸模式。几种方法和技术可供利用,通过它们可以描述氨基酸模式。一种受欢迎的格式是PROSITE模式。PROSITE模式描述可以根据下列规则汇编(1)使用国际纯粹和应用化学联合会的标准的氨基酸单字母代码(参见图1)。(2)符号‘x’用于接受任何氨基酸的位置。(3)通过在方括号‘[]’内列举给定位置可接受的氨基酸表示不定性。例如[ALT]代表丙氨酸或亮氨酸或苏氨酸。(4)同样通过在一对波形括号‘{}’内列举给定位置不接受的氨基酸表示不定性。例如{AM}代表除丙氨酸和甲硫氨酸之外的任何氨基酸。(5)该模式中的每个元件通过‘-’与其相邻元件分开。(6)该模式中元件的重复可以通过下列带有圆括号内数值或数字范围的元件来表示。实例x(3)对应于x-x-x,x(2,4)对应于x-x或x-x-x或x-x-x-x。(7)当模式被限制为序列的N-末端或是C-末端时,该模式以符号‘<’开始,或者相应地以符号‘>’结尾。(8)句号结束所述模式。PROSITE模式的实例包括 PA [AC]-x-V-x(4)-{ED}.该模式被翻译为[丙氨酸或半胱氨酸]-任何氨基酸-缬氨酸-任何氨基酸-任何氨基酸-任何氨基酸-任何氨基酸-{除谷氨酸或天冬氨酸之外的任何氨基酸}PA<A-x-[ST](2)-x(0,1)-V.该模式一定是在序列的N-末端(‘<’),被翻译为丙氨酸-任何氨基酸-[丝氨酸或苏氨酸]-[丝氨酸或苏氨酸]-(任何本文档来自技高网...

【技术保护点】
一种识别Replikin模式的方法,其包括:    测定在一个氨基酸残基子序列中第一个赖氨酸残基是否存在于距离第二个赖氨酸残基6-10个位置内;    如果是,鉴定该氨基酸残基子序列中一个7-50个连续的氨基酸残基串,所述串包含第一个赖氨酸残基、第二个赖氨酸残基以及一个组氨酸残基;    计算该串中赖氨酸残基的百分比;并且    如果赖氨酸残基的百分比为至少6%,则识别该串为Replikin模式。

【技术特征摘要】
【国外来华专利技术】US 2004-4-28 60/565,847;US 2004-6-4 10/860,050;US 1.一种识别Replikin模式的方法,其包括测定在一个氨基酸残基子序列中第一个赖氨酸残基是否存在于距离第二个赖氨酸残基6-10个位置内;如果是,鉴定该氨基酸残基子序列中一个7-50个连续的氨基酸残基串,所述串包含第一个赖氨酸残基、第二个赖氨酸残基以及一个组氨酸残基;计算该串中赖氨酸残基的百分比;并且如果赖氨酸残基的百分比为至少6%,则识别该串为Replikin模式。2.一种测定蛋白质中Replikin模式浓度的方法,其包括计算定义蛋白的氨基酸残基序列中的子序列数目,所述子序列包含明显的、根据权利要求1的方法识别的Replikin模式。3.权利要求2的方法,其进一步包括报告在所述序列中计数的子序列数目对氨基酸残基总数目的比率。4.权利要求2的方法,其中定义蛋白的氨基酸残基序列从计算机文件中检索。5.权利要求2的方法,其中定义蛋白的氨基酸残基序列从数据库中检索。6.权利要求5的方法,其中所述数据库通过网络访问。7.一种其中储存了可执行指令的可机读介质,所述指令当通过处理器执行时,促使该处理器根据权利要求1所述方法识别Replikin模式。8.计算机系统,其包括与网络偶联的处理器;与该处理器偶联的存储器,该存储器包含多个指令以根据权利要求1中所述方法识别Replikin模式。9.一种识别氨基酸模式的方法,其包括在一个氨基酸残基编码序列中定位至少一对彼此在预定的第一段距离内的第一种氨基酸残基;在第一种氨基酸残基对中的每一个成员的预定的第二段距离内定位第二种氨基酸残基;鉴定一个氨基酸残基串,所述串包含...

【专利技术属性】
技术研发人员:塞缪尔博戈奇埃伦诺尔S博戈奇
申请(专利权)人:塞缪尔博戈奇埃伦诺尔S博戈奇
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利