本发明专利技术提供了用于评估蛋白复合体之间的相互作用的方法和设备。在相互作用评估设备中,亚单位形成单元使用复合体对信息作为输入信息并查询家族DB,以得到复合体对信息的亚单位。GODB是存储与蛋白质属性有关的信息的数据库。学习单元使用亚单位复合体对信息作为输入信息并查询GODB,以输出预测规则集。执行单元使用从预测目标生成单元获得的预测目标数据作为输入信息并查询预测规则集,以计算执行结果,即,作为对亚单位对的相互作用属性的有效性评估的属性得分。
【技术实现步骤摘要】
本专利技术涉及用于对蛋白复合体的相互作用属性的有效性进行评估的技术。
技术介绍
为了理解生物体内的分子生物学机制,理解蛋白复合体之间的相互作用的相互作用属性(诸如活化作用、磷酸化作用、抑制作用等的方向和类型)是有益的。另一方面,在通过试错技术来预测蛋白复合体相互作用的情况下,通常仅预测相互作用的存在性。尽管通过与文献使用配套的自然语言处理可以提取相互作用属性,但是结果包含噪声。目前,涉及蛋白复合体之间的相互作用的数据包括KEGG(Kyoto Encyclopedia of Genes andGenomes,),等。图33是用于例示蛋白复合体之间的相互作用的示意图。当聚焦于蛋白复合体对的信息(以下称为“复合体对信息”)3300中的蛋白复合体之间的关系时,蛋白复合体CL1包含蛋白质P101到P104、P111到P113,蛋白复合体CR2包含蛋白质P201到P203、P211、P212、P221、P231。如果在描述中对蛋白复合体的标号附加“L”,这表示引起相互作用的蛋白复合体。如果对蛋白复合体的标号附加“R”,这表示接收相互作用的蛋白复合体。在图33的情况下,蛋白复合体CL1是引起相互作用的蛋白复合体,蛋白复合体CR1是接收相互作用的蛋白复合体。于是限定了两个蛋白复合体CL1与CR2之间的相互作用的属性(在此情况下是磷酸化作用)。通常,存在用于对如图33所示的蛋白复合体之间的相互作用的存在性进行估计的多种技术。例如,在以下文献中公开了这些技术日本特开第2003-208431、2003-238587、2004-203880、2005-063405号公报;日本专利第2002-535972号公报;Nat Biotechnol.2005 Aug.23(8),951-959,题为“Probabilistic model of the human protein-protein interactionnetwork”,Rhodes DR,Tomlins SA,et.Al.;以及CSB2005,题为“A ProteinInteraction Verification System Based On a Neural Network Algorithm”,MinSu Lee,Seung Soo Park and Min Kyung Kim。日本专利第2004-509406号公报公开了一种用于根据基于蛋白质结构的属性对蛋白质与化合物的亲和力进行评估的方法。日本特开第2005-135154号公报公开了一种基因本体术语预测方法,其获得分配有3个本体术语(本体)中的每一个的蛋白质、其两个序列相似性值,以及增加本体预测的精确性的条件,以预测剩余的第四个蛋白质的本体。日本特开第2004-030093号公报公开了一种基因表达数据分析方法,其从基因组的本体信息中提取通用规则。蛋白复合体CL1和CR2中的每一个中的蛋白质P101到P104、P111到P113、P201到P203、P211、P212、P221以及P231由分级结构构成。图34是蛋白复合体对的分级结构的示意图。在图34中,具有相同性质(变体)的蛋白质构成一亚单位。例如,在蛋白复合体CL1中,蛋白质P101到P104构成亚单位SL10,蛋白质P111到P113构成亚单位SL11。类似地,在蛋白复合体CR2中,蛋白质P201到P203构成亚单位SR20;蛋白质P211、P212构成亚单位SR21;蛋白质P221构成亚单位SR22;而蛋白质P231构成亚单位SR23。如果在描述中对亚单位的标号附加“L”,这表示引起相互作用的蛋白复合体中的亚单位。如果对亚单位的标号附加“R”,这表示接收相互作用的蛋白复合体中的亚单位。尽管在亚单位SL10、SL11以及SR21到SR23中的每一个中的蛋白质是可互换的,但是仍认为属于不同亚单位的蛋白质起到不同的作用。相互作用被认为与“负责亚单位对”(其为在蛋白复合体CL1和CR2中包括的亚单位SL10、SL11以及SR21到SR23的组合的一部分)直接相关。因此,在生物信息学领域,必须在以下两个层次(1)和(2)上对蛋白质相互作用属性进行评估(1)在蛋白复合体层次上的相互作用属性,其对于理解整个系统的行为是必需的;和(2)在亚单位层次上的相互作用属性,其作为支持药物发现的基本信息是必需的。然而,在上述常规技术中,未在以上两个层次上对蛋白复合体之间的相互作用属性执行有效性评估。
技术实现思路
本专利技术的一个目的是至少解决常规技术中的以上问题。根据本专利技术的一个方面的对多个蛋白复合体之间的相互作用进行评估的方法包括以下步骤亚单位提取步骤,其从表示包括其间具有相互作用的多个蛋白复合体的蛋白复合体对的一组对信息中,提取由在形成所述多个蛋白复合体的多个蛋白质中的具有类似性质的多个蛋白质构成的亚单位;确定步骤,其确定所述亚单位中包括的蛋白质的蛋白质属性信息是否存在于标识蛋白质属性的一组蛋白质属性信息中;创建步骤,其通过对与在所述确定步骤处确定的蛋白质属性信息的存在或不存在有关的信息进行聚合,创建标识每一条所述蛋白质属性信息的亚单位的属性的亚单位属性信息;生成步骤,其生成包括与所述亚单位属性信息的存在或不存在有关的信息和标识每一条所述复合体对信息的所述相互作用的相互作用属性信息的学习数据,以覆盖由引起所述相互作用的蛋白复合体中的亚单位和接收所述相互作用的蛋白复合体中的亚单位的组合所形成的所有亚单位对;以及预测规则提取步骤,其从将所述亚单位属性信息定义为条件并将所述相互作用属性信息定义为结论的多个规则构成的规则集中,提取应用于预测目标复合体对信息的预测规则,所述预测目标复合体对信息表示这样的预测目标蛋白复合体对,即,该预测目标蛋白复合体对中的受所述相互作用影响的亚单位对是未知的,或者该预测目标蛋白复合体对的相互作用是未知的,所述多个规则是从所述学习数据的集合中获得的。根据本专利技术的另一方面的对多个蛋白复合体之间的相互作用进行评估的方法包括以下步骤获取表示受相互作用影响的蛋白复合体对的复合体对信息;基于其中对代表蛋白质的性质的多个家族进行了分组的家族列表,从所述家族列表中的所述多个家族中标识出排他家族,所述排他家族是代表所述多个蛋白质中的每一个的性质的代表性家族;以及将形成所述复合体对信息中的多个蛋白复合体的多个蛋白质分组成多个亚单位,该多个亚单位中的每一个亚单位都包括具有公共排他家族的多个蛋白质。根据本专利技术的又一方面的用于对多个蛋白复合体之间的相互作用进行评估的设备包括亚单位提取单元,其被构造成从表示包括其间具有相互作用的多个蛋白复合体的蛋白复合体对的一组对信息中,提取由在形成所述多个蛋白复合体的多个蛋白质中的具有类似性质的多个蛋白质形成的亚单位;确定单元,其被构造成确定包括在所述亚单位中的蛋白质的蛋白质属性信息是否存在于标识蛋白质属性的一组蛋白质属性信息中;创建单元,其被构造成通过对与由所述确定单元确定的蛋白质属性信息的存在或不存在有关的信息进行聚合,来创建标识每一条所述蛋白质属性信息的亚单位的属性的亚单位属性信息;生成单元,其被构造成生成包括与所述亚单位属性信息的存在或不存在有关的信息和标识每一条所述复合体对信息的所述相互作用的相互作用属性信息的学习数据,以覆本文档来自技高网...
【技术保护点】
一种对多个蛋白复合体之间的相互作用进行评估的方法,该方法包括以下步骤:亚单位提取步骤,其从表示包括其间具有相互作用的多个蛋白复合体的蛋白复合体对的一组成对信息中,提取由在形成所述多个蛋白复合体的多个蛋白质中的具有类似性质的多个蛋白质 构成的亚单位;确定步骤,其确定所述亚单位中包括的蛋白质的蛋白质属性信息是否存在于标识蛋白质属性的一组蛋白质属性信息中;创建步骤,其通过对与在所述确定步骤处确定的蛋白质属性信息的存在或不存在有关的信息进行聚合,创建标识针对每一 条所述蛋白质属性信息的亚单位的属性的亚单位属性信息;生成步骤,其生成包括与所述亚单位属性信息的存在或不存在有关的信息和标识针对每一条所述复合体对信息的所述相互作用的相互作用属性信息的学习数据,以覆盖由引起所述相互作用的蛋白复合体中的 亚单位和接收所述相互作用的蛋白复合体中的亚单位的组合所形成的所有亚单位对;以及预测规则提取步骤,其从将所述亚单位属性信息定义为条件并将所述相互作用属性信息定义为结论的多个规则构成的规则集中,提取应用于预测目标复合体对信息的预测规则, 所述预测目标复合体对信息表示这样的预测目标蛋白复合体对,即,该预测目标蛋白复合体对中的受所述相互作用影响的亚单位对是未知的,或者该预测目标蛋白复合体对的相互作用是未知的,所述多个规则是从所述学习数据的集合中获得的。...
【技术特征摘要】
...
【专利技术属性】
技术研发人员:山川宏,丸桥弘治,仲尾由雄,
申请(专利权)人:富士通株式会社,
类型:发明
国别省市:JP[日本]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。