本发明专利技术涉及一种提取蛋白质-小分子相互作用模块的方法,具体是将蛋白质上构成小分子结合口袋的原子(或氨基酸)根据其性质进行定量化描述,然后对两两口袋原子(或氨基酸)之间的距离进行评估,建立距离矩阵,再利用聚类算法抽提出性质相似的口袋原子(或氨基酸)类别,最后通过后处理,获得蛋白质-小分子相互作用模块。可应用于生物信息学研究、蛋白质设计、药物筛选、小分子化学合成等多个方面。
【技术实现步骤摘要】
本专利技术属于蛋白质研究
,具体涉及利用结构生物学数据,提取蛋白质与 小分子结合的相互作用模块,可应用于生物信息学研究、蛋白质设计、药物筛选、小分子化 学合成等多个方面。 技术背景 基于蛋白质的三维结构决定其功能的基本生物学假设,能够结合相同或相似小分 子的蛋白质口袋在理论上也具有相同或相似的三维作用模块。提取这些作用模块可以为 蛋白质工程、药物筛选以及蛋白质的设计提供重要的结构生物学线索。传统的基于计算机 的蛋白质-小分子相互作用模块发现方法,通常通过以小分子为参照,对多个结合相同小 分子的蛋白质-小分子复合物结构进行三维结构对齐,然后通过查看小分子周围不同蛋白 质口袋原子或氨基酸的出现频率统计量,发现相互作用模块。然而,由于小分子通常具有柔 性,实际中以小分子为参照的三维结构对齐效果通常一般,无法很好的发现蛋白质-小分 子结合的相互作用模块。因此,不少研究实际上是通过生物学家的人工检查,以经验性的方 式发现蛋白质-小分子相互作用模块。
技术实现思路
鉴于上述问题,我们开发了一种基于蛋白质-小分子复合物三维结构自动提 取蛋白质-小分子结合模块的新方法AFTME(Jlignment-£ree Xhree-Dimension M〇tif Extractor的简称)。该方法采用了一种全新的思路,完全不依赖于三维结构对齐,而是通 过量化蛋白质上与小分子相互作用的口袋原子(或氨基酸)之间的距离,以及对这些原子 (或氨基酸)的聚类,来实现对结合某种或者某一类小分子的蛋白质口袋中的蛋白质-小分 子相互作用模块的自动发现。 本方法将蛋白质上构成小分子结合口袋的原子(或氨基酸)根据其性质进行定量 化描述,然后对两两口袋原子(或氨基酸)之间的距离进行评估,建立距离矩阵,再利用聚 类算法抽提出性质相似的口袋原子(或氨基酸)类别,最后通过后处理,获得蛋白质-小分 子相互作用模块。 本专利技术的方法涉及以下各项: 1. -种提取蛋白质-小分子相互作用模块的方法,所述方法包括以下步骤: (1)给定一组结合相同或者相似小分子的蛋白质,提取蛋白质上的小分子结合口 袋; (2)对每个蛋白质上小分子结合口袋中的原子(或氨基酸),根据其性质逐一进行 定量化的描述; (3)计算任意两个小分子结合口袋原子(或氨基酸)之间的距离,构建小分子结合 口袋原子(或氨基酸)距离矩阵; ⑷根据小分子结合口袋原子(或氨基酸)距离矩阵进行聚类,抽取出性质相似的 小分子结合口袋原子(或氨基酸)类别; (5)对每一类小分子结合口袋原子(或氨基酸),进行后处理,获得蛋白质-小分 子结合相互作用模块。 2.根据1所述的方法,所述小分子结合口袋包括由蛋白质上与小分子任意原子距 离在丨0A以内,优选5A以内的原子(或氨基酸)构成的原子和氨基酸集合。 3.根据1所述的方法,步骤⑵中的所述性质包括口袋原子(或氨基酸)自身及 其周围环境的物理、化学、几何性质。 4.根据1所述的方法,所述小分子结合口袋原子(或氨基酸)距离与口袋原子(或 氨基酸)的定量化描述相匹配。 5.根据1所述的方法,所述聚类包括系统聚类、K-means、基于优化的聚类、基于模 型的聚类。 6.根据1所述的方法,所述后处理包括: 1)普遍性评估:原子(或氨基酸)类别所覆盖的蛋白质口袋的数目要占据初始时 给定的蛋白质口袋总数的显著比例,以保证所得到的相互作用模块是普遍存在的; 2)相似性评估:排除在聚类算法中仅仅是因为某些原子(或氨基酸)的特征与其 他原子(或氨基酸)均不相似而聚为一类的可能性。 7. 1-6任一项所述的方法在生物信息学研究、蛋白质设计、药物筛选和/或小分 子化学合成中的用途。 具体而言,本专利技术方法的流程如图1所示,具体步骤如下文所述。 (1)给定一组结合相同或者相似小分子的蛋白质,提取蛋白质上的小分子结合口 袋; (2)对每个蛋白质上小分子结合口袋中的原子(或氨基酸),根据其性质逐一进行 定量化的描述; (3)计算任意两个小分子结合口袋原子(或氨基酸)之间的距离,构建小分子结合 口袋原子(或氨基酸)距离矩阵; (4)根据小分子结合口袋原子(或氨基酸)距离矩阵进行聚类,抽取出性质相似的 小分子结合口袋原子(或氨基酸)类别; (5)对每一类小分子结合口袋原子(或氨基酸),进行后处理,获得蛋白质-小分 子结合相互作用模块。 方法实现说明: (1)蛋白质上的小分子结合口袋,可以定义为但不限于,由蛋白质上与小分子任意 原子距离在5A以内的原子构成的原子和氨基酸集合。 (2)对小分子结合口袋中原子(或氨基酸)的定量化描述,可以但不限于根据其自 身及其周围环境的物理、化学、几何等性质进行。 此处给出一种定量化描述示例如下。 每一个口袋原子表示为一个三元组(S,N,R),其中的三个元素分别量化了该口袋 原子自身化学性质,该原子周围的化学环境,该原子距离小分子每个原子的相对位置这三 个方面的性质。 具体地,可以将蛋白质20种氨基酸中的原子根据其原子的化学属性分为六大类: 1.亲水的,2.电子受体,3.电子供体,4.疏水的,5.芳香族原子,6.中性的。基于这样的分 类,上述元组中描述原子自身化学性质的元素 S,可以表示为 S = c 其中c表示该原子化学属性的类别(范围从1到6)。第二个描述原子周围化学性 质的元素 N,可以表示为 N = (rii, n2, n3, n4, n5, n6) 其中n。表示距离该原子dA,. d e (1,20),以内化学属性类别为c的原子的个数。 第三个描述原子距离小分子相对位置的元素 R,可以表示为 R =(山,d2, d3,…,dL) 其中山表示原子到小分子每个原子的物理距离,而L代表着小分子中的原子个 数。 (3)两个小分子结合口袋原子之间的距离度量方法,需要与口袋原子(或氨基酸) 的定量化描述相匹配。比如,基于上面(2)中给出的对口袋原子的定量化描述方法,可以定 义两个口袋原子?1和?2的距离如下: Dfad (Fj , F2) = Ds (Fj, F2) +Dn (Fj , F2) +DR (Fj, F2) 其中,第一项Ds代表了 F JP F2在元素 S方面的差异,用数学表达式表示为: 式中士和斤分别表不Fi和F 2自身化学性质的代号。 第二项DN代表了 F廊F 2在元素 N方面的差异,用数学表达式表示为: 式中lij1和np分别表示匕和F2周围5i4以内具有化学属性类别c的原子个数。 第三项DR代表了 F廊F 2在元素 R方面的差异,用数学表达式表示为: 式中eif1和df2分别表示匕和F 2到小分子第i号原子的物理距离。 (4)根据距离矩阵进行聚类,可以采用任何一种聚类算法(比如,系统聚类、 K-means、基于优化的聚类、基于模型的聚类等等),从而提取出在定量化描述特征上表现相 似的口袋原子(或氨基酸)类别。 (5)对口袋原子(或氨基酸)类别进行后处理,是为了进一步增加问题求解时的约 束条件,准确的获得蛋白质-小分子结合相互作用模块。具体的说,对聚类获得的每一个口 袋原子(或氨基酸)类别,可以采用但不限于下述的后处理方式。 后处理方式一、普遍性评估 该原子(或氨基酸)类别所覆盖的蛋白质口袋的数目需要大于或者等于初始时给 定的蛋白质口袋本文档来自技高网...
【技术保护点】
一种提取蛋白质‑小分子相互作用模块的方法,所述方法包括以下步骤:(1)给定一组结合相同或者相似小分子的蛋白质,提取蛋白质上的小分子结合口袋;(2)对每个蛋白质上小分子结合口袋中的原子或氨基酸,根据其性质逐一进行定量化的描述;(3)计算任意两个小分子结合口袋原子或氨基酸之间的距离,构建小分子结合口袋原子或氨基酸距离矩阵;(4)根据小分子结合口袋原子或氨基酸距离矩阵进行聚类,抽取出性质相似的小分子结合口袋原子或氨基酸类别;(5)对每一类小分子结合口袋原子或氨基酸,进行后处理,获得蛋白质‑小分子结合相互作用模块。
【技术特征摘要】
【专利技术属性】
技术研发人员:梁治,牛立文,滕脉坤,何巍,
申请(专利权)人:中国科学技术大学,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。