The invention discloses a method for interaction network clustering S FCM algorithm in xylanase amino acid, which belongs to the technical field of computer application. The method of the invention is improved according to the strong dependence of the parameters of the FCM algorithm and the sensitivity to the initial clustering center. S FCM algorithm first introduced data pretreatment method based on density, so that it can be based on the input of the xylanase amino acid density characteristics of the network itself with each other to obtain the initial clustering center and the classification number, to guarantee the reliability of clustering results. Secondly, considering the influence of amino acid sequence characteristics on the clustering results, the sequence characteristics of amino acids are added to the distance feature, which improves the accuracy of clustering. The method of the invention is based on the FCM algorithm, aiming at some defects of the algorithm is improved, and the xylanase amino acid interaction network clustering, provides a new way for the study of protein stability from the community perspective.
【技术实现步骤摘要】
一种适用于木聚糖酶氨基酸相互作用网络聚类的S-FCM算法
本专利技术公开了一种适用于木聚糖酶氨基酸相互作用网络聚类的S-FCM算法,属于计算机应用
具体的说就是在模糊C均值聚类算法(FCM算法)的基础上,引入了基于密度的数据预处理方法,同时在距离特征的基础上加入了氨基酸的序列特征,提高了聚类结果的稳定性和精确度,该方法为从社团的角度研究蛋白质热稳定性提供了一个新的途径。
技术介绍
木聚糖酶广泛分布于各种生物体内,其能够将木聚糖催化水解为五碳糖。现在耐热木聚糖酶因能在高温下保持活性而广泛应用于工业生产中:纸张漂白,农业饲料,生物转化等。研究耐热木聚糖酶热稳定性的作用机理必将产生显著的社会效益和经济效益。对蛋白质热稳定性的影响不只是单一氨基酸作用,而是多个氨基酸通过相互作用形成社团,在时间和空间上协调一致,来维持蛋白质热稳定性。将蛋白质编码成氨基酸相互作用网络,借助复杂网络社团结构分析方法,揭示氨基酸的内在联系,对于理解蛋白质的功能以及分析网络中氨基酸之间的行为具有重要的理论意义。因此,用聚类算法将蛋白质中氨基酸相互作用网络划分成簇,从社团的角度研究木聚糖酶的热稳定性是一条有效的途径。RodriguezA(《Clusteringbyfastsearchandfindofdensitypeaks》Science,2014,344(6191):1492-1496)等提出了基于密度的方法,在网络中寻找高密段连通的子网络。作为寻找完全连通子图的最大团算法,它能从氨基酸相互作用网络中检测出那些高度连接的蛋白质,但是它不能对存在大量稀疏节点的网络进行分类。Maye ...
【技术保护点】
一种适用于木聚糖酶氨基酸相互作用网络聚类的S‑FCM算法,算法流程如下:(1)基于密度的数据预处理方法选定初始聚类中心以及分类数目计算并根据木聚糖酶氨基酸相互作用网络中每个氨基酸节点的局部密度以及与其它氨基酸节点的距离,确定被具有低局部密度的邻居点包围,且与高密度的其他点有相对较大的距离的类簇中心,类簇中心的个数即为分类数目。通过对数据进行预处理,获得反映数据空间密度分布特征的代表点。所计算的氨基酸节点之间的距离作为S‑FCM算法的距离特征向量。(2)加入氨基酸序列特征作为新的分类标准计算木聚糖酶氨基酸序列中每个氨基酸与其它氨基酸相互影响的概率,作为算法的序列特征向量。(3)构建目标函数方程基于距离特征与序列特征建立目标函数方程,根据已经确定好的初始聚类中心以及分类数目计算目标函数的极小值。得到隶属度矩阵,确定聚类结果。
【技术特征摘要】
1.一种适用于木聚糖酶氨基酸相互作用网络聚类的S-FCM算法,算法流程如下:(1)基于密度的数据预处理方法选定初始聚类中心以及分类数目计算并根据木聚糖酶氨基酸相互作用网络中每个氨基酸节点的局部密度以及与其它氨基酸节点的距离,确定被具有低局部密度的邻居点包围,且与高密度的其他点有相对较大的距离的类簇中心,类簇中心的个数即为分类数目。通过对数据进行预处理,获得反映数据空间密度分布特征的代表点。所计算的氨基酸节点之间的距离作为S-FCM算法的距离特征向量。(2)加入氨基酸序列特征作为新的分类标...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。