当前位置: 首页 > 专利查询>中南大学专利>正文

预测氨基酸突变的方法及系统技术方案

技术编号:15296707 阅读:178 留言:0更新日期:2017-05-11 17:31
本发明专利技术涉及生物信息技术领域,公开了一种预测氨基酸突变的方法及系统,以提高预测的精度和效果,有效解决生物实验的盲目性和成本高等问题。本发明专利技术方法包括:构建蛋白质样本集;确定预筛选的特征,将同一样本的各个特征值整合到一条特征序列中组合构造成样本的初始特征集合;通过稳定性特征选择算法筛选出比较重要特征组合构造成样本的第一次筛选特征集合;然后通过序列前向选择算法筛选出重要特征组合构成样本的最终筛选特征集合;抽取正样本和负样本构建训练集和独立测试集,将训练集中各样本的最终筛选特征集合代入梯度提升树算法中进行训练,得出最终的分类模型,并结合独立测试集的最终筛选特征集合对分类模型的预测结果进行评估。

Method and system for predicting amino acid mutation

The invention relates to the field of biological information technology, and discloses a method and a system for predicting the amino acid mutation, in order to improve the precision and the effect of the prediction, and effectively solve the blindness and the high cost of the biological experiment. The method of the invention includes: Construction of protein samples; determine the pre screening characteristics, the features of the same sample values are integrated into a feature sequence combined initial characteristics of the sample collection structure; stability by feature selection algorithm to select the most important features of the combination is configured to sample the first screening feature set; and then through the sequence forward selection algorithm selected set of final selection of important features constitute the sample feature extraction; positive and negative samples of the training set and the independent test set, the training set will eventually filter each sample feature set by gradient lifting tree algorithm for training, the final classification model, and ensemble prediction on the classification model the final screening evaluation combined with features of independent test set.

【技术实现步骤摘要】

本专利技术涉及生物信息
,尤其涉及一种预测氨基酸突变的方法及系统
技术介绍
氨基酸突变也被称为非同义的单核苷酸突变,是关于人类疾病变种研究中价值最大的一部分。氨基酸突变是由于一些单个碱基的改变,造成蛋白质产物中氨基酸序列的改变。氨基酸的改变会影响蛋白质的稳定性、相互作用和酶的活性,从而导致疾病的发生。根据最新的全人类基因组测序的结果表明,每个人都会有三到五百万个氨基酸突变,而且这一数据仍然在快速的增长。在众多的氨基酸突变中,一些突变会导致疾病的发生,其他的则是对蛋白质功能没有影响的中性突变。随着单核苷酸多态性等位基因分型和下一代DNA测序技术等基因组分析技术的快速发展,产生了大量关于氨基酸突变的数据。这些数据通过研究发现,绝大多数的氨基酸突变都是疾病形成的潜在因素,但是通过生物实验来测定大量突变的表现型和生物化学性质比较耗时耗力,且成本花费大。然而,如果采用数据挖掘的方法对大量突变数据进行预测,不仅预测精度高、方便、快速,而且节约成本。目前已经有许多计算方法运用于氨基酸突变的预测。这些方法主要使用的是统计原理和机器学习算法进行预测分类。例如:SIFT、SNAP、PolyPhen2、FunSAV和SusPect等方法。它们的输入特征包括氨基酸序列、3D结构、氨基酸的理化性质、进化信息和残基互联网络等特征。而且许多方法已经被做成独立软件或者网站服务器,可供研究团体免费使用。但现有的方法预测精度不高,所以还有很大的提升空间。因此,如果能运用一种有效的方法,把有害的和中性的氨基酸突变相互区分开,将更好的理解基因型和表现型的相互关系,进而揭开基因遗传突变致病的内部细节。
技术实现思路
本专利技术目的在于公开一种预测氨基酸突变的方法及系统,以提高预测的精度和效果,有效解决生物实验的盲目性和成本高等问题。为实现上述目的,本专利技术公开了一种预测氨基酸突变的方法,包括:构建蛋白质样本集,将氨基酸突变后表现是中性的样本归为负样本,将氨基酸突变后表现为病态的样本归为正样本;确定预筛选的特征,并计算各样本的各特征值,以突变的氨基酸为中心确定滑动窗口的大小,以所确定的滑动窗口将同一样本的各个特征值整合到一条特征序列中组合构造成样本的初始特征集合,所述预筛选的特征包括根据欧式距离和沃罗诺伊图所确定的空间邻居的序列和结构特征;通过稳定性特征选择算法对所述初始特征集合进行第一次降维处理,筛选出比较重要特征组合构造成样本的第一次筛选特征集合;通过序列前向选择算法对所述第一次筛选特征集合进行第二次降维处理,筛选出重要特征组合构成样本的最终筛选特征集合;抽取正样本和负样本构建训练集和独立测试集,将所述训练集中各样本的最终筛选特征集合代入梯度提升树算法中进行训练,得出最终的分类模型,并结合所述独立测试集的最终筛选特征集合对所述分类模型的预测结果进行评估。为实现上述目的,本专利技术还公开了一种预测氨基酸突变的系统,包括:第一处理模块,用于构建蛋白质样本集,将氨基酸突变后表现是中性的样本归为负样本,将氨基酸突变后表现为病态的样本归为正样本;第二处理模块,用于确定预筛选的特征,并计算各样本的各特征值,以突变的氨基酸为中心确定滑动窗口的大小,以所确定的滑动窗口将同一样本的各个特征值整合到一条特征序列中组合构造成样本的初始特征集合,所述预筛选的特征包括根据欧式距离和沃罗诺伊图所确定的空间邻居的序列和结构特征;第三处理模块,用于通过稳定性特征选择算法对所述初始特征集合进行第一次降维处理,筛选出比较重要特征组合构造成样本的第一次筛选特征集合;第四处理模块,用于通过序列前向选择算法对所述第一次筛选特征集合进行第二次降维处理,筛选出重要特征组合构成样本的最终筛选特征集合;第五处理模块,用于抽取正样本和负样本构建训练集和独立测试集,将所述训练集中各样本的最终筛选特征集合代入梯度提升树算法中进行训练,得出最终的分类模型,并结合所述独立测试集的最终筛选特征集合对所述分类模型的预测结果进行评估。本专利技术具有以下有益效果:通过提取多种氨基酸特征进行两次降维处理得出重要特征,并基于降维后的重要特征进行分类模型的构建及评估,提高了预测的精度和效果,有效解决生物实验的盲目性和成本高等问题。下面将参照附图,对本专利技术作进一步详细的说明。附图说明构成本申请的一部分的附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是本专利技术优选实施例公开的预测氨基酸突变的方法流程图;图2为5折验证下两步特征选择方法与其他方法性能比较的ROC曲线;图3为梯度提升树算法与其他前人用到的分类方法性能比较;图4为5折验证下本专利技术方法与其他方法在训练集上性能比较的ROC曲线;图5为5折验证下本专利技术方法与其他方法在独立测试集上性能比较的ROC曲线。具体实施方式以下结合附图对本专利技术的实施例进行详细说明,但是本专利技术可以由权利要求限定和覆盖的多种不同方式实施。实施例1本实施例公开一种预测氨基酸突变的方法,如图1所示,包括:步骤S1、构建蛋白质样本集,将氨基酸突变后表现是中性的样本归为负样本,将氨基酸突变后表现为病态的样本归为正样本。该步骤中,负样本的数据可从Ensemblehumanvariation数据库中提取。正样本的数据可从UniProthumansequencevariations数据库中提取。较佳的,在构建蛋白质样本集的过程中,可以先对蛋白质序列相似性大于0.4的重复性数据做剔除处理。步骤S2、确定预筛选的特征,并计算各样本的各特征值,以突变的氨基酸为中心确定滑动窗口的大小,以所确定的滑动窗口将同一样本的各个特征值整合到一条特征序列中组合构造成样本的初始特征集合,预筛选的特征包括根据欧式距离和沃罗诺伊图所确定的空间邻居的序列和结构特征。在该步骤中,以突变的氨基酸为中心,每个特征的计算都与其左右相邻的若干残基的特征值进行关联,例如滑动窗口为21,则所择取的左右相邻的残基数量各为10。而且通常,每个特征值的计算是单独实现的,即各个特征值的具体计算算法不一样,从而需要将同一样本的各个特征值整合到一条特征序列中。预筛选的特征还包括但不限于:物理化学特征,特定位置得分矩阵,溶剂可及性表面积,螺旋转角,替换矩阵,二级结构,保守性分数,残基结构熵值及残基相互联系的网络特征等等。在该步骤中,可以通过三维坐标计算,根据欧式距离(Euclideandistance)和沃罗诺伊图(Voronoidiagram)确定蛋白质样本中突变氨基酸所处链式三维空间中的邻居残基,进而考虑空间邻居的序列和结构特征,而不是仅仅只考虑氨基酸序列相邻的邻居特征;从而扩展了特征的纳入范畴,而且在大量的实验中,该空间邻居的序列和结构特征在后续的降维过程中都得以保留,并对最终预测结果产生了实质性的影响,从而使得该考虑相比现有的特征纳入范畴具有显著的进步。步骤S3、通过稳定性特征选择算法对初始特征集合进行第一次降维处理,筛选出比较重要特征组合构造成样本的第一次筛选特征集合。在该步骤中,稳定性特征选择(Stabilityfeatureselection)方法是一个较新颖的特征选择方法。它是在各个不同的数据子集上使用特征选择算法,不同的数据子集包含不同的特征。这个过程会重复若干次后,选择本文档来自技高网
...
预测氨基酸突变的方法及系统

【技术保护点】
一种预测氨基酸突变的方法,其特征在于,包括:构建蛋白质样本集,将氨基酸突变后表现是中性的样本归为负样本,将氨基酸突变后表现为病态的样本归为正样本;确定预筛选的特征,并计算各样本的各特征值,以突变的氨基酸为中心确定滑动窗口的大小,以所确定的滑动窗口将同一样本的各个特征值整合到一条特征序列中组合构造成样本的初始特征集合,所述预筛选的特征包括根据欧式距离和沃罗诺伊图所确定的空间邻居的序列和结构特征;通过稳定性特征选择算法对所述初始特征集合进行第一次降维处理,筛选出比较重要特征组合构造成样本的第一次筛选特征集合;通过序列前向选择算法对所述第一次筛选特征集合进行第二次降维处理,筛选出重要特征组合构成样本的最终筛选特征集合;抽取正样本和负样本构建训练集和独立测试集,将所述训练集中各样本的最终筛选特征集合代入梯度提升树算法中进行训练,得出最终的分类模型,并结合所述独立测试集的最终筛选特征集合对所述分类模型的预测结果进行评估。

【技术特征摘要】
1.一种预测氨基酸突变的方法,其特征在于,包括:构建蛋白质样本集,将氨基酸突变后表现是中性的样本归为负样本,将氨基酸突变后表现为病态的样本归为正样本;确定预筛选的特征,并计算各样本的各特征值,以突变的氨基酸为中心确定滑动窗口的大小,以所确定的滑动窗口将同一样本的各个特征值整合到一条特征序列中组合构造成样本的初始特征集合,所述预筛选的特征包括根据欧式距离和沃罗诺伊图所确定的空间邻居的序列和结构特征;通过稳定性特征选择算法对所述初始特征集合进行第一次降维处理,筛选出比较重要特征组合构造成样本的第一次筛选特征集合;通过序列前向选择算法对所述第一次筛选特征集合进行第二次降维处理,筛选出重要特征组合构成样本的最终筛选特征集合;抽取正样本和负样本构建训练集和独立测试集,将所述训练集中各样本的最终筛选特征集合代入梯度提升树算法中进行训练,得出最终的分类模型,并结合所述独立测试集的最终筛选特征集合对所述分类模型的预测结果进行评估。2.根据权利要求1所述的预测氨基酸突变的方法,其特征在于,所述负样本的数据从Ensemblehumanvariation数据库中提取。3.根据权利要求1所述的预测氨基酸突变的方法,其特征在于,所述正样本的数据从UniProthumansequencevariations数据库中提取。4.根据权利要求1至3任一所述的预测氨基酸突变的方法,其特征在于,所述预筛选的特征还包括:物理化学特征,特定位置得分矩阵,溶剂可及性表面积,螺旋转角,替换矩阵,二级结构,保守性分数,残基结构熵值及残基相互联系的网络特征。5.根据权利要求1至3任一所述的预测氨基酸突变的方法,其特征在于,在构建蛋白质样本集的过程中,还包括对蛋白质序列相似性大于0.4的重复性数据做剔除处理。6.一种预测氨基酸突变的系统,其特征在于,包括:第一处理模块,用...

【专利技术属性】
技术研发人员:邓磊潘玉亮
申请(专利权)人:中南大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1