The invention relates to the field of biological information technology, and discloses a method and a system for predicting the amino acid mutation, in order to improve the precision and the effect of the prediction, and effectively solve the blindness and the high cost of the biological experiment. The method of the invention includes: Construction of protein samples; determine the pre screening characteristics, the features of the same sample values are integrated into a feature sequence combined initial characteristics of the sample collection structure; stability by feature selection algorithm to select the most important features of the combination is configured to sample the first screening feature set; and then through the sequence forward selection algorithm selected set of final selection of important features constitute the sample feature extraction; positive and negative samples of the training set and the independent test set, the training set will eventually filter each sample feature set by gradient lifting tree algorithm for training, the final classification model, and ensemble prediction on the classification model the final screening evaluation combined with features of independent test set.
【技术实现步骤摘要】
本专利技术涉及生物信息
,尤其涉及一种预测氨基酸突变的方法及系统。
技术介绍
氨基酸突变也被称为非同义的单核苷酸突变,是关于人类疾病变种研究中价值最大的一部分。氨基酸突变是由于一些单个碱基的改变,造成蛋白质产物中氨基酸序列的改变。氨基酸的改变会影响蛋白质的稳定性、相互作用和酶的活性,从而导致疾病的发生。根据最新的全人类基因组测序的结果表明,每个人都会有三到五百万个氨基酸突变,而且这一数据仍然在快速的增长。在众多的氨基酸突变中,一些突变会导致疾病的发生,其他的则是对蛋白质功能没有影响的中性突变。随着单核苷酸多态性等位基因分型和下一代DNA测序技术等基因组分析技术的快速发展,产生了大量关于氨基酸突变的数据。这些数据通过研究发现,绝大多数的氨基酸突变都是疾病形成的潜在因素,但是通过生物实验来测定大量突变的表现型和生物化学性质比较耗时耗力,且成本花费大。然而,如果采用数据挖掘的方法对大量突变数据进行预测,不仅预测精度高、方便、快速,而且节约成本。目前已经有许多计算方法运用于氨基酸突变的预测。这些方法主要使用的是统计原理和机器学习算法进行预测分类。例如:SIFT、SNAP、PolyPhen2、FunSAV和SusPect等方法。它们的输入特征包括氨基酸序列、3D结构、氨基酸的理化性质、进化信息和残基互联网络等特征。而且许多方法已经被做成独立软件或者网站服务器,可供研究团体免费使用。但现有的方法预测精度不高,所以还有很大的提升空间。因此,如果能运用一种有效的方法,把有害的和中性的氨基酸突变相互区分开,将更好的理解基因型和表现型的相互关系,进而揭开基因遗传突变致 ...
【技术保护点】
一种预测氨基酸突变的方法,其特征在于,包括:构建蛋白质样本集,将氨基酸突变后表现是中性的样本归为负样本,将氨基酸突变后表现为病态的样本归为正样本;确定预筛选的特征,并计算各样本的各特征值,以突变的氨基酸为中心确定滑动窗口的大小,以所确定的滑动窗口将同一样本的各个特征值整合到一条特征序列中组合构造成样本的初始特征集合,所述预筛选的特征包括根据欧式距离和沃罗诺伊图所确定的空间邻居的序列和结构特征;通过稳定性特征选择算法对所述初始特征集合进行第一次降维处理,筛选出比较重要特征组合构造成样本的第一次筛选特征集合;通过序列前向选择算法对所述第一次筛选特征集合进行第二次降维处理,筛选出重要特征组合构成样本的最终筛选特征集合;抽取正样本和负样本构建训练集和独立测试集,将所述训练集中各样本的最终筛选特征集合代入梯度提升树算法中进行训练,得出最终的分类模型,并结合所述独立测试集的最终筛选特征集合对所述分类模型的预测结果进行评估。
【技术特征摘要】
1.一种预测氨基酸突变的方法,其特征在于,包括:构建蛋白质样本集,将氨基酸突变后表现是中性的样本归为负样本,将氨基酸突变后表现为病态的样本归为正样本;确定预筛选的特征,并计算各样本的各特征值,以突变的氨基酸为中心确定滑动窗口的大小,以所确定的滑动窗口将同一样本的各个特征值整合到一条特征序列中组合构造成样本的初始特征集合,所述预筛选的特征包括根据欧式距离和沃罗诺伊图所确定的空间邻居的序列和结构特征;通过稳定性特征选择算法对所述初始特征集合进行第一次降维处理,筛选出比较重要特征组合构造成样本的第一次筛选特征集合;通过序列前向选择算法对所述第一次筛选特征集合进行第二次降维处理,筛选出重要特征组合构成样本的最终筛选特征集合;抽取正样本和负样本构建训练集和独立测试集,将所述训练集中各样本的最终筛选特征集合代入梯度提升树算法中进行训练,得出最终的分类模型,并结合所述独立测试集的最终筛选特征集合对所述分类模型的预测结果进行评估。2.根据权利要求1所述的预测氨基酸突变的方法,其特征在于,所述负样本的数据从Ensemblehumanvariation数据库中提取。3.根据权利要求1所述的预测氨基酸突变的方法,其特征在于,所述正样本的数据从UniProthumansequencevariations数据库中提取。4.根据权利要求1至3任一所述的预测氨基酸突变的方法,其特征在于,所述预筛选的特征还包括:物理化学特征,特定位置得分矩阵,溶剂可及性表面积,螺旋转角,替换矩阵,二级结构,保守性分数,残基结构熵值及残基相互联系的网络特征。5.根据权利要求1至3任一所述的预测氨基酸突变的方法,其特征在于,在构建蛋白质样本集的过程中,还包括对蛋白质序列相似性大于0.4的重复性数据做剔除处理。6.一种预测氨基酸突变的系统,其特征在于,包括:第一处理模块,用...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。