基于信息融合和深度学习的原核生物乙酰化位点预测方法技术

技术编号:23935905 阅读:97 留言:0更新日期:2020-04-25 03:09
本发明专利技术公开了一种基于信息融合和深度学习的原核生物乙酰化位点预测方法,涉及生物信息技术领域。所述预测方法引入多信息融合,从序列信息、物理化学信息、进化信息多方面对蛋白质序列进行特征编码,充分反映乙酰化位点与非乙酰化位点蛋白质序列之间的差异性。Group Lasso对原始特诊空间进行筛选和优化,保留识别乙酰化位点模型的重要特征,得到最佳特征子集,提高模型计算速度和质量。深度神经网络通过层级学习最优特征子集生成具有判别力的特征,有效区分蛋白质序列中的乙酰化位点和非乙酰化位点,同时节约计算时间并且避免其它成本和相关限制,不仅能够帮助深入了解乙酰化分子机制,而且能为进行乙酰化位点识别相关实验验证提供有价值的参考信息。

Prediction of acetylation sites in prokaryotes based on information fusion and deep learning

【技术实现步骤摘要】
基于信息融合和深度学习的原核生物乙酰化位点预测方法
本专利技术涉及生物信息
,具体涉及一种基于信息融合和深度学习的原核生物乙酰化位点预测方法。
技术介绍
蛋白质翻译后修饰作为一种调控机制,在正常和病理细胞生理学中发挥十分重要的作用。目前人们已发现几百种蛋白质翻译后修饰类型,其中赖氨酸乙酰化修饰对代谢的调控是近年来翻译后修饰研究领域的重要进展之一,该修饰是乙酰基供体通过非酶学或酶学的方式将乙酰基团共价结合到赖氨酸残基的过程。即通过赖氨酸乙酰转移酶将乙酰基团与特定赖氨酸残基进行共价连接,通过赖氨酸脱乙酰酶将乙酰基团移除。乙酰化修饰在生命进化过程中极为保守,对代谢的调控发生在从低等原核细胞到包括人在内的高等哺乳动物,是一种广泛存在于细胞核或细胞质的亚细胞器内的翻译后修饰调控机制,对许多细胞过程很重要。乙酰化能够调节蛋白质表达,稳定性,定位和合成,影响基因表达和代谢,而且与人类某些疾病有关,因为KATs/KDACs功能异常会影响细胞分裂。研究表明原核生物也普遍存在蛋白质乙酰化修饰现象,而且涉及中心代谢和中间代谢的很多代谢酶都存在乙酰化修饰现象。对乙酰化调控的研究将增进人们对细胞代谢、表观遗传等生命活动的认识,促进了解乙酰化修饰的潜在生物学过程及其后果,同时促进抗癌药物和肿瘤细胞生长抑制剂的研制。鉴定乙酰化位点是了解乙酰化机制的第一步,传统实验方法,如放射性检测,染色质免疫沉淀和质谱检测被用于识别乙酰化位点。由于这些方法是耗时且昂贵,而且无法识别大量的乙酰化位点,计算方法能够有效、快速地识别乙酰化位点。目前,使用逻辑回归、随机森林、支持向量机等计算方法预测乙酰化位点。逻辑回归是一种基于逻辑函数的回归分析算法。随机森林顾名思义,建立一个由很多决策树组成的森林,而且每颗决策树之间是没有关联的。支持向量机是通过核函数将输入样本映射到高维空间并搜索最优超平面进行分类的监督学习模型。Hou等人在2014年提出了基于逻辑回归分类器的赖氨酸乙酰化位点预测系统LAceP,该系统利用了乙酰化位点周围的氨基酸等级、氨基酸理化性质以及相邻氨基酸转移概率等信息。Li等人基于随机森林提出物种特异性赖氨酸乙酰化预测方法SSPKA,该方法结合序列派生和功能特征与两步特征选择,显著提高了预测性能。Basu等人构建了一个名为PredMod的预测工具,根据组蛋白中乙酰化赖氨酸的序列特征预测位点。Gnad等人利用支持向量机预测乙酰化残基,位点的预测准确度达到78%。Wuyun等人开发了一种新的预测器KA,基于支持向量机(SVM)预测物种特异性赖氨酸乙酰化位点,同时首次引入HSE特征。Shi等人提出了一种名为PLMLA的方法预测乙酰化位点,结合了蛋白质序列信息,二级结构和氨基酸性质,预测准确度达到83.08%。Li等人通过使用支持向量机(SVM)和蛋白质序列偶联模式编码方案,提出赖氨酸乙酰化预测算法LysAcet。Suo等人基于支持向量机提出了名为PSKAcePred的位置特异性方法,该方法结合氨基酸组成信息,进化相似性和物理化学性质对赖氨酸乙酰化位点进行预测,模型准确度达到79.84%。Lee等人提出基于两阶段支持向量机的计算模型N-Ace,结合氨基酸序列、蛋白质的可及表面积和物理化学性质,预测准确度比仅使用氨基酸序列的训练模型高5%至14%。Xu等人基于集成支持向量机的构建了乙酰化位点预测网站服务器EnsemblePail,预测优于单个支持向量机和其它方法。Shao等人提出了一种新的特征提取方法,双相对适应二项式得分贝叶斯BRABSB,并且结合支持向量机(SVM)构建人类特异性赖氨酸乙酰化位点预测器。值得注意的是,关于乙酰化位点预测的方法仍有很多不足之处。首先,乙酰化修饰不仅广泛存在于真核生物中,而且也广泛存在于原核生物之中,很多研究者对真核生物中乙酰化位点进行预测,而忽略乙酰化修饰在原核生物中的重要性,所以很有必要研究真核生物与原核生物之间乙酰化修饰的差异,迫切需要对原核生物乙酰化位点进行识别。其次,对乙酰化位点进行预测时,单个特征提取算法不能有效提取蛋白质序列信息,没有融合多种特征信息,轻视了多信息融合的重要性。最后,我们发现关于乙酰化位点预测的分类器受限于支持向量机、随机森林、逻辑回归等,预测准确性有限。因此,有必要设计一种新的原核生物乙酰化位点预测方法。
技术实现思路
本专利技术的目的在于提供一种基于信息融合和深度学习的原核生物乙酰化位点预测方法,解决上述问题,该预测方法易于实施,预测准确率高。为解决上述的技术问题,本专利技术采用以下技术方案:一种基于信息融合和深度学习的原核生物乙酰化位点预测方法,其特征在于,包括以下步骤:1)收集乙酰化修饰位点信息:从相关文献获得9个原核生物乙酰化位点数据集,生成正负样本对应的类别标签;2)特征编码:通过8种特征编码方法将蛋白质序列的字符信号转化为数值信号,从氨基酸残基的序列信息、物理化学信息、进化信息对氨基酸残基进行特征提取。通过对不同类型的特征向量进行多信息融合,得到初始特征空间;3)特征选择:针对初始特征空间,采用GroupLasso去除冗余和不相关信息,保留与分类相关的重要特征,得到最优特征子集;4)构建预测模型:把最优特征子集以及所对应的类别标签输入到深度神经网络进行交叉验证训练,优化模型的网络结构,结合评价指标评估模型的预测性能和鲁棒性,获得原核生物乙酰化位点预测模型;5)乙酰化位点预测:将独立测试集中待分析的原核生物蛋白质序列,输入至步骤4)中的预测模型中,预测该蛋白质是否包含乙酰化位点并输出。更进一步的技术方案是所述步骤1)包括如下子步骤:1-1)构建的原核生物9个类别的赖氨酸乙酰化位点数据集,分别为E.coli,S.typhimurium,Bacillussubtilis(B.subtilis),Vibrioparahemolvticus(V.parahemolvticus),Mycobacteriumtuberculosis(M.tuberculosis),Corynebacteriumglutamicum(C.glutamicum),Erwiniaamylovora(E.amylovora),Geobacilluskaustophilus(G.kaustophilus),Archaea。其中数据集Archaea来自于古细菌,包括嗜热子虫(T.themophilus)和其它古细菌物种,剩余8个数据集来源于原核生物细菌;1-2)剔除9个原核生物赖氨酸乙酰化位点数据集中具有修饰位点的错误序列,将含有实验标记乙酰化位点的序列称为正样本,而不含有实验标记乙酰化位点的序列称为负样本,9个原核生物赖氨酸乙酰化位点数据集中的所有正负样本序列均被截短为对称窗口;Archaea数据集的窗口大小为13(-6~6),V.parahemolvticus数据集的窗口大小为17(-8~8),剩余7个数据集的样本窗口大小均为21(-10~10),当正负样本长度不足时,定义虚拟氨基酸O以达到所需窗口大小;1-3)使用具有30%同源性阈值的CD-H本文档来自技高网
...

【技术保护点】
1.一种基于信息融合和深度学习的原核生物乙酰化位点预测方法,其特征在于,包括以下步骤:/n1)收集乙酰化修饰位点信息:从相关文献获得9个原核生物赖氨酸乙酰化位点数据集,生成正负样本对应的类别标签;/n2)特征编码:通过8种特征编码方法将蛋白质序列的字符信号转化为数值信号,从氨基酸残基的序列信息、物理化学信息、进化信息对氨基酸残基进行特征提取;通过对不同类型的特征向量进行多信息融合,得到初始特征空间;/n3)特征选择:针对初始特征空间,采用Group Lasso去除冗余和不相关信息,保留与分类相关的重要特征,得到最优特征子集;/n4)构建预测模型:把最优特征子集以及所对应的类别标签输入到深度神经网络进行交叉验证训练,优化模型的网络结构,结合评价指标评估模型的预测性能和鲁棒性,获得原核生物乙酰化位点预测模型;/n5)乙酰化位点预测:将独立测试集中待分析的原核生物蛋白质序列,输入至步骤4)中的预测模型中,预测该蛋白质是否包含乙酰化位点并输出。/n

【技术特征摘要】
1.一种基于信息融合和深度学习的原核生物乙酰化位点预测方法,其特征在于,包括以下步骤:
1)收集乙酰化修饰位点信息:从相关文献获得9个原核生物赖氨酸乙酰化位点数据集,生成正负样本对应的类别标签;
2)特征编码:通过8种特征编码方法将蛋白质序列的字符信号转化为数值信号,从氨基酸残基的序列信息、物理化学信息、进化信息对氨基酸残基进行特征提取;通过对不同类型的特征向量进行多信息融合,得到初始特征空间;
3)特征选择:针对初始特征空间,采用GroupLasso去除冗余和不相关信息,保留与分类相关的重要特征,得到最优特征子集;
4)构建预测模型:把最优特征子集以及所对应的类别标签输入到深度神经网络进行交叉验证训练,优化模型的网络结构,结合评价指标评估模型的预测性能和鲁棒性,获得原核生物乙酰化位点预测模型;
5)乙酰化位点预测:将独立测试集中待分析的原核生物蛋白质序列,输入至步骤4)中的预测模型中,预测该蛋白质是否包含乙酰化位点并输出。


2.根据权利要求1所述的基于信息融合和深度学习的原核生物乙酰化位点预测方法,其特征在于:所述步骤1)包括如下子步骤:
1-1)构建的原核生物9个类别的赖氨酸乙酰化位点数据集,分别为E.coli,S.typhimurium,Bacillussubtilis(B.subtilis),Vibrioparahemolvticus(V.parahemolvticus),Mycobacteriumtuberculosis(M.tuberculosis),Corynebacteriumglutamicum(C.glutamicum),Erwiniaamylovora(E.amylovora),Geobacilluskaustophilus(G.kaustophilus),Archaea。其中数据集Archaea来自于古细菌,包括嗜热子虫(T.themophilus)和其它古细菌物种,剩余8个数据集来源于原核生物细菌;
1-2)剔除9个原核生物赖氨酸乙酰化位点数据集中具有修饰位点的错误序列,将含有实验标记乙酰化位点的序列称为正样本,而不含有实验标记乙酰化位点的序列称为负样本,9个原核生物赖氨酸乙酰化位点数据集中的所有正负样本序列均被截短为对称窗口;Archaea数据集的窗口大小为13(-6~6),V.parahemolvticus数据集的窗口大小为17(-8~8),剩余7个数据集的样本窗口大小均为21(-10~10),当正负样本长度不足时,定义虚拟氨基酸O以达到所需窗口大小;
1-3)使用具有30%同源性阈值的CD-HIT对蛋白质序列聚类,得到训练数据集,随机选择10%的非同源性赖氨酸乙酰化片段与非乙酰化片段作为独立测试数据集;在负数据集中随机选择负样本,使负样本的数量与正样本数量保持相同,达到正负样本的平衡。


3.根据权利要求1所述的基于信息融合和深度学习的原核生物乙酰化位点预测方法,其特征在于:所述步骤2)中特征编码方法包括二元编码特征提取方法、伪氨基酸组成特征提取方法、AAindex特征提取方法、NMBroto特征提取方法、分组重量编码特征提取方法、MMI特征提取方法、BLOSUM62特征提取方法、k近邻得分特征提取方法;
所述二元编码特征提取方法基于序列信息,将蛋白质样本序列中的每个氨基酸残基转化成由0和1构成的21维数值向量;
所述伪氨基酸组成特征提取方法依据氨基酸残基的出现频率,描述氨基酸序列中位置和顺序的关系,将其转化为21维特征向量;
所述AAindex特征提取方法通过利用氨基酸指标数据库中的物理化学信息生成12维数值向量;
所述NMBroto特征提取方法从AAindex数据库中选取8种不同的氨基酸指数,利用NMBroto将蛋白质序列不同位置的氨基酸残基的物理化学性质生成特征向量,每一条蛋白质序列生成32维的特征向量;
所述分组重量编码特征提取方法考虑到疏水性和带电特性,将20种氨基酸残基分成4类,两两组合后分成三组,将每条序列样本转化成3条二进制序列,计算每条二进制序列中不同子序列对应数字1出现的概率;子序列个数设置为7,每条蛋白质序列得到3x7=21维的特征向量;
所述MMI特征提取方法基于氨基酸残基侧链的极性和体积,20种氨基酸分为7个组,把任何3个连续氨基酸作为一个单元,每个单元只考虑氨基酸基本成分,而不考虑氨基酸顺序,计算氨基酸序列上出现的每个类别的频率,生成119维特征向量;
所述BLOSUM62特征提取方法通过BLOSUM62矩阵反映氨基酸残基的进化信息;每个残基用包含m×L个元素的矩...

【专利技术属性】
技术研发人员:于彬禹昭敏陈成陈瑞欣王磊
申请(专利权)人:青岛科技大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1