【技术实现步骤摘要】
基于信息融合和深度学习的原核生物乙酰化位点预测方法
本专利技术涉及生物信息
,具体涉及一种基于信息融合和深度学习的原核生物乙酰化位点预测方法。
技术介绍
蛋白质翻译后修饰作为一种调控机制,在正常和病理细胞生理学中发挥十分重要的作用。目前人们已发现几百种蛋白质翻译后修饰类型,其中赖氨酸乙酰化修饰对代谢的调控是近年来翻译后修饰研究领域的重要进展之一,该修饰是乙酰基供体通过非酶学或酶学的方式将乙酰基团共价结合到赖氨酸残基的过程。即通过赖氨酸乙酰转移酶将乙酰基团与特定赖氨酸残基进行共价连接,通过赖氨酸脱乙酰酶将乙酰基团移除。乙酰化修饰在生命进化过程中极为保守,对代谢的调控发生在从低等原核细胞到包括人在内的高等哺乳动物,是一种广泛存在于细胞核或细胞质的亚细胞器内的翻译后修饰调控机制,对许多细胞过程很重要。乙酰化能够调节蛋白质表达,稳定性,定位和合成,影响基因表达和代谢,而且与人类某些疾病有关,因为KATs/KDACs功能异常会影响细胞分裂。研究表明原核生物也普遍存在蛋白质乙酰化修饰现象,而且涉及中心代谢和中间代谢的很多代谢酶都存在乙酰化修饰现象。对乙酰化调控的研究将增进人们对细胞代谢、表观遗传等生命活动的认识,促进了解乙酰化修饰的潜在生物学过程及其后果,同时促进抗癌药物和肿瘤细胞生长抑制剂的研制。鉴定乙酰化位点是了解乙酰化机制的第一步,传统实验方法,如放射性检测,染色质免疫沉淀和质谱检测被用于识别乙酰化位点。由于这些方法是耗时且昂贵,而且无法识别大量的乙酰化位点,计算方法能够有效、快速地识别乙酰化位点。目 ...
【技术保护点】
1.一种基于信息融合和深度学习的原核生物乙酰化位点预测方法,其特征在于,包括以下步骤:/n1)收集乙酰化修饰位点信息:从相关文献获得9个原核生物赖氨酸乙酰化位点数据集,生成正负样本对应的类别标签;/n2)特征编码:通过8种特征编码方法将蛋白质序列的字符信号转化为数值信号,从氨基酸残基的序列信息、物理化学信息、进化信息对氨基酸残基进行特征提取;通过对不同类型的特征向量进行多信息融合,得到初始特征空间;/n3)特征选择:针对初始特征空间,采用Group Lasso去除冗余和不相关信息,保留与分类相关的重要特征,得到最优特征子集;/n4)构建预测模型:把最优特征子集以及所对应的类别标签输入到深度神经网络进行交叉验证训练,优化模型的网络结构,结合评价指标评估模型的预测性能和鲁棒性,获得原核生物乙酰化位点预测模型;/n5)乙酰化位点预测:将独立测试集中待分析的原核生物蛋白质序列,输入至步骤4)中的预测模型中,预测该蛋白质是否包含乙酰化位点并输出。/n
【技术特征摘要】
1.一种基于信息融合和深度学习的原核生物乙酰化位点预测方法,其特征在于,包括以下步骤:
1)收集乙酰化修饰位点信息:从相关文献获得9个原核生物赖氨酸乙酰化位点数据集,生成正负样本对应的类别标签;
2)特征编码:通过8种特征编码方法将蛋白质序列的字符信号转化为数值信号,从氨基酸残基的序列信息、物理化学信息、进化信息对氨基酸残基进行特征提取;通过对不同类型的特征向量进行多信息融合,得到初始特征空间;
3)特征选择:针对初始特征空间,采用GroupLasso去除冗余和不相关信息,保留与分类相关的重要特征,得到最优特征子集;
4)构建预测模型:把最优特征子集以及所对应的类别标签输入到深度神经网络进行交叉验证训练,优化模型的网络结构,结合评价指标评估模型的预测性能和鲁棒性,获得原核生物乙酰化位点预测模型;
5)乙酰化位点预测:将独立测试集中待分析的原核生物蛋白质序列,输入至步骤4)中的预测模型中,预测该蛋白质是否包含乙酰化位点并输出。
2.根据权利要求1所述的基于信息融合和深度学习的原核生物乙酰化位点预测方法,其特征在于:所述步骤1)包括如下子步骤:
1-1)构建的原核生物9个类别的赖氨酸乙酰化位点数据集,分别为E.coli,S.typhimurium,Bacillussubtilis(B.subtilis),Vibrioparahemolvticus(V.parahemolvticus),Mycobacteriumtuberculosis(M.tuberculosis),Corynebacteriumglutamicum(C.glutamicum),Erwiniaamylovora(E.amylovora),Geobacilluskaustophilus(G.kaustophilus),Archaea。其中数据集Archaea来自于古细菌,包括嗜热子虫(T.themophilus)和其它古细菌物种,剩余8个数据集来源于原核生物细菌;
1-2)剔除9个原核生物赖氨酸乙酰化位点数据集中具有修饰位点的错误序列,将含有实验标记乙酰化位点的序列称为正样本,而不含有实验标记乙酰化位点的序列称为负样本,9个原核生物赖氨酸乙酰化位点数据集中的所有正负样本序列均被截短为对称窗口;Archaea数据集的窗口大小为13(-6~6),V.parahemolvticus数据集的窗口大小为17(-8~8),剩余7个数据集的样本窗口大小均为21(-10~10),当正负样本长度不足时,定义虚拟氨基酸O以达到所需窗口大小;
1-3)使用具有30%同源性阈值的CD-HIT对蛋白质序列聚类,得到训练数据集,随机选择10%的非同源性赖氨酸乙酰化片段与非乙酰化片段作为独立测试数据集;在负数据集中随机选择负样本,使负样本的数量与正样本数量保持相同,达到正负样本的平衡。
3.根据权利要求1所述的基于信息融合和深度学习的原核生物乙酰化位点预测方法,其特征在于:所述步骤2)中特征编码方法包括二元编码特征提取方法、伪氨基酸组成特征提取方法、AAindex特征提取方法、NMBroto特征提取方法、分组重量编码特征提取方法、MMI特征提取方法、BLOSUM62特征提取方法、k近邻得分特征提取方法;
所述二元编码特征提取方法基于序列信息,将蛋白质样本序列中的每个氨基酸残基转化成由0和1构成的21维数值向量;
所述伪氨基酸组成特征提取方法依据氨基酸残基的出现频率,描述氨基酸序列中位置和顺序的关系,将其转化为21维特征向量;
所述AAindex特征提取方法通过利用氨基酸指标数据库中的物理化学信息生成12维数值向量;
所述NMBroto特征提取方法从AAindex数据库中选取8种不同的氨基酸指数,利用NMBroto将蛋白质序列不同位置的氨基酸残基的物理化学性质生成特征向量,每一条蛋白质序列生成32维的特征向量;
所述分组重量编码特征提取方法考虑到疏水性和带电特性,将20种氨基酸残基分成4类,两两组合后分成三组,将每条序列样本转化成3条二进制序列,计算每条二进制序列中不同子序列对应数字1出现的概率;子序列个数设置为7,每条蛋白质序列得到3x7=21维的特征向量;
所述MMI特征提取方法基于氨基酸残基侧链的极性和体积,20种氨基酸分为7个组,把任何3个连续氨基酸作为一个单元,每个单元只考虑氨基酸基本成分,而不考虑氨基酸顺序,计算氨基酸序列上出现的每个类别的频率,生成119维特征向量;
所述BLOSUM62特征提取方法通过BLOSUM62矩阵反映氨基酸残基的进化信息;每个残基用包含m×L个元素的矩...
【专利技术属性】
技术研发人员:于彬,禹昭敏,陈成,陈瑞欣,王磊,
申请(专利权)人:青岛科技大学,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。