当前位置: 首页 > 专利查询>郑州大学专利>正文

一种基于小样本学习的预测蛋白质乳酸化修饰位点的算法制造技术

技术编号:38617204 阅读:10 留言:0更新日期:2023-08-26 23:44
本发明专利技术公开一种基于小样本学习的预测蛋白质乳酸化修饰位点的算法,该算法包括:收集独立的乳酸化修饰位点数据,整合多特征编码的乳酸化修饰位点,采用基于小样本学习策略进行模型训练,并设计多特征混合系统协同预测乳酸化修饰位点。本发明专利技术构建乳酸化修饰位点的阳性和阴性数据集,利用多种类型的序列和结构特征进行分组特征编码;分别采用基于SMOTE算法和随机欠采样RUS算法,实现阳性数据增强和阴性数据减弱,并利用深度神经网络分别对阳性和阴性数据的特征即数字向量构建预测模型,得到多个预测模型;以每个预测模型的预测结果集成新的特征,并采用惩罚逻辑回归构建最终模型。本发明专利技术可以较大程度上克服乳酸化修饰位点数据极端不平衡和训练模型过度拟合,可以快速且大规模地鉴定乳酸化位点。规模地鉴定乳酸化位点。

【技术实现步骤摘要】
一种基于小样本学习的预测蛋白质乳酸化修饰位点的算法


[0001]本专利技术涉及一种基于小样本学习的预测蛋白质乳酸化修饰位点的算法。属于生物信息学领域。

技术介绍

[0002]蛋白质翻译后修饰极大丰富了大多数真核生物蛋白质的功能多样性,并在许多生理和病理过程中发挥重要作用。蛋白质翻译后修饰的调控异常与癌症等多种复杂疾病密切相关。乳酸是Warburg效应的最终产物,不仅具有代谢功能,而且还具有非代谢功能。然而,乳酸发挥其多种作用的生理机制仍有待探索。最近,发现一种新的源自乳酸的蛋白质翻译后修饰:蛋白质乳酸化修饰。蛋白质乳酸化修饰参与多种疾病的发生,如人类肿瘤发生,并能够协调许多生物学过程,例如信号转导,能量代谢等。蛋白质乳酸化修饰代表乳酸的典型非代谢作用,并为研究乳酸的多种生理功能开辟了一条新途径。尽管近年来已逐渐认识到蛋白质乳酸化的重要性,但其基本机制仍不清楚。鉴定新的乳酸化修饰底物和精确的蛋白质乳酸化修饰位点是研究蛋白质乳酸化修饰分子机制和调节作用的基础。基于高通量液相色谱/质谱、生物化学等方法,可以检测蛋白质乳酸化修饰位点。但这些实验方法存在耗时,工作量大,成本高等缺点。目前已有许多蛋白质翻译后修饰预测工具,可以快速地预测蛋白质翻译后修饰位点。例如,Xue等基于肽段相似度打分的算法开发磷酸化修饰位点预测器。Ning等利用深度学习算法开发琥珀酰化修饰位点预测工具。这些预测工具的开发需要大量实验验证的翻译后修饰位点数据。但是,乳酸化修饰作为一种新兴的蛋白质翻译后修饰,目前鉴定的乳酸化修饰位点仍十分有限。因此,亟需开展合适的计算方法来快速、准确地预测蛋白质乳酸化修饰位点。

技术实现思路

[0003]本专利技术针对乳酸化修饰位点鉴定工作量大、成本高,以及目前已发现的位点少的问题,而提出的一种基于小样本学习策略预测蛋白质乳酸化修饰位点的方法。
[0004]首先,同时考虑乳酸化修饰位点的序列特征和结构特征的影响,采用多特征分组的编码方法对乳酸化修饰位点进行编码。
[0005]其次,由于目前乳酸化修饰位点鉴定数量有限,针对阳性和阴性数据集极度不平衡问题,本专利技术采用小样本学习分别对多特征分组数据建模,较大程度上克服乳酸化修饰位点数据极端不平衡和训练模型过度拟合。
[0006]最后,引入一种基于小样本学习策略开发乳酸化预测模型,引入集成学习实现多特征混合系统的构建,得到最终模型,使得本专利技术所公开的算法可以大规模预测乳酸化修饰位点。
[0007]总体而言,通过本专利技术所构思的以上技术方案与现有技术相比,主要具备以下的技术优点:
[0008]1.通过采用小样本学习方法预测乳酸化修饰位点,可以较大程度上克服乳酸化修
饰位点数据极端不平衡和训练模型过度拟合。
[0009]2.引入一种基于小样本学习策略开发乳酸化预测模型,引入集成学习实现多特征混合系统的构建,得到最终模型,使得本专利技术所公开的算法可以大规模预测乳酸化修饰位点。
附图说明
[0010]为了更清楚的说明本专利技术的技术方案,下面将对现有技术或实施例描述中所需要使用的附图简单地介绍。
[0011]图1是按照本专利技术方法的流程图。
[0012]图2是本专利技术所公开的小样本学习方法预测乳酸化修饰模型的详细步骤。
[0013]图3是小样本学习方法与具有代表性的、不采用小样本学习策略的机器学习和深度学习方法的性能比较结果图。
[0014]图4是本专利技术FSL

KLA的预测性能。
具体实施方式
[0015]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,此处的实例与描述仅用于解释本专利技术,并不用于限定本专利技术。我们使用本专利技术方法构建名为FSL

KLA的预测模型,其流程图如图1所示。具体步骤如图2所示为:
[0016](1)数据收集:从Pubmed等数据库收集整理乳酸化修饰的蛋白质以及乳酸化修饰位点信息。从Uniprot数据库中下载蛋白质的序列。将实验鉴定的乳酸化修饰位点视为阳性数据,而将相同蛋白质中剩余的赖氨酸位点视为阴性数据。利用滑窗技术,将蛋白质序列切割成以位点为中心,上游为10个氨基酸,下游为10个氨基酸,总长度为21个氨基酸的序列,构建蛋白质乳酸化修饰位点的原始正负样本数据集。
[0017](2)特征编码方案:采用了两组特征,包括基于氨基酸组成的特征(特征集1)以及位置特异性打分矩阵(PSSM)和基于结构的特征(特征集2)。使用iFeature(一种用于蛋白质和多肽序列编码的工具包)来生成特征集1的特征(可参考文献Chen Z,Zhao P,Li F,Leier A,Marquez

Lago TT,Wang Y,et al.iFeature:aPython package and web server for features extraction and selection from protein and peptide sequences.Bioinforma Oxf Engl 2018;34:2499

502.)。对于特征集2,我们生成了一个基于序列的特征,包括PSI

BLAST的PSSM(可参考文献Zou L,Nan C,Hu F.Accurate prediction of bacterial type IV secreted effectors using amino acid composition and PSSM profiles.Bioinformatics 2013;29:3135

42.),以及三个基于SPIDER2的结构特征(可参考文献Yang Y,Heffernan R,Paliwal K,Lyons J,Dehzangi A,Sharma A,et al.SPIDER2:A Package to Predict Secondary Structure,Accessible Surface Area,and Main

Chain Torsional Angles by Deep Neural Networks.In:Zhou Y,Kloczkowski A,Faraggi E,Yang Y,editors.Predict.Protein Second.Struct.,vol.1484,New York,NY:Springer New York;2017,p.55

63.)。
[0018](3)小样本学习策略:针对分组数据集,分别采用基于SMOTE算法和随机欠采样RUS算法,实现阳性数据增强和阴性数据减弱,进一步整合深度学习框架进行建模。该小样本学
习策略有助于解决阳性和阴性数据集不平衡问题。
[0019]对于特征集1,采用SMOTE“合成”新样本。对于少数类别样本x
i
,SMOTE使用其k个近邻方法并计算与x
i...

【技术保护点】

【技术特征摘要】
1.一种小样本学习方法预测蛋白质乳酸化修饰位点,其特征在于,(1)同时考虑乳酸化修饰的序列特征和结构特征的影响,采用多特征分组的编码方法对乳酸化修饰位点进行编码;(2)因考虑到目前已鉴定的乳酸化修饰位点数量有限,针对阳性和阴性数据集极度不平衡问题,本发明提出一种基于小样本学习策略开发乳酸化修饰位点预测模型,引入集成学习实现多特征混合系统的构建,得到最终模型,使得本发明所公开的算法可以大规模预测乳酸化修饰位点。2.根据权利要求1所述的一种小样本学习方法预测蛋白质乳酸化修饰位点,其特征在于,所建立的基于多特征分组的编码方案,包括:(1)收集乳酸化修饰位点信息:首先收集蛋白质乳酸化修饰位点信息;将所述乳酸化修饰位点作为阳性位点,将该乳酸化修饰蛋白质上与所述阳性位点相同氨基酸的其它位点作为阴性位点;将蛋白质的一级序列切割成以阳性位点或阴性位点为中心,上游和下游分别为n个氨基酸,总长度为2n+1个氨基酸序列;所有含有乳酸化修饰位点的氨基酸序列构成原始阳性数据集,所有含有所述阴性位点的非乳酸化修饰位点的氨基酸序列构成原始阴性数据集。(2)采用多特征分组的编码方案:采用了两组特征,包括基于氨基酸序列特征(特征集1)以及结构特征(特征集2)。逐个对步骤(1)所述总长度为2n+1个氨基酸的序列进行特征编码,得到数字向量特征。3.根据权利要求2所述的一种小样本学习方法预测蛋白质乳酸化修饰位点,其特征在于,步骤(1...

【专利技术属性】
技术研发人员:郭亚萍吴宾黎丝雨史云舒蒋沛然
申请(专利权)人:郑州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1