一种基于小样本学习的预测蛋白质乳酸化修饰位点的算法制造技术

技术编号：38617204 阅读：10 留言：0更新日期：2023-08-26 23:44

本发明专利技术公开一种基于小样本学习的预测蛋白质乳酸化修饰位点的算法，该算法包括：收集独立的乳酸化修饰位点数据，整合多特征编码的乳酸化修饰位点，采用基于小样本学习策略进行模型训练，并设计多特征混合系统协同预测乳酸化修饰位点。本发明专利技术构建乳酸化修饰位点的阳性和阴性数据集，利用多种类型的序列和结构特征进行分组特征编码；分别采用基于SMOTE算法和随机欠采样RUS算法，实现阳性数据增强和阴性数据减弱，并利用深度神经网络分别对阳性和阴性数据的特征即数字向量构建预测模型，得到多个预测模型；以每个预测模型的预测结果集成新的特征，并采用惩罚逻辑回归构建最终模型。本发明专利技术可以较大程度上克服乳酸化修饰位点数据极端不平衡和训练模型过度拟合，可以快速且大规模地鉴定乳酸化位点。规模地鉴定乳酸化位点。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于小样本学习的预测蛋白质乳酸化修饰位点的算法

[0001]本专利技术涉及一种基于小样本学习的预测蛋白质乳酸化修饰位点的算法。属于生物信息学领域。

技术介绍

[0002]蛋白质翻译后修饰极大丰富了大多数真核生物蛋白质的功能多样性，并在许多生理和病理过程中发挥重要作用。蛋白质翻译后修饰的调控异常与癌症等多种复杂疾病密切相关。乳酸是Warburg效应的最终产物，不仅具有代谢功能，而且还具有非代谢功能。然而，乳酸发挥其多种作用的生理机制仍有待探索。最近，发现一种新的源自乳酸的蛋白质翻译后修饰：蛋白质乳酸化修饰。蛋白质乳酸化修饰参与多种疾病的发生，如人类肿瘤发生，并能够协调许多生物学过程，例如信号转导，能量代谢等。蛋白质乳酸化修饰代表乳酸的典型非代谢作用，并为研究乳酸的多种生理功能开辟了一条新途径。尽管近年来已逐渐认识到蛋白质乳酸化的重要性，但其基本机制仍不清楚。鉴定新的乳酸化修饰底物和精确的蛋白质乳酸化修饰位点是研究蛋白质乳酸化修饰分子机制和调节作用的基础。基于高通量液相色谱/质谱、生物化学等方法，可以检测蛋白质乳酸化修饰位点。但这些实验方法存在耗时，工作量大，成本高等缺点。目前已有许多蛋白质翻译后修饰预测工具，可以快速地预测蛋白质翻译后修饰位点。例如，Xue等基于肽段相似度打分的算法开发磷酸化修饰位点预测器。Ning等利用深度学习算法开发琥珀酰化修饰位点预测工具。这些预测工具的开发需要大量实验验证的翻译后修饰位点数据。但是，乳酸化修饰作为一种新兴的蛋白质翻译后修饰，目前鉴定的乳酸化修饰位点仍十分有限。因此，亟需开展合

【技术保护点】

【技术特征摘要】
1.一种小样本学习方法预测蛋白质乳酸化修饰位点，其特征在于，(1)同时考虑乳酸化修饰的序列特征和结构特征的影响，采用多特征分组的编码方法对乳酸化修饰位点进行编码；(2)因考虑到目前已鉴定的乳酸化修饰位点数量有限，针对阳性和阴性数据集极度不平衡问题，本发明提出一种基于小样本学习策略开发乳酸化修饰位点预测模型，引入集成学习实现多特征混合系统的构建，得到最终模型，使得本发明所公开的算法可以大规模预测乳酸化修饰位点。2.根据权利要求1所述的一种小样本学习方法预测蛋白质乳酸化修饰位点，其特征在于，所建立的基于多特征分组的编码方案，包括：(1)收集乳酸化修饰位点信息：首先收集蛋白质乳酸化修饰位点信息；将所述乳酸化修饰位点作为阳性位点，将该乳酸化修饰蛋白质上与所述阳性位点相同氨基酸的其它位点作为阴性位点；将蛋白质的一级序列切割成以阳性位点或阴性位点为中心，上游和下游分别为n个氨基酸，总长度为2n+1个氨基酸序列；所有含有乳酸化修饰位点的氨基酸序列构成原始阳性数据集，所有含有所述阴性位点的非乳酸化修饰位点的氨基酸序列构成原始阴性数据集。(2)采用多特征分组的编码方案：采用了两组特征，包括基于氨基酸序列特征(特征集1)以及结构特征(特征集2)。逐个对步骤(1)所述总长度为2n+1个氨基酸的序列进行特征编码，得到数字向量特征。3.根据权利要求2所述的一种小样本学习方法预测蛋白质乳酸化修饰位点，其特征在于，步骤(1...

【专利技术属性】
技术研发人员：郭亚萍，吴宾，黎丝雨，史云舒，蒋沛然，
申请(专利权)人：郑州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人