基于机器学习预测工具的功效多肽筛选方法技术

技术编号:37173327 阅读:24 留言:0更新日期:2023-04-20 22:43
本发明专利技术属于化妆品新材料筛选领域,尤其是涉及一种基于机器学习预测工具的功效多肽筛选方法。选方法。选方法。

【技术实现步骤摘要】
基于机器学习预测工具的功效多肽筛选方法


[0001]本专利技术属于化妆品新材料筛选领域,尤其是涉及一种基于机器学习预测工具的功效多肽筛选方法。

技术介绍

[0002]化妆品新材料开发是一个创造性和探索性的研究工作。化妆品的功效成分一般提取自自然界生物的组织部分,这些组织往往含有数千种不同的多肽成分,其中能发挥出特定化妆品功效的成分含量并不高。识别并筛选出这些潜在的具有多维度属性性质的功效成分对化妆品的研发具有显著的意义,能加速新的化妆品有效成分筛选效率,提高化妆品新原料研发成功率,降低研发成本。
[0003]随着基因组和其他测序项目的不断发展,生物信息学研究的重点正逐步从积累数据转移到如何解释这些数据。机器学习算法使用计算方法直接从数据中“学习”信息,而不依赖于预定方程模型。当可用于学习的样本数量增加时,这些算法可自适应提高性能。因此采用基于机器学习的预测工具进行虚拟筛选,可以有效解决目前实验室筛选的实验周期长、高成本和技术层面限制等问题,减少前期研发的投入和时间成本,提高技术转化和资金使用效率,在短时间内完成功效多肽的筛选和确认。

技术实现思路

[0004]针对上述技术问题,本专利技术采用以下方案:
[0005]基于机器学习预测工具的天然材料中功效多肽的虚拟筛选方法,包括以下步骤:
[0006]1.天然材料的原始多肽成分获取与靶点选择;
[0007]2.利用HSM模型从步骤1中获得的肽中筛选与相关靶点蛋白结合的多肽;
[0008]3.利用MLCPP模型从步骤2中获得的肽中筛选具有细胞穿透功能的多肽;
[0009]4.对完成步骤3中筛选的多肽数据集进行稳定性预测,筛选出稳定性良好的多肽。
[0010]在一些实施方案中,所述步骤1包括:从多肽数据库中获取原始多肽数据集,并进行数据预处理;从在线的公共蛋白质功能数据库中收集与特定人体功能相关的蛋白质。这些蛋白质即为潜在的相关靶点蛋白。
[0011]在一些实施方案中,所述天然材料的原始多肽成分获取也可以通过天然裸藻来源的提取物样本进行高通量质谱分析获得多肽产物。
[0012]在一些实施方案中,所述人体功能相关的蛋白质包括但不限于:皮肤病、黑色素、特异反应性皮炎、皮肤老化相关的蛋白。
[0013]在一些实施方案中,所述步骤2包括:对原始多肽数据集分级统计力学模型(HSM模型)进行一系列多肽

蛋白质结合能力预测,从而得到特定多肽与多个皮肤问题相关蛋白质靶点的定量结合亲和力预测打分,根据潜在的相关靶点蛋白进行靶向筛选高结合能力多肽。P_value<0.05的组合表示有一定的结合能力。然后从这些组合中筛选出与相关靶点蛋白结合的多肽。所述HSM模型为相互作用的PBD和肽的氨基酸序列的函数,具体为:
[0014][0015][0016][0017]其中D代表蛋白质PBD,L代表潜在结合多肽配体。
[0018]在一些实施方案中,所述步骤3包括:对完成步骤2筛选的多肽数据集基于细胞穿透肽预测模型(MLCPP模型)进行细胞穿透能力预测,从而得到已筛选的多肽穿透细胞膜能力的预测概率,预测概率Probability score>0.5的多肽为细胞穿透肽。所述MLCPP模型的构建步骤如下:从多肽的氨基酸序列计算的信息中提取特征,包括氨基酸组成(AAC),氨基酸指数(AAI),二肽组成(DPC)、理化性质(PCP)和组成

过渡

分布(CTD),将生成的特征集输入到随机森林(RF),极端随机树(ERT),支持向量机(SVM)和k

近邻(k

NN)四种机器学习算法的预测器中,开发各自的模型,根据马修斯相关系数(MCC)对所有这些模型进行比较,并选择MCC最高的极端随机树(ERT)构建MLCPP模型。
[0019]在一些实施方案中,所述步骤4包括:对完成步骤3筛选的多肽数据集进行稳定性预测,筛选出稳定性良好的多肽。使用在线工具ProtParam
[0020](https://web.expasy.org/protparam/)计算数据集中每一条多肽的不稳定指数(Instability index)。选择不稳定指数小于40的多肽。
[0021]本专利技术带来了如下了效果:
[0022]1.实现了天然材料中具有特定功效成分的靶向虚拟筛选。
[0023]2.实现了快速、精准的多肽性质计算与预测,与实验室方法相比,具有低成本、周期短且批量化得出准确数据的优势。
[0024]3.虚拟筛选步骤中不同阶段的筛选结果可能揭示了具有特定性质的生物学原理,对新的多肽设计有指导作用。
附图说明
[0025]图1:虚拟筛选流程;
[0026]图2:HSM模型示意图;
[0027]图3:MLCPP模型示意图;
具体实施方式
[0028]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0029]实施例1:基于机器学习预测工具的功效多肽筛选方法
[0030]1.多肽数据的获取与靶点选择
[0031]多肽数据可从诸如Cancer Antigenic Peptide数据库(https://
caped.icp.ucl.ac.be/)、Antimicrobial Peptide数据库(https://aps.unmc.edu/)等相关的公开多肽数据库中批量地、特异性地获取并将其序列信息整理为表格形式(原始多肽数据集),作为待筛选的肽,本实施例中,我们通过对天然裸藻来源的提取物样本进行高通量质谱分析从而获取了1092条天然多肽序列并形成自有数据集,用于后续测试;同时以“皮肤”相关关键词在公共数据库pharos(https://pharos.nih.gov/)和genecards(https://www.genecards.org/)上共获得47个相关靶点蛋白质,具体编号如下:
[0032]表1:靶点蛋白汇总
[0033][0034]2.利用HSM模型筛选与相关靶点蛋白结合的多肽
[0035]对原始多肽数据集基于分级统计力学模型(HSM模型)进行一系列多肽

蛋白质结合能力预测,从而得到特定多肽与多个皮肤问题相关蛋白质靶点的定量结合亲和力预测打分,即:根据潜在的相关靶点蛋白(步骤1获得的47个蛋白)进行靶向筛选高结合能力多肽。HSM模型按不同来源蛋白的结构域

多肽组合预测打分,打分值P_value<0.05的组合表示有一定的结合能力。然后从这些组合中筛选出与相关靶点蛋白结合的多肽。
[0036]HSM模型
[0037]通过结构化哈密尔顿函数的方法,将系统的状态映射到其能量,从而映射到其热力学属性。在HSM中,哈密本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习预测工具的功效多肽筛选方法,其特征在于,包括以下步骤:1).天然材料的原始多肽成分获取与靶点选择;2).利用HSM模型从步骤1中获得的肽中筛选与相关靶点蛋白结合的多肽;3).利用MLCPP模型从步骤2中获得的肽中筛选具有细胞穿透功能的多肽;4).对完成步骤3中筛选的多肽数据集进行稳定性预测,筛选出稳定性良好的多肽。2.权利要求1所述的方法,所述步骤1中的原始多肽成分获取步骤包括:从多肽数据库中获取原始多肽数据集,并进行数据预处理;所述靶点选择步骤包括:从公共蛋白质功能数据库中pharos和genecards获得与皮肤问题相关的蛋白,相关蛋白的编号如下:P19174、Q8WXD9、Q8TF42、P06241、P15924、O15068、Q5TCZ1、O94885、Q9NSI8、Q9Y5X1、Q13402、Q03001、Q9BX66、Q96B97、Q9NYB9、P12931、P06239、Q08881、P02549、Q9UKS6、Q96DR7、Q92968、Q6UXY1、Q9UQB8、Q13526、Q5TCQ9、Q86UL8、Q14155、Q06187、Q00013、P14598、P27986、P42681、P51451、P00519、P20936、A1X283、P16885、P19878、Q14847、O43586、Q7Z698、Q7Z699、Q9BYW2、P11532、Q9NZC7、P46939。3.权利要求1

2任一项所述的方法,所述步骤2中的筛选步骤包括:对步骤1获得的多肽基于HSM模型进行一系列多肽

蛋白质结合能力预测,从而得到特定多肽与多...

【专利技术属性】
技术研发人员:李钧翔李旭辉朱思雨
申请(专利权)人:浙江清华长三角研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1