基于多标记学习的抗菌肽活性预测方法通过提取肽序列对应的氨基酸成分,然后根据物理化学属性编码获取对应的矩特征,共同构成肽序列的特征向量。每条肽序列的特征向量是由两部分构成,一是氨基酸成分,二是基于物理化学属性编码提取的矩特征。采用最小二乘的多标记学习算法计算最小化变换矩阵W,则能够通过变换矩阵W得出待测样本的各标记输出,根据各标记输出获取预测类标签向量集合。根据类标签向量集合快速准确预测抗菌肽序列的活性。因此,能够获取肽序列各个角度的形状特定,从而能够快速、准确、自动标注抗菌肽活性。
【技术实现步骤摘要】
基于多标记学习的抗菌肽活性预测方法
本专利技术涉及生物医学工程,特别是涉及一种能够快速、准确、自动标注抗菌肽活性的基于多标记学习的抗菌肽活性预测方法。
技术介绍
抗菌肽是一种参与固有免疫的小分子多肽,一般由20~60个氨基酸残基组成,这类活性多肽对细菌具有广谱高效杀菌活性。随着人们研究的深入,发现这些抗细菌肽对部分真菌、原虫、病毒及癌细胞等均具有强有力的杀伤作用。抗菌肽的广泛的生物学活性显示了其在医学上良好的应用前景。通过实验手段测定抗菌肽的活性,无论是基于体内或体外的技术,不仅非常费时,费用也较昂贵。目前,研究者们已经提出了十多种抗菌肽预测器,然而这些工具基本都是用于判断肽分子是否具有抗菌性,或者说是否属于抗菌肽家族,没有进一步对抗菌肽的具体活性做出预测。大多数都是设计二分类模型用来判断肽分子是否属于抗菌肽;或提出的方法能够实现对抗菌肽的活性预测,但是只限于5种活性,预测精度也有待进一步提高。现有的方法大多数都是二分类模型,只能用于抗菌肽识别。
技术实现思路
基于此,有必要针对提供一种能够快速、准确、自动标注抗菌肽活性的基于多标记学习的抗菌肽活性预测方法。一种基于多标记学习的抗菌肽活性预测方法,包括以下步骤:提取肽序列对应的氨基酸成分,并根据所述氨基酸成分获取对应的矩特征向量x,其中,所述矩特征向量x用于描述肽序列各个角度的形状特点;采用多标记学习算法并根据公式W=(XTX)-1XTY计算最小化变换矩阵W,其中,设x的类标签向量为y=[y1,y2,...,yc]T;最小化变换矩阵W的公式为min||XW-Y||;c为种类标签数,X表示训练样本矩阵,Y表示训练样本对应的类标记矩阵,每个行向量对应一个样本;则对于待测样本x,其对各标记的输出为f(x,y)=xW;根据各标记输出f(x,y)=xW获取预测类标签向量集合h(x)={y|f(x,y)≥0,y∈{1,2,...,c}}。在其中一个实施例中,所述提取肽序列对应的氨基酸成分和矩特征向量x的步骤包括:根据氨基酸的物理化学属性指标对氨基酸序列作数字编码;将氨基酸序列的每个氨基酸残基一一对应转换成数值序列;根据所述数值序列对肽序列的整体、N端和C端计算矩特征向量x,其中,N端指肽序列的前5个氨基酸,C端指肽序列的后5个氨基酸。在其中一个实施例中,所述矩特征向量x包括1阶原点矩、2阶中心矩、3阶中心矩和4阶中心矩。在其中一个实施例中,所述类标签向量为y=[y1,y2,...,yc]T中yi=1表示样本x具有类标签i;yi=-1表示样本x不具有类标签i。在其中一个实施例中,判断XTX是否可逆,若否,则用XTX的广义逆替代。在其中一个实施例中,还包括采用遗传算法对所述矩特征向量x进行优化。在其中一个实施例中,所述采用遗传算法对所述矩特征向量x进行优化的步骤包括:选取种群规模;对染色体编码;选取适应度函数fitness=海明损失+排序损失+1/10000*特征数目;采用精英选择,其中,所述精英选择为上一代种群中最好的2个个体直接带入下一代;选取杂交比例0.8;当适应度函数值基本不变时,终止进化,选取此时对应的矩特征向量集合。在其中一个实施例中,所述种群进化到150代数,所述适应度函数数值基本不变。在其中一个实施例中,,采用海明损失、子集准确率、排序损失、覆盖范围、一位错误及平均查准率对所述基于多标记学习的抗菌肽活性预测方法进行评测。在其中一个实施例中,采用十折交叉验证评测所述基于多标记学习的抗菌肽活性预测方法,并将计算结果取20次交叉验证的均值。上述基于多标记学习的抗菌肽活性预测方法通过提取肽序列对应的氨基酸成分,然后根据物理化学属性编码获取对应的矩特征,共同构成肽序列的特征向量。每条肽序列的特征向量是由两部分构成,一是氨基酸成分,二是基于物理化学属性编码提取的矩特征。采用最小二乘的多标记学习算法计算最小化变换矩阵W,则能够通过变换矩阵W得出待测样本的各标记输出,根据各标记输出获取预测类标签向量集合。根据类标签向量集合快速准确预测抗菌肽序列的活性。因此,能够获取肽序列各个角度的形状特定,从而能够快速、准确、自动标注抗菌肽活性。附图说明图1为基于多标记学习的抗菌肽活性预测方法的流程图;图2为20种氨基酸的物理化学属性值列表;图3为遗传特征选择进化图。具体实施方式如图1所示,为基于多标记学习的抗菌肽活性预测方法的流程图。一种基于多标记学习的抗菌肽活性预测方法,包括以下步骤:步骤S110,提取肽序列对应的氨基酸成分,并根据所述氨基酸成分获取对应的矩特征向量x,其中,所述矩特征向量x用于描述肽序列各个角度的形状特点。步骤S110包括:根据氨基酸的物理化学属性指标对氨基酸序列作数字编码。将氨基酸序列的每个氨基酸残基一一对应转换成数值序列。根据所述数值序列对肽序列的整体、N端和C端计算矩特征向量x,其中,N端指肽序列的前5个氨基酸,C端指肽序列的后5个氨基酸。所述矩特征向量x包括1阶原点矩、2阶中心矩、3阶中心矩和4阶中心矩。具体的,肽序列是由20种氨基酸所组成,一个从N端到C端、长度为L的序列表示如下:P=R1R2R3R4…RL对该序列可提取氨基酸成分(AminoAcidComposition,AAC,即20种氨基酸的出现频率)和矩特征向量。在提取矩特征向量时,首先根据氨基酸的物理化学属性指标对序列作数字编码。假设Hi(i=1,2,…,20)为20种氨基酸的某种物理化学属性值,据此将蛋白质序列的每个氨基酸残基一一对应地转化成数值,表示为[H(R1),H(R2),…,H(RL)]。对该数值序列可分别对整体、N端(前5个氨基酸)和C端(后5个氨基酸)计算矩特征值,包括1阶原点矩(期望),2阶中心矩(方差),3阶中心矩(偏态)和4阶中心矩(峰态),这些矩特征能从不同角度反映序列的形状特点。本实施例中,将采用5种氨基酸物理化学属性用于氨基酸编码,这5种属性分别为:亲水性(hydropathyindex)、分子量(Molecularweight)、PI,pK1(alpha-COOH)、pK2(NH3)。具体值列图2中。经过以上步骤,每条氨基酸序列都可以被表达为80维特征空间里的一个点,或者说向量:x=[x1,x2,…,x80]T80维特征空间可以改变,如40维、120维等。步骤S120,采用多标记学习算法并根据公式W=(XTX)-1XTY计算最小化变换矩阵W,其中,设x的类标签向量为y=[y1,y2,…,yc]T;最小化变换矩阵W的公式为min||XW-Y||;c为种类标签数,X表示训练样本矩阵,Y表示训练样本对应的类标记矩阵,每个行向量对应一个样本;则对于待测样本x,其对各标记的输出为f(x,y)=xW。所述类标签向量为y=[y1,y2,...,yc]T中yi=1表示样本x具有类标签i;yi=-1表示样本x不具有类标签i。判断XTX是否可逆,若否,则用XTX的广义逆替代。具体的,设共有c(此处c=10)种类标签,样本x的类标签向量为y=[y1,y2,...,yc]T,其中yi=1表示样本具有类标签i,yi=-1则表示样本不具有类标签i。则需要找到一个变换矩阵W,使得在训练样本集上的经验风险达到最小化,即min||XW-Y||;其中X表示训练样本矩阵,Y表示训练样本对应的类标记本文档来自技高网...

【技术保护点】
一种基于多标记学习的抗菌肽活性预测方法,包括以下步骤:提取肽序列对应的氨基酸成分,并根据所述氨基酸成分获取对应的矩特征向量x,其中,所述矩特征向量x用于描述肽序列各个角度的形状特点;采用多标记学习算法并根据公式W=(XTX)‑1XTY计算最小化变换矩阵W,其中,设x的类标签向量为y=[y1,y2,…,yc]T;最小化变换矩阵W的公式为min||XW‑Y||;c为种类标签数,X表示训练样本矩阵,Y表示训练样本对应的类标记矩阵,每个行向量对应一个样本;则对于待测样本x’,其对各标记的输出为f(x,y)=xW;根据各标记输出f(x,y)=xW获取预测类标签向量集合h(x)={y|f(x,y)≥0,y∈{1,2,...,c}}。
【技术特征摘要】
1.一种基于多标记学习的抗菌肽活性预测方法,包括以下步骤:提取肽序列对应的氨基酸成分,并根据所述氨基酸成分获取对应的矩特征向量x,其中,所述矩特征向量x用于描述肽序列各个角度的形状特点;根据氨基酸的物理化学属性指标对氨基酸序列作数字编码;将氨基酸序列的每个氨基酸残基一一对应转换成数值序列;根据所述数值序列对肽序列的整体、N端和C端计算矩特征向量x,其中,N端指肽序列的前5个氨基酸,C端指肽序列的后5个氨基酸采用多标记学习算法并根据公式W=(XTX)-1XTY计算最小化变换矩阵W,其中,设x的类标签向量为y=[y1,y2,...,yc]T;最小化变换矩阵W的公式为min||XW-Y||;y1,y2,…,yc为标签向量的元素值,c为种类标签数,X表示训练样本矩阵,Y表示训练样本对应的类标记矩阵,每个行向量对应一个样本;则对于待测样本x,其对各标记的输出为f(x,y)=xW;根据各标记输出f(x,y)=xW获取预测类标签向量集合h(x)={y|f(x,y)≥0,y∈{1,2,...,c}}。2.根据权利要求1所述的基于多标记学习的抗菌肽活性预测方法,其特征在于,所述矩特征向量x包括1阶原点矩、2阶中心矩、3阶中心矩和4阶中心矩。3.根据权利要求1所述的基于多标记学习的抗菌肽活性预测方法,其特征在于,所述类标签向量为y=[y1,y2,...,yc]T中yi=1表示样本...
【专利技术属性】
技术研发人员:周丰丰,王普,肖绚,葛瑞泉,刘记奎,
申请(专利权)人:深圳先进技术研究院,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。