一种基于非线性拟合方式的肽质谱峰特征参数提取方法技术

技术编号:10973979 阅读:138 留言:0更新日期:2015-01-30 06:14
本发明专利技术涉及一种肽质谱峰特征参数提取方法。现有方法针对在肽段质谱图中形成谱峰的各样点其分布存在较大偏差时,存在难以保证所提取出的质谱峰特征参数精准度的不足。本发明专利技术提出基于非线性拟合方式的肽质谱峰特征参数提取方法,利用多个样点数据,以实际数据与拟合结果之间差值最小为导向,采用迭代方法不断更新特征参数估计值,直至满足收敛条件,从而获得最终特征参数估值。该方法可有效减少样点分布偏差对高斯曲线特征参数求解带来的不利影响,提高特征参数数值精准度,进而有利于肽段鉴定精度的改善。

【技术实现步骤摘要】

本专利技术属于生物质谱数据预处理及信息提取
,具体涉及。
技术介绍
基于串联质谱的肽鉴定是目前蛋白质组研究领域中广泛使用的技术。待鉴定的肽在质谱仪中被碎裂为碎片离子,从而生成串联质谱数据,并与理论串联质谱库或已鉴定的肽段质谱库进行比对及分析,最后完成对未知肽段的鉴定。 通常情况下对某种离子进行质谱检测,所检测到的质荷比数据不是单一数值点,而是存在若干样点,在质谱图上其拟合为高斯曲线,即高斯峰。为确定该离子的荷质比,需对这些样点进行预处理,计算出其横轴方向上的质心(Centroid),即该离子的实测质荷比。根据所求质心,可进而推算出该离子最大丰度值等其他特征参数。目前质心求解方法有多种,比较常见的思路是:假定质谱图上构成高斯峰的各个样点均严格分布在某条高斯曲线上,利用各样点的数值(质荷比和丰度值),代入到参数未知的通用高斯曲线函数表达式中,构造联立方程组,从而解出相应高斯峰的特征参数,包括质心,最大丰度值等。当前应用极为广泛的一款蛋白质组学数据分析软件MAXQUANT采用的即是这一方法。然而在实际检测中,受实验条件、所在环境以及仪器设备噪声等因素的影响,质谱图上各个样点往往并非严格分布在高斯曲线上,而是存在一定偏差。当各个样点偏差数值较大,则上述方法中的假设条件难以成立,因而势必造成求解出的特征参数在数值上存在较大误差,进而影响到肽段鉴定的精度。
技术实现思路
本专利技术的目的在于解决上述方法的缺点和不足,提出。 设质谱图中某离子的高斯峰由N个样点组成,通常情况下N彡3。对样点按其丰度值从大到小排序后,其坐标构成集合A。 A = {(Hi1, (I1),(m2, d2),…(mN, dN)} 其中,Hii表示质荷比,(Ii表示丰度,其值大于O, i e {1,2,3,...,N}。需要通过样点拟合出的高斯曲线其函数形式设为: ^ -(T) /(.V, P) = p{ Xe 其中,函数f(x,p)代表丰度值,自变量X代表质荷比,Pl、PjP P3S待求解的高斯曲线特征参数,分别表征缩放因子、质心、标准差,构成特征参数向量P = [P1 P2 P3I °所述的特征参数提取方法处理步骤如下: 步骤(I)根据丰度值最大的3个样点数据,对高斯曲线特征参数赋初值。(呷-]).|~(所:-匕 |~(衍3 ~^2 |~ ^^ ^ 十32 X 4 ^」+ ^3 ^6 ^ 1 卜⑷)—)] X !11\ + [111(4 )—卜1“,! )] 乂 1111 + [1^(^, ) — 1*1(4 )] X 〔 〕 巧 2 卜⑷)—!!!“/;)^、+(10(4)-(门⑷)…。+^1^(^/,)-^]^/^; 卜=1?|』卜—巧)2+1(^ — ^ )2-(^ — ^ )2 其中,IV 0表示取自然对数操作。 步骤(2)选择合适数值初始化迭代步长参数入,该参数初始化数值的大小将影响本处理方法的迭代次数和收敛速度。 步骤(3)计算拟合结果误差此!,判定迭代过程是否结束。 £^ = ^/(^,., ^)-^,-]2卜1 设定判决门限、,如果此!彡8工,则处理过程结束,当前向量?中的特征参数值即为求解的最终结果。反之,如果此1~? 8工,则进入步骤(幻。 门限8 ,的取值决定了所提取的特征参数值的精准度,同时影响处理过程的迭代次数。8工取值越小,特征参数值的精准度就越高,处理所需迭代次数越多。需要注意的是,如果8工取值过小,则该迭代过程可能将无法最终收敛。反之,8工取值越大,所提取的参数精准度将相应降低,而迭代次数将会减少。 步骤⑷根据当前特征参数向量?,构造矩阵了。 0” 卩)(:/.(坩丨,??0丨,??8(), €/), 0/ (1112 , 11)0/ (1112 , 1= 01^0^25/? ¢7/.(川、,卩)句'11.1、, 0) £/ (111.,,卩)— 5/^,5厂2(? 一 步骤(5)计算每次迭代过程中,特征参数向量?的更新向量!I =[八巧八%八巧]7,八巧,八巧和八分别为特征参数巧,和的待定更新值。构造误差矢量2。 2 = (叫,户),(叫,?;?,…0%,户)11 则: 11= [了?了+入父乜叫(了?了)]—1※】1※^ 其中,(11^( ? )表示矩阵对角元素提取和创建对角阵操作。 步骤(6)计算更新向量!!的度量值9⑶。 「 ^ [[/(坩” ?卜式]2-[[,(岬’ ^ + 0)-^-]2〔0028〕 /7(?) =^~-~,- 步骤(7)更新特征参数向量P和迭代步长参数λ。设定判决门限ε2,如果更新向量H的度量值P⑶> ε2,则当前特征参数向量P数值由Ρ+Η替代,即P —Ρ+Η,完成更新,同时当前迭代步长参数λ数值减小至λ/K,S卩λ — λ/Κ。反之,如果P (H) ( ε2,则当前特征参数向量P保持不变,同时迭代步长参数λ数值增加K倍,即λ — ΚΧλ。K为比例因子,一般取值范围为5?20。判决门限ε2应根据样点偏差程度、收敛速度要求等具体指标设置合适数值。 在完成特征参数向量P和迭代步长参数λ更新后,返回至步骤(3),进入行下一轮迭代。 本专利技术中肽质谱峰特征参数提取方法,采用多样点非线性拟合方式求解特征参数,减少了样点分布偏差带来的不利影响,提升了参数提取精准度,进而有利于肽段鉴定精度的改善。 【具体实施方式】 步骤(I)根据丰度值最大的3个样点数据,对高斯曲线特征参数赋初值。 II rn「p2 j~I m1-Pi Γ? ?H-Pi P1 = Jx xe ρ> J +d2xe- Pl ^ +d^xe Pi」 I [?η(?/9) - ln(c/,)] X mf + [Ιη(?/,) - \χ\{?{)] χ ηι?, + [lr^i/,) - Ιη(?/,,)] χ m\ [ ]2 [?η(?/7)- Ιη(?/,)] χ + [ln(t/,) - ln(f/,)] χ nu + [?η(?/,) -\n(cL)] χ m, I Ι( nu — ) - (ηι — ) I(/η, - ρΛ - ? nu - Γ P3 =-x Jv 二 ' J~J +J J~h 3 2 ]j ln(i/,)-ln(r/:) ]j In(V2)-1n(Ji) 其中,ln(.)表示取自然对数操作。 步骤(2)选择合适数值初始化迭代步长参数λ,该参数初始化数值的大小将影响本处理方法的迭代次数和收敛速度。 步骤(3)计算拟合结果误差Err,判定迭代过程是否结束。N? Err = Yj [/ (m,, P) - cl ]/-1 设定判决门限S1,如果Err彡ε i,则处理过程结束,当前向量P中的特征参数值即为求解的最终结果。反之,如果Err > S1,则进入步骤(4)。 门限ε ,的取值决定了所提取的特征参数值的精准度,同时影响处理过程的迭代次数。^取值越小,特征参数值的精准度就越高,处理所需迭代次数越多。需要注意的是,如果^取值过小,则该迭代过程可能将无法最终收敛。反之,^取值越大,所提取的参数精准度将相应降低,而迭代次数将会减少。 步骤(4)根据本文档来自技高网...

【技术保护点】
一种基于非线性拟合方式的肽质谱峰特征参数提取方法,其特征在于:设质谱图中某离子的高斯峰由N个样点组成,N≥3;对样点按其丰度值从大到小排序后,其坐标构成集合A;A={(m1,d1),(m2,d2),…(mN,dN)}其中,mi表示质荷比,di表示丰度值,i∈{1,2,3,…,N};准备通过样点拟合出的高斯曲线其函数形式设为:f(x,P)=p1×e-(x-p2p3)2]]>其中,函数f(x,P)代表理论丰度值,自变量x代表质荷比,p1、p2和p3为待求解的高斯曲线特征参数,分别表征缩放因子、质心、标准差,构成特征参数向量P=[p1 p2 p3];具体步骤如下:步骤(1)根据丰度值最大的3个样点数据,对高斯曲线特征参数赋初值;p1=13×[d1×e(m1-p2p3)2+d2×e(m2-p2p3)2+d3×e(m3-p2p3)2]]]>p2=12×[ln(d2)-ln(d3)]×m12+[ln(d3)-ln(d1)]×m22+[ln(d1)-ln(d2)]×m32[ln(d2)-ln(d3)]×m1+[ln(d3)-ln(d1)]×m2+[ln(d1)-ln(d2)]×m3]]>p3=12×[(m2-p2)2-(m1-p2)2ln(d1)-ln(d2)+(m3-p2)2-(m2-p2)2ln(d2)-ln(d3)]]]>其中,ln(·)表示取自然对数操作;步骤(2)选择合适数值初始化迭代步长参数λ,该参数初始化数值的大小将影响迭代次数和收敛速度;步骤(3)计算拟合结果误差Err,判定迭代过程是否结束;Err=Σi=1N[f(mi,P)-di]2]]>设定判决门限ε1,如果Err≤ε1,则处理过程结束,当前向量P中的特征参数值即为求解的最终结果;反之,如果Err>ε1,则进入步骤(4);步骤(4)根据当前特征参数向量P,构造矩阵J;J=∂f(m1,P)∂p1∂f(m1,P)∂p2∂f(m1,P)∂p3∂f(m2,P)∂p1∂f(m2,P)∂p2∂f(m2,P)∂p3.........∂f(mN,P)∂p1∂f(mN,P)∂p2∂f(mN,P)∂p3]]>步骤(5)计算每次迭代过程中,特征参数向量P的更新向量H=[Δp1 Δp2 Δp3]T,Δp1,Δp2和Δp3分别为特征参数p1,p2和p3的待定更新值;构造误差矢量E;E=[d1‑f(m1,P),d2‑f(m2,P),…dN‑f(mN,P)]T则:H=[JT×J+λ×diag(JT×J)]‑1×JT×E其中,diag(·)表示矩阵对角元素提取和创建对角阵操作;步骤(6)计算更新向量H的度量值ρ(H);ρ(H)=Σi=1N[f(mi,P)-di]2-Σi=1N[f(mi,P+H)-di]22HT×(λ×H+JT×E)]]>步骤(7)更新特征参数向量P和迭代步长参数λ;设定判决门限ε2,如果更新向量H的度量值ρ(H)>ε2,则当前特征参数向量P数值由P+H替代,即P←P+H,完成更新,同时当前迭代步长参数λ数值减小至λ/K,即λ←λ/K;反之,如果ρ(H)≤ε2,则当前特征参数向量P保持不变,同时迭代步长参数λ数值增加K倍,即λ←K×λ;K为比例因子,取值范围为5~20;在完成特征参数向量P和迭代步长参数λ更新后,返回至步骤(3),进行下一轮迭代。...

【技术特征摘要】
1.一种基于非线性拟合方式的肽质谱峰特征参数提取方法,其特征在于: 设质谱图中某离子的高斯峰由N个样点组成,N ^ 3 ;对样点按其丰度值从大到小排序后,其坐标构成集合A ; A = {(HI1, (I1),(m2, d2),…(mN, dN)} 其中,Hii表示质荷比,Cli表示丰度值,i e {1,2,3,…,N};准备通过样点拟合出的高斯曲线其函数形式设为:Jfzft V f(x, P) = p, xe ' Pi J 其中,函数f(x,P)代表理论丰度值,自变量X代表质荷比,PpP2和P3S待求解的高斯曲线特征参数,分别表征缩放因子、质心、标准差,构成特征参数向量P = [P1 P2 P3I ;具体步骤如下: 步骤(I)根据丰度值最大的3个样点数据,对高斯曲线特征参数赋初值; -f -P1 X? η>2~Ρι[ ^%-Ρι Γρ, = —χ d, xe^ Pi J -\-d0xe^ Pi」+d,xeK ih」.1 323 _ I [ln(i/2)- ln(i/.)] Xinf + [ln(i/.)- ln(i/,)] X m; +[lnii/,) - ln(i/.)] x m: P1 2 [ln(i1.)-ln(i/.)]x//z, + [ln(i/,) -1n(i/,)] x nu + ) - ln(i/,)] x ///, =Ix ?θ?2-Ρ:? -(ln1-PzY.Pl)2 -('nZ- PlY . 3 ~2 ]j ln(i/,)-ln(i/2) ^ In(J2)-ln(i/;) 其中,ln(.)表示取自然对数操作; 步骤(2)选择合适数值初始化迭代步长参数λ,该参数初始化数值的大小将影响迭代次数和收敛速度; 步骤(3)计算拟合结果误差Err,判定迭代过程是否结束; [...

【专利技术属性】
技术研发人员:易志强李芸章剑秋曾嵘姚英彪张福洪李希元
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1