一种基于非线性拟合方式的肽质谱峰特征参数提取方法技术

技术编号：10973979 阅读：147 留言：0更新日期：2015-01-30 06:14

本发明专利技术涉及一种肽质谱峰特征参数提取方法。现有方法针对在肽段质谱图中形成谱峰的各样点其分布存在较大偏差时，存在难以保证所提取出的质谱峰特征参数精准度的不足。本发明专利技术提出基于非线性拟合方式的肽质谱峰特征参数提取方法，利用多个样点数据，以实际数据与拟合结果之间差值最小为导向，采用迭代方法不断更新特征参数估计值，直至满足收敛条件，从而获得最终特征参数估值。该方法可有效减少样点分布偏差对高斯曲线特征参数求解带来的不利影响，提高特征参数数值精准度，进而有利于肽段鉴定精度的改善。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于生物质谱数据预处理及信息提取
，具体涉及。
技术介绍
基于串联质谱的肽鉴定是目前蛋白质组研究领域中广泛使用的技术。待鉴定的肽在质谱仪中被碎裂为碎片离子，从而生成串联质谱数据，并与理论串联质谱库或已鉴定的肽段质谱库进行比对及分析，最后完成对未知肽段的鉴定。通常情况下对某种离子进行质谱检测，所检测到的质荷比数据不是单一数值点，而是存在若干样点，在质谱图上其拟合为高斯曲线，即高斯峰。为确定该离子的荷质比，需对这些样点进行预处理，计算出其横轴方向上的质心(Centroid)，即该离子的实测质荷比。根据所求质心，可进而推算出该离子最大丰度值等其他特征参数。目前质心求解方法有多种，比较常见的思路是:假定质谱图上构成高斯峰的各个样点均严格分布在某条高斯曲线上，利用各样点的数值(质荷比和丰度值)，代入到参数未知的通用高斯曲线函数表达式中，构造联立方程组，从而解出相应高斯峰的特征参数，包括质心，最大丰度值等。当前应用极为广泛的一款蛋白质组学数据分析软件MAXQUANT采用的即是这一方法。然而在实际检测中，受实验条件、所在环境以及仪器设备噪声等因素的影响，质谱图上各个样点往往并非严格分布在高斯曲线上，而是存在一定偏差。当各个样点偏差数值较大，则上述方法中的假设条件难以成立，因而势必造成求解出的特征参数在数值上存在较大误差，进而影响到肽段鉴定的精度。
技术实现思路
本专利技术的目的在于解决上述方法的缺点和不足，提出。设质谱图中某离子的高斯峰由N个样点组成，通常情况下N彡3。对样点按其丰度值从大到小排序后，其坐标构...

【技术保护点】
一种基于非线性拟合方式的肽质谱峰特征参数提取方法，其特征在于：设质谱图中某离子的高斯峰由N个样点组成，N≥3；对样点按其丰度值从大到小排序后，其坐标构成集合A；A＝{(m1,d1),(m2,d2),…(mN,dN)}其中，mi表示质荷比，di表示丰度值，i∈{1,2,3,…,N}；准备通过样点拟合出的高斯曲线其函数形式设为：f(x,P)=p1×e-(x-p2p3)2]]>其中，函数f(x，P)代表理论丰度值，自变量x代表质荷比，p1、p2和p3为待求解的高斯曲线特征参数，分别表征缩放因子、质心、标准差，构成特征参数向量P＝[p1 p2 p3]；具体步骤如下：步骤(1)根据丰度值最大的3个样点数据，对高斯曲线特征参数赋初值；p1=13×[d1×e(m1-p2p3)2+d2×e(m2-p2p3)2+d3×e(m3-p2p3)2]]]>p2=12×[ln(d2)-ln(d3)]×m12+[ln(d3)-ln(d1)]×m22+[ln(d1)-ln(d2)]×m32[ln(d2)-ln(...

【技术特征摘要】
1.一种基于非线性拟合方式的肽质谱峰特征参数提取方法，其特征在于: 设质谱图中某离子的高斯峰由N个样点组成，N ^ 3 ;对样点按其丰度值从大到小排序后，其坐标构成集合A ; A = {(HI1, (I1)，(m2, d2)，…(mN, dN)} 其中，Hii表示质荷比，Cli表示丰度值，i e {1，2，3，…，N};准备通过样点拟合出的高斯曲线其函数形式设为:Jfzft V f(x, P) = p, xe ' Pi J 其中，函数f(x，P)代表理论丰度值，自变量X代表质荷比，PpP2和P3S待求解的高斯曲线特征参数，分别表征缩放因子、质心、标准差，构成特征参数向量P = [P1 P2 P3I ；具体步骤如下: 步骤(I)根据丰度值最大的3个样点数据，对高斯曲线特征参数赋初值； -f -P1 X? η>2~Ρι[ ^%-Ρι Γρ, = —χ d, xe^ Pi J -\-d0xe^ Pi」+d,xeK ih」.1 323 _ I [ln(i/2)- ln(i/.)] Xinf + [ln(i/.)- ln(i/,)] X m; +[lnii/,) - ln(i/.)] x m: P1 2 [ln(i1.)-ln(i/.)]x//z, + [ln(i/,) -1n(i/,)] x nu + ) - ln(i/,)] x ///, =Ix ?θ?2-Ρ:? -(ln1-PzY.Pl)2 -('nZ- PlY . 3 ~2 ]j ln(i/,)-ln(i/2) ^ In(J2)-ln(i/;) 其中，ln(.)表示取自然对数操作；步骤(2)选择合适数值初始化迭代步长参数λ，该参数初始化数值的大小将影响迭代次数和收敛速度；步骤(3)计算拟合结果误差Err，判定迭代过程是否结束； [...

【专利技术属性】
技术研发人员：易志强，李芸，章剑秋，曾嵘，姚英彪，张福洪，李希元，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人