【技术实现步骤摘要】
一种基于A星算法的蛋白质序列标签测序方法
[0001]本专利技术涉及生物信息
,特别是涉及一种基于A星算法的蛋白质序列标签测序方法。
技术介绍
[0002]基于串联质谱技术的蛋白质组学已经成为生命科学领域的重要技术。在蛋白质组的生物信息学研究中,质谱数据处理是十分重要的研究内容,其任务是从带有复杂噪声或者部分信息确实的数据中推断样品的蛋白质组成。利用质谱数据进行蛋白质鉴定的过程中常用的两种分析方法是数据库搜索和从头测序。然而数据库搜索方法主要通过匹配实际质谱和数据库中蛋白质序列的理论裂解谱图给出候选肽段,对蛋白质序列数据库有依懒性。从头测序不受蛋白质序列数据库中所包含的错误信息的影响,能够在蛋白质序列数据库信息不完全的情况下对串联质谱数据进行分析,但是对串联质谱的数据质量要求非常高。当肽段碎裂不完全或背景噪音覆盖正确的离子峰时,往往鉴定出来的准确率较低。基于肽序列标签的数据库搜索鉴定方法,是结合从头测序方法和数据库搜索算法的优点,通过从头测序方法预测理论谱图,再利用数据库搜索算法搜索到匹配程度较大的肽段。但是目前的肽序列标签的生成往往是固定了肽段长度和数量,导致肽段的选择尤为重要,同时需要添加一个选择肽段的打分,使得往往复杂了整个过程。
技术实现思路
[0003]本专利技术提供一种基于A星算法的蛋白质序列标签测序方法,用以解决上述的问题。
[0004]本专利技术提供一种基于A星算法的蛋白质序列标签测序方法,包括:
[0005]获取待测蛋白质的原始质谱数据,对所述原始质谱数据进行预 ...
【技术保护点】
【技术特征摘要】
1.一种基于A星算法的蛋白质序列标签测序方法,其特征在于:包括:获取待测蛋白质的原始质谱数据,对所述原始质谱数据进行预处理;基于预处理后的原始质谱数据,构建谱峰连接图;基于所述谱峰连接图,生成候选序列标签;基于所述候选序列标签,找出符合母离子质量的候选肽段;从数据库中搜索序列标签并进行匹配打分排序。2.根据权利要求1所述的基于A星算法的蛋白质序列标签测序方法,其特征在于:所述预处理包括:基于原始质谱数据生成二级质谱图,对二级质谱图进行去除同位素、去除噪声、峰强度归一化、去除固定离子和内部离子。3.根据权利要求2所述的基于A星算法的蛋白质序列标签测序方法,其特征在于:构建谱峰连接图包括:基于预处理后的二级质谱图,确定光谱图中的顶点;合并所述顶点;如果任意两个顶点的质荷比等于误差范围内一个或多个氨基酸残基质量的总和时,则两个顶点之间连接一条边,根据谱峰及其质量之间的关系,得到了一张谱峰连接图;基于所述谱峰连接图计算路径评分。4.根据权利要求3所述的基于A星算法的蛋白质序列标签测序方法,其特征在于:基于所述谱峰连接图计算路径评分包括:a)获取谱峰连接图Gp(v
i
,e
ij
),创建Open表与Close表并初始化为空,创建存放顶点的邻近节点表E并初始化为空;b)将起点v1加入Open表中;c)如果Open表不为空,则从Open表中选取分数A最大的顶点为当前顶点v
i
;如果Open表为空,则进入步骤d;d)判断顶点v
i
是否为终点v
n
,如果顶点v
i
不是终点,则将顶点v
i
从Open表中删除并加入Close集中,再进行步骤e;如果顶点v
i
是终点,将终点v
n
加入Close表中,并从终点逐步取出Close表中的顶点直到起点v1,输出取出顶点的顺序路径和此时终点的路径最佳分数A;e)判断与当前节点v
i
相关的顶点v
j
的边是否存在,当边e
ij
存在时,即e
ij
=1,则将此节点作为邻近节点存入表E
i
中,表E
i
表示当前顶点v
i
所有的邻近节点;当边e
ij
不存在时,即e
ij
=0,则跳过该相关顶点v
j
;f)重复步骤e直至遍历完所有顶点,此时获得与当前顶点vi有边的邻近节点表E
i
;g)判断E
i
中的各顶点是否在Close表中和Open表中,只有当E
i
中的邻近顶点v
k
不在Close表和Open表中时,才将邻近顶点的父节点设置为当前节点v
i
,并加入Open表中,计算分数A记作A_k;当邻近顶点在表Close和表Op...
【专利技术属性】
技术研发人员:李闯,刘纯洋,何典,祝团飞,南苏琴,
申请(专利权)人:湖南工商大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。