System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及一种基于n-gram模型增强蛋白质肽段组装的方法。
技术介绍
1、在蛋白质组学研究领域中,由于高通量质谱技术的发展,肽段数据规模也随之增大。如何将这些肽段数据准确、快速地组装成完整的蛋白质序列已经成为了生物信息学中的一项重要研究。利用组装技术确定蛋白质全长序列对于理解蛋白质结构和功能都非常重要。现有的蛋白质序列组装方法通常使用多序列比对以及序列重叠技术,其中最常使用的是基于序列重叠关系的debruijn组装器,它以测序肽段及其对应的强度数据与位置置信度作为输入,构建加权debruijn图来组装蛋白质序列。然而该方法仍然存在局限性,它比较依赖输入数据的质量,对于低丰度的肽段,不可靠的强度评分可能会导致错误的组装路径,并且如果输入数据缺乏重叠肽,在使用贪婪算法寻找最优路径时会出现路径断裂的情况,无法得到有效的组装结果。还有该方法组装的序列长度有限,难以一次性获得完整的蛋白质全长序列。
2、通过对现有技术的研究分析,本专利技术提出了一种基于n-gram模型增强蛋白质肽段组装的方法,利用统计语言模型能够有效延长蛋白质肽段组装的长度,还能进一步提高组装序列的精确度。
技术实现思路
1、本专利技术是为了解决上述现有技术存在的问题而提供一种基于n-gram模型增强蛋白质肽段组装的方法。
2、本专利技术所采用的技术方案有:
3、一种基于n-gram模型增强蛋白质肽段组装的方法,包括以下步骤:
4、s1:获取蛋白质序列数据集,并对数据集进
5、s2:根据预处理后的所述数据集,令数据集中每一个蛋白质序列为一个“句子”,每一个氨基酸为一个“词”,选择n值并使用以n为长度的滑动窗口,将n个连续的氨基酸划分为一组n-gram,将滑动窗口向右移动一个氨基酸,以此迭代生成n-grams表;
6、s3:统计n-grams表中n-gram切片的出现频率,生成对应的频数表,并以此构建n-gram模型;
7、s4:在每一个n-gram切片中,以前面n-1个氨基酸为发生的前提下,第n个氨基酸为目标,通过统计频率计算条件概率,并且为避免零概率问题,对n-gram模型进行kneser-ney平滑处理;
8、s5:以s8中的断裂子串作为n-1个氨基酸,使用n-gram模型预测下一个氨基酸,即目标氨基酸;
9、s6:使用困惑度作为内部评价指标对n-gram模型进行内部评价,调整n值,通过最小化困惑度来优化模型;
10、s7:将原始测序数据进行预处理,所得的蛋白质肽段划分为以k为长度的连续子串,使用子串、重叠关系和置信度权重构建debruijn图;
11、s8:使用贪婪算法寻找debruijn图的最优路径,以其中最大权重的子串作为种子,前后扩展种子形成蛋白质序列,受到重叠肽的缺失和从头测序错误的影响,对断裂的子串使用n-gram模型提供的条件概率,预测断裂肽的下一个氨基酸,以此延长组装的蛋白质序列;
12、s9:以组装序列的覆盖率与准确率对n-gram模型行外部评价。
13、进一步地,s1中,下载uniref50蛋白质序列数据集,对所述数据集进行预处理,包括去除冗余序列、标准化序列格式和去除不常见的氨基酸。
14、进一步地,s2中,对预处理过后的蛋白质序列数据集进行划分,选择n=5的滑动窗口将序列分割为n-gram,窗口从序列的第一个位置开始,逐步向右移动一个单位,直到序列末尾。
15、进一步地,s4中,条件概率计算的方式为:
16、设w1w2w3…wn为一个n-gram切片,其概率表示为:
17、p(wn|w1,w2,...,wn-1)#(1)
18、在5-gram中对于五元组(wn-4,wn-3,wn-2,wn-1,wn)的概率表示为:
19、
20、其中,c(wn-4,wn-3,wn-2,wn-1,wn)是五元组出现的频数,c(wn-4,wn-3,wn-2,wn-1)是前四个氨基酸出现的频数。
21、进一步地,kneser-ney平滑处理公式为:
22、
23、
24、其中,表示在前面n-1个氨基酸的情况下,目标氨基酸wi出现的概率;
25、是片段(wi-n+1,wi-n+2,...,wi)在训练数据库中出现的频数;
26、d是折扣因子,取值为0.75;
27、表示基于前面n-1个氨基酸的条件下,所有可能后续氨基酸w的频数之和,即前面n-1个氨基酸序列在训练数据库中的频数;
28、表示回退权重,用于调整回退到低阶n-gram的概率质量;
29、公式4中是指给定前面n-1个氨基酸的条件下,出现不同目标氨基酸wi的数量;
30、公式3中是低一阶,即n-1的gram的平滑概率,表示在给定前n-2个氨基酸的条件下,目标氨基酸wi的概率;
31、最基本unigram的平滑概率计算为:
32、
33、其中,c(wi)表示氨基酸wi在数据库中出现的次数;n是数据库中所有氨基酸频数之和。
34、进一步地,s5中,使用n-gram模型计算目标氨基酸的概率,选择其中概率最大的作为预测的目标氨基酸。
35、进一步地,s6中,使用困惑度作为内部评价指标对n-gram模型进行内部评价,困惑度越小,序列的概率越大,n-gram模型越好,公式为:
36、
37、进一步地,s7中,对原始测序肽段数据进行数据清理,之后从测序肽段中提取k-mer,所述k-mer是对每一个测序肽段分割为以k为长度的连续子串,并将每一个k-mer分解为其前缀和后缀,其中每一个k-mer分解的前缀为k-mer的前k-1个氨基酸,后缀为k-mer的后k-1个氨基酸,即(k-1)-mer。
38、进一步地,构建debruijn图的节点,以所有生成的(k-1)-mer为图的节点,对于每一个(k-1)-mer,只生成唯一的节点,根据每个k-mer的前缀与后缀构建有向边,连接前缀对应的节点和后缀对应的节点,每一条有向边代表一个k-mer序列,即有向边连接两个(k-1)-mer节点,其中一个为k-mer的前缀,另一个为后缀。
39、进一步地,s9中,覆盖率与准确率对n-gram模型行外部评价,具体为:
40、所述覆盖率为组装出的蛋白质序列与参考蛋白质序列相比,被正确覆盖的序列的比例,公式为:
41、
42、准确率为组装最长contig中正确的氨基酸的百分比,公式为:
43、
44、本专利技术具有如下有益效果:
45、本专利技术将debruijn图结构技术与n-gram统计语言模型结合在一起,利用n-gram模型从标准数据库寻找氨基酸序列规律来预测目标氨基酸,在测序肽段中重叠肽缺失和测序错误时本文档来自技高网...
【技术保护点】
1.一种基于N-gram模型增强蛋白质肽段组装的方法,其特征在于:包括以下步骤:
2.如权利要求1所述的基于N-gram模型增强蛋白质肽段组装的方法,其特征在于:S1中,下载UniRef50蛋白质序列数据集,对所述数据集进行预处理,包括去除冗余序列、标准化序列格式和去除不常见的氨基酸。
3.如权利要求1所述的基于N-gram模型增强蛋白质肽段组装的方法,其特征在于:S2中,对预处理过后的蛋白质序列数据集进行划分,选择N=5的滑动窗口将序列分割为N-gram,窗口从序列的第一个位置开始,逐步向右移动一个单位,直到序列末尾。
4.如权利要求3所述的基于N-gram模型增强蛋白质肽段组装的方法,其特征在于:S4中,条件概率计算的方式为:
5.如权利要求4所述的基于N-gram模型增强蛋白质肽段组装的方法,其特征在于:Kneser-Ney平滑处理公式为:
6.如权利要求1所述的基于N-gram模型增强蛋白质肽段组装的方法,其特征在于:S5中,使用N-gram模型计算目标氨基酸的概率,选择其中概率最大的作为预测的目标氨基酸。
>7.如权利要求1所述的基于N-gram模型增强蛋白质肽段组装的方法,其特征在于:S6中,使用困惑度作为内部评价指标对N-gram模型进行内部评价,困惑度越小,序列的概率越大,N-gram模型越好,公式为:
8.如权利要求1所述的基于N-gram模型增强蛋白质肽段组装的方法,其特征在于:S7中,对原始测序肽段数据进行数据清理,之后从测序肽段中提取k-mer,所述k-mer是对每一个测序肽段分割为以k为长度的连续子串,并将每一个k-mer分解为其前缀和后缀,其中每一个k-mer分解的前缀为k-mer的前k-1个氨基酸,后缀为k-mer的后k-1个氨基酸,即(k-1)-mer。
9.如权利要求8所述的基于N-gram模型增强蛋白质肽段组装的方法,其特征在于:构建deBruijn图的节点,以所有生成的(k-1)-mer为图的节点,对于每一个(k-1)-mer,只生成唯一的节点,根据每个k-mer的前缀与后缀构建有向边,连接前缀对应的节点和后缀对应的节点,每一条有向边代表一个k-mer序列,即有向边连接两个(k-1)-mer节点,其中一个为k-mer的前缀,另一个为后缀。
10.如权利要求1所述的基于N-gram模型增强蛋白质肽段组装的方法,其特征在于:S9中,覆盖率与准确率对N-gram模型行外部评价,具体为:
...【技术特征摘要】
1.一种基于n-gram模型增强蛋白质肽段组装的方法,其特征在于:包括以下步骤:
2.如权利要求1所述的基于n-gram模型增强蛋白质肽段组装的方法,其特征在于:s1中,下载uniref50蛋白质序列数据集,对所述数据集进行预处理,包括去除冗余序列、标准化序列格式和去除不常见的氨基酸。
3.如权利要求1所述的基于n-gram模型增强蛋白质肽段组装的方法,其特征在于:s2中,对预处理过后的蛋白质序列数据集进行划分,选择n=5的滑动窗口将序列分割为n-gram,窗口从序列的第一个位置开始,逐步向右移动一个单位,直到序列末尾。
4.如权利要求3所述的基于n-gram模型增强蛋白质肽段组装的方法,其特征在于:s4中,条件概率计算的方式为:
5.如权利要求4所述的基于n-gram模型增强蛋白质肽段组装的方法,其特征在于:kneser-ney平滑处理公式为:
6.如权利要求1所述的基于n-gram模型增强蛋白质肽段组装的方法,其特征在于:s5中,使用n-gram模型计算目标氨基酸的概率,选择其中概率最大的作为预测的目标氨基酸。
7.如权利要求1所述的基于n-gram模型增强蛋白质肽段组装的方法,其特征在于...
【专利技术属性】
技术研发人员:常珊,邵赟,庞明威,倪申环,杨程珲,
申请(专利权)人:江苏理工学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。