一种基于序列比对骨架的基因组变异检测方法技术

技术编号:36349467 阅读:38 留言:0更新日期:2023-01-14 18:04
一种基于序列比对骨架的基因组变异检测方法,涉及基因检测技术领域,针对现有技术中变异检测效率低的问题,本申请提出的基于比对骨架和共识序列重构的变异检测方法,通过稀疏动态规划构建测序片段比对骨架,采用Landau

【技术实现步骤摘要】
一种基于序列比对骨架的基因组变异检测方法


[0001]本专利技术涉及基因检测
,具体为一种基于序列比对骨架的基因组变异检测方法。

技术介绍

[0002]变异检测是许多基因组学研究的基础,它能够检测被测个体和参考基因组之间的核苷酸差异,从而发现基因组变异与重要表型和疾病之间的关联。在生物信息学工具的帮助下,快速发展的高通量测序技术能够以高分辨率检测各种类型的基因组变异,如单核苷酸变异(SNVs)、短插入/删除(indels)和结构变异(SVs)。特别是,最先进的单分子实时测序(SMRT测序)技术能够产生长且高质量的测序数据,优异的长度和碱基质量能够实现个体基因组的高灵敏度和高准确性变异检测。然而,变异检测的计算成本仍然很高,例如,最先进的方法从原始测序数据到变异检测结果通常需要数百个CPU小时,这对大规模的基因组研究带来了巨大的挑战。因此,面对群体基因组计划,精准、快速的变异检测方法亟待开发。
[0003]近年来,人们提出了许多的变异检测方法,主要包括基于序列比对的变异检测和基于序列组装的变异检测方法。基于比对的方法首先将测序片段与参考基因组进行比对,通过分析它们之间的差异来实现变异检测。对于长度较短变异(即SNVs和indels)的检测,从相对较小基因组区域的比对片段中提取SNVs和indels的特征,并使用贝叶斯统计、卷积神经网络(CNN)和递归神经网络(RNN)等方法来分析这些特征以检测潜在变异。基于组装的方法首先进行基因组的从头组装,并将产生的共识序列与参考基因组进行比对,然后从比对信息中发现变异。然而,基因组的从头组装非常耗时,并且需要大量的内存支持。
[0004]因此,变异检测作为许多基因组学研究的基础,需要在保持高准确性、高敏感性的同时,开发更加高效的变异检测算法,以满足大规模基因组研究中的需求。

技术实现思路

[0005]本专利技术的目的是:针对现有技术中变异检测效率低的问题,提出一种基于序列比对骨架的基因组变异检测方法。
[0006]本专利技术为了解决上述技术问题采取的技术方案是:
[0007]一种基于序列比对骨架的基因组变异检测方法,包括以下步骤:
[0008]步骤一:以参考基因组与基因组测序片段作为输入,采用基于de Bruijn图索引结构查询定位算法和动态规划的最优路径查询算法生成比对骨架,并对骨架缝隙进行填充;
[0009]步骤二:提取骨架缝隙填充过程中出现的碱基错误匹配、插入与删除,并将其作为潜在的变异位点信息,将潜在的变异位点信息以sindel格式输出到外部存储,之后,通过调用内部脚本,将sindel文件中所有潜在的变异位点信息按照参考位置的顺序进行排序;
[0010]步骤三:基于已排序的sindel文件,并提取sindel中近似匹配块的比对片段和参考基因组之间的差异,并通过该差异识别候选的SNV和indel位点;
[0011]步骤四:利用候选的SNV和indel位点进行SNV和indel检测,并对检测结果进行基
因型判定。
[0012]进一步的,所述步骤一中生成比对骨架的具体步骤为:
[0013]采用基于de Bruijn图的参考基因组索引查询测序片段与参考基因组上的完全匹配块,并延伸至下一个碱基错误匹配,生成非固定长度的近似匹配块,以所有的近似匹配块为顶点,顶点之间在测序片段与参考序列上是共线性关系的存在一条边,以此构建有向无环图;
[0014]然后基于有向无环图,并使用稀疏动态规划算法构造3~5条可能的比对骨架并计算骨架中每个顶点的得分及前驱顶点,选择得分最大的顶点作为终止顶点,根据计算得到的前驱顶点依次进行回溯,直到达到起始顶点,将这个回溯过程中得到路径作为一条骨架输出;然后依次选取次优得分的顶点来进行回溯,构造路径,直到所有路径都被构建,完成原始骨架的识别;
[0015]得分最大的顶点输出的骨架表示为:其中k代表骨架的优先级,k值越小优先级越高,t
k
表示骨架中包含的顶点数量;
[0016]根据得到的骨架,以顶点的得分作为优先级从高到低依次选择待连接骨架,针对待连接骨架判断当前最高优先级的骨架与其他骨架之间的连接关系,当满足连接条件时进行连接,并更新待连接骨架,具体为:当两个骨架比对到同一染色体且满足下式时,则骨架为待连接骨架的拆分骨架,将二者进行连接,
[0017][0018]其中,RS、RE、GS、GE分别代表测序序列和参考序列的起始和结束位置,Tgap代表连接骨架之间最大允许GAP长度,abs代表取绝对值;
[0019]当时,代表p
i
在待连接骨架p0的左侧,更新p0为:
[0020][0021]当时,代表p
i
在待连接骨架p0的右侧,更新p0为:
[0022][0023]直至所有骨架都被连接,得到多个连接骨架。
[0024]进一步的,所述步骤一中生成比对骨架的步骤还包括:
[0025]对连接骨架进行过滤的步骤,若连接骨架中包含碱基的总长度小于100bp,则将其过滤。
[0026]进一步的,所述对骨架缝隙进行填充的具体步骤为:
[0027]针对连接骨架,对骨架中任意两个相邻顶点之间的空白区域进行填充,具体步骤为:
[0028]步骤一一:以顶点的右端点和的左端点为起点,采用Landau

Vishkin算法分
别向右和向左延伸,延伸时最大允许编辑错误为3,使用延伸到的右端终点更新顶点使用延伸到的左端终点更新顶点
[0029]步骤一二:以更新后的顶点的右端点为起点,的左端点为终点,取该起点和终点的中间区域,并使用Smith

Waterman算法进行端到端的比对,完成空白区域的填充;
[0030]步骤一三:对骨架中最左侧顶点与最右侧顶点的未比对区域,使用Smith

Waterman进行固定一端的延伸,当存在5个连续的碱基无法正确匹配时停止延伸;
[0031]当所有空白区域被填充或延伸完毕后,提取过程中出现的碱基错误匹配、插入与删除,并将其作为潜在的变异位点信息,之后将潜在的变异位点信息以sindel格式输出到外部存储,最后,通过调用内部脚本,将sindel文件中所有潜在的变异位点信息按照参考位置的顺序进行排序。
[0032]进一步的,所述识别候选的SNV和indel位点的具体步骤为:
[0033]首先将参考基因组进行窗口划分,得到多个窗口,每一个窗口为一条染色体上的一段区域,区域长度为20000000bp,同时保证每两段区域之间都没有交叠;
[0034]针对每一个窗口,遍历参考基因组,并计算每个基因组位点上各种非参考碱基的频率;
[0035]如果至少有一种非参考碱基的频率高于阈值时,则将其作为候选位点,并将候选位点分类为高置信度或低置信度位点。
[0036]进一步的,所述每个基因组位点上各种非参考碱基的频率表示为:
[0037]P<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于序列比对骨架的基因组变异检测方法,其特征在于包括以下步骤:步骤一:以参考基因组与基因组测序片段作为输入,采用基于de Bruijn图索引结构查询定位算法和动态规划的最优路径查询算法生成比对骨架,并对骨架缝隙进行填充;步骤二:提取骨架缝隙填充过程中出现的碱基错误匹配、插入与删除,并将其作为潜在的变异位点信息,将潜在的变异位点信息以sindel格式输出到外部存储,之后,通过调用内部脚本,将sindel文件中所有潜在的变异位点信息按照参考位置的顺序进行排序;步骤三:基于已排序的sindel文件,并提取sindel中近似匹配块的比对片段和参考基因组之间的差异,并通过该差异识别候选的SNV和indel位点;步骤四:利用候选的SNV和indel位点进行SNV和indel检测,并对检测结果进行基因型判定。2.根据权利要求1所述的一种基于序列比对骨架的基因组变异检测方法,其特征在于所述步骤一中生成比对骨架的具体步骤为:采用基于de Bruijn图的参考基因组索引查询测序片段与参考基因组上的完全匹配块,并延伸至下一个碱基错误匹配,生成非固定长度的近似匹配块,以所有的近似匹配块为顶点,顶点之间在测序片段与参考序列上是共线性关系的存在一条边,以此构建有向无环图;然后基于有向无环图,并使用稀疏动态规划算法构造3~5条可能的比对骨架并计算骨架中每个顶点的得分及前驱顶点,选择得分最大的顶点作为终止顶点,根据计算得到的前驱顶点依次进行回溯,直到达到起始顶点,将这个回溯过程中得到路径作为一条骨架输出;然后依次选取次优得分的顶点来进行回溯,构造路径,直到所有路径都被构建,完成原始骨架的识别;得分最大的顶点输出的骨架表示为:其中k代表骨架的优先级,k值越小优先级越高,t
k
表示骨架中包含的顶点数量;根据得到的骨架,以顶点的得分作为优先级从高到低依次选择待连接骨架,针对待连接骨架判断当前最高优先级的骨架与其他骨架之间的连接关系,当满足连接条件时进行连接,并更新待连接骨架,具体为:当两个骨架比对到同一染色体且满足下式时,则骨架为待连接骨架的拆分骨架,将二者进行连接,其中,RS、RE、GS、GE分别代表测序序列和参考序列的起始和结束位置,Tgap代表连接骨架之间最大允许GAP长度,abs代表取绝对值;当时,代表p
i
在待连接骨架p0的左侧,更新p0为:当时,代表p
i
在待连接骨架p0的右侧,更新p0为:
直至所有骨架都被连接,得到多个连接骨架。3.根据权利要求2所述的一种基于序列比对骨架的基因组变异检测方法,其特征在于所述步骤一中生成比对骨架的步骤还包括:对连接骨架进行过滤的步骤,若连接骨架中包含碱基的总长度小于100bp,则将其过滤。4.根据权利要求3所述的一种基于序列比对骨架的基因组变异检测方法,其特征在于所述对骨架缝隙进行填充的具体步骤为:针对连接骨架,对骨架中任意两个相邻顶点之间的空白区域进行填充,具体步骤为:步骤一一:以顶点的右端点和的左端点为起点,采用Landau

Vishkin算法分别向右和向左延伸,延伸时最大允许编辑错误为3,使用延伸到的右端终点更新顶点使用延伸到的左端终点更新顶点步骤一二:以更新后的顶点的右端点为起点,的左端点为终点,取该起点和终点的中间区域,并使用Smith

Waterman算法进行端到端的比对,完成空白区域的填充;步骤一三:对骨架中最左侧顶点与最右侧顶点的未比对区域,使用Smith

Waterman进行固定一端的延伸,当存在5个连续的碱基无法正确匹配时停止延伸;当所有空白区域被填充或延伸完毕后,提取过程中出现的碱基错误匹配、插入与删除,并将其作为潜在的变异位点信息,之后将潜在的变异位点信息以sindel格式输出到外部存储,最后,通过...

【专利技术属性】
技术研发人员:刘亚东刘博王亚东
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1