一种三代群体基因组结构变异联合检测方法技术

技术编号:36457990 阅读:57 留言:0更新日期:2023-01-25 22:56
一种三代群体基因组结构变异联合检测方法,涉及基因变异检测技术领域,针对现有技术中大规模的群体变异检测速度慢的问题,本申请提出一种基于三代测序的群体基因组SV联合检测方法,以多个个体VCF作为输入,通过对个体VCF文件中变异特征的提取与排序,使用基于二分图最大匹配算法的两轮合并,对不同个体之间的相似的SV进行合并,从而生成代表群体SV的群体VCF。本申请提出的群体基因组SV联合检测方法有效避免了SV整合中过度整合的问题,在保持联合检测高准确性的同时,提升了检出群体SV的多样性,同时,利用分块分治的策略对群体SV进行划分,合理使用计算资源的多核特性,大幅提升了大规模群体SV联合检测的速度。升了大规模群体SV联合检测的速度。升了大规模群体SV联合检测的速度。

【技术实现步骤摘要】
一种三代群体基因组结构变异联合检测方法


[0001]本专利技术涉及基因变异检测
,具体为一种三代群体基因组结构变异联合检测方法。

技术介绍

[0002]第三代测序技术如PacBio(Pacific BioSciences)和ONT(Oxford Nanopore Technologies),利用了边合成边测序的思想,利用碱基配对阶段,加入不同碱基时会发出不同的光,根据光的波长与峰值判断进入的碱基类型。相比于其他测序技术,第三代测序技术产生的测序片段拥有很长的读长,最长甚至可以超过1Mbp,同时平均长度也可以达到10kbp,因此它们可以覆盖到很长的基因组区域。较长的读长使得其能够检测出更多的结构变异,研究表明,在人类个体的基因组变异检测中,利用第三代测序数据相比于利用第二代测序数据能够多检测出两倍数量的结构变异,这为结构变异检测的发展提供了很大的机遇。
[0003]结构变异是指一整段连续的DNA序列发生了缺失(Deletion)、插入(Insertion)、重复(Duplication)、倒位(Inversion)、易位(Translocation)等重排性变化,影响的碱基长度一般大于50碱基对。相关研究表明,与单核苷酸变异(SNV)、短插入删除变异(Indel)相比,它的长度更长,结构也更加复杂。相关研究表明,平均每个人类个体基因组上包含大约两万个SV,虽然SV数量相较于SNV和Indel较少,但是由于其涉及的DNA片段区间跨度较大,在空间上对基因组的影响范围是最广的,因此,结构变异的精准检测对于基因组研究有着至关重要的意义。
[0004]随着国际千人基因组计划的顺利实施,各国也陆续开展基因组计划,旨在绘制属于本国的大规模人群的基因组图谱,进而从基因组层面更加深入的理解本国、本民族的遗传变异特征,推动基因组科学发展,为精准健康医疗发展奠定基础。群体结构变异检测作为大规模基因组研究中的重要部分,如何准确、高效地完成是当前研究的热点以及难点。当前群体结构变异检测工具存在过度整合的问题,容易将不属于同一群体结构变异的变异认定成为同一群体结构变异,从而导致变异检测结果的多样性出现损失;同时,对于大规模的群体,其变异检测需要花费大量的时间、空间,检测速度慢,为群体结构变异检测的实际应用带来了一定的困难。

技术实现思路

[0005]本专利技术的目的是:针对现有技术中大规模的群体变异检测速度慢的问题,提出一种三代群体基因组结构变异联合检测方法。
[0006]本专利技术为了解决上述技术问题采取的技术方案是:
[0007]一种三代群体基因组结构变异联合检测方法,包括以下步骤:
[0008]步骤一:获取多个个体的结构变异信息,并根据个体的结构变异信息提取结构变异,即SV,之后将SV根据变异所在染色体区间与变异类型进行分组,得到多组待合并SV集
合;
[0009]步骤二:针对每组合并SV集合,将待合并SV集合中的SV以基因组坐标位点为第一关键字、SV长度为第二关键字进行排序,得到一个有序的待合并SV集合;
[0010]步骤三:将有序的待合并SV集合中的SV进行合并,合并的具体步骤为:
[0011]采用两轮合并;
[0012]第一轮合并中按照SV在基因组上的坐标位点,并定义一个阈值,将有序的待合并SV集合中相邻SV的坐标位点之差小于阈值的收集在一起;
[0013]第二轮合并中利用二分图最大匹配算法对第一轮合并的结果进行划分,得到多个候选SV集合;
[0014]步骤四:获取候选SV集合中SV的坐标位点的中位数以及SV长度的中位数,并将其作为群体SV的坐标位点与长度;
[0015]步骤五:多组待合并SV集合处理完毕,得到群体SV的坐标位点与长度的集合,即完成联合检测。
[0016]进一步的,所述步骤一的具体步骤为:
[0017]首先提取个体的结构变异信息中一条染色体上长度为10Mbp的区域内的所有SV,下一轮提取从上一轮提取的结尾区域回溯10kbp开始并向后延伸10Mbp;
[0018]在提取过程中,定义一个类,根据个体的结构变异信息中每一行的内容,提取SV所在染色体、SV的变异类型、SV的基因组坐标位点、SV的长度,同时记录该SV所在的个体,并将该SV所在的个体、SV所在染色体、SV的变异类型、SV的基因组坐标位点和SV的长度作为变异特征;
[0019]收集完区域内的所有SV后,将SV按照不同变异类型存储,形成多组待合并SV集合。
[0020]进一步的,所述步骤二的具体步骤为:
[0021]首先建立一个小根堆,将变异特征作为堆内的元素,设定堆内排序的关键字为SV的基因组坐标位点;
[0022]初始化小根堆,堆的大小为待合并SV集合中个体的数量,然后遍历待合并SV集合中的每个个体,将每个个体中SV的基因组坐标位点最小的SV加入堆中,若堆顶元素不是具有最小基因组坐标位点的SV,则将堆内最小基因组坐标位点的SV与堆顶元素对应的SV互换,然后将堆内最小基因组坐标位点的SV从堆中移出,加入排序列表中,随后从移出的SV所在的个体中取出SV的基因组坐标位点第二小的SV加入小根堆中,当移出的SV所在的个体中没有剩余的SV时,则将堆的大小减小1,并重复上述步骤,直至SV中的个体处理完毕,得到的排序列表,即为有序的待合并SV集合。
[0023]进一步的,所述第一轮合并的具体步骤为:
[0024]遍历有序的待合并SV集合,并判断相邻两个SV的位点坐标之差是否小于1500bp,并将连续的、位点坐标之差小于1500bp的SV收集到同一个子集合中。
[0025]进一步的,所述第二轮合并的具体步骤为:
[0026]在子集合中,将SV按照所属个体进行划分,并以个体中SV的数量将子集合中的个体进行排序,选择SV数量最多的个体作为初始的候选合并结果,然后在子集合中剩余的个体中选择SV数量最多的个体与初始的候选合并结果进行合并,直至所有个体都被合并到候选合并结果中,当所有子集合处理完毕,得到多个候选SV集合。
[0027]进一步的,所述在子集合中剩余的个体中选择SV数量最多的个体与初始的候选合并结果进行合并的具体步骤为:
[0028]首先建立二分图,二分图中的每个节点代表一个变异特征,对于分别来自待合并个体与候选合并结果中的两个变异特征,即分别来自待合并个体与候选合并结果中的两个节点,若这两个节点对应的变异特征满足如下公式,则将该两个点连接边:
[0029][0030][0031]其中bp1、bp2代表两个SV的基因组坐标位点,len1、len2代表两个SV的长度,bp'1、bp'2代表易位变异在另一条染色体上的位点,p代表边长;
[0032]建图完毕后,得到一个二分图,然后利用KM算法对新的二分图进行最大匹配,得到一个匹配结果,然后根据每个匹配结果的信息进行SV合并。
[0033]进一步的,所述利用KM算法对新的二分图进行最大匹配,得到一个匹配结果,然后根据每个匹配结果的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种三代群体基因组结构变异联合检测方法,其特征在于包括以下步骤:步骤一:获取多个个体的结构变异信息,并根据个体的结构变异信息提取结构变异,即SV,之后将SV根据变异所在染色体区间与变异类型进行分组,得到多组待合并SV集合;步骤二:针对每组合并SV集合,将待合并SV集合中的SV以基因组坐标位点为第一关键字、SV长度为第二关键字进行排序,得到一个有序的待合并SV集合;步骤三:将有序的待合并SV集合中的SV进行合并,合并的具体步骤为:采用两轮合并;第一轮合并中按照SV在基因组上的坐标位点,并定义一个阈值,将有序的待合并SV集合中相邻SV的坐标位点之差小于阈值的收集在一起;第二轮合并中利用二分图最大匹配算法对第一轮合并的结果进行划分,得到多个候选SV集合;步骤四:获取候选SV集合中SV的坐标位点的中位数以及SV长度的中位数,并将其作为群体SV的坐标位点与长度;步骤五:多组待合并SV集合处理完毕,得到群体SV的坐标位点与长度的集合,即完成联合检测。2.根据权利要求1所述的一种三代群体基因组结构变异联合检测方法,其特征在于所述步骤一的具体步骤为:首先提取个体的结构变异信息中一条染色体上长度为10Mbp的区域内的所有SV,下一轮提取从上一轮提取的结尾区域回溯10kbp开始并向后延伸10Mbp;在提取过程中,定义一个类,根据个体的结构变异信息中每一行的内容,提取SV所在染色体、SV的变异类型、SV的基因组坐标位点、SV的长度,同时记录该SV所在的个体,并将该SV所在的个体、SV所在染色体、SV的变异类型、SV的基因组坐标位点和SV的长度作为变异特征;收集完区域内的所有SV后,将SV按照不同变异类型存储,形成多组待合并SV集合。3.根据权利要求2所述的一种三代群体基因组结构变异联合检测方法,其特征在于所述步骤二的具体步骤为:首先建立一个小根堆,将变异特征作为堆内的元素,设定堆内排序的关键字为SV的基因组坐标位点;初始化小根堆,堆的大小为待合并SV集合中个体的数量,然后遍历待合并SV集合中的每个个体,将每个个体中SV的基因组坐标位点最小的SV加入堆中,若堆顶元素不是具有最小基因组坐标位点的SV,则将堆内最小基因组坐标位点的SV与堆顶元素对应的SV互换,然后将堆内最小基因组坐标位点的SV从堆中移出,加入排序列表中,随后从移出的SV所在的个体中取出SV的基因组坐标位点第二小的SV加入小根堆中,当移出的SV所在的个体中没有剩余的SV时,则将堆的大小减小1,并重复上述步骤,直至SV中的个体处理完毕,得到的排序列表,即为有序的待合并SV集合。4.根据权利要求3所述的一种三代群体基因组结构变异联合检测方法,其特征在于所述第一轮合并中阈值为1500bp。5.根据权利要求4所述的一种三代群体基因组结构变异联合检测方法,其特征在于所述第一轮合并的具体步骤为:
遍历有序的待合并SV集合,并判断相邻两个SV的位点坐标之差是否小于1500bp,并将连续的、位点坐标之差小于1500bp的SV收集到同一个子集合中。6.根据权利要求5所述的一种三代群体基因组...

【专利技术属性】
技术研发人员:姜涛曹舒淇刘博王亚东
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1