本发明专利技术提供一种结构体变异检测的方法及装置。所述方法包括:将测试序列按照染色体的位点划分,得到至少两个染色体分段;同时启动至少两个染色体分段中每一分段的结构体变异检测的进程,以进行结构体变异检测;检测至少两个染色体分段的进程,确定未完成进程数是否减少到总进程数的预设比例阈值;当未完成进程数减少到总进程数的预设比例阈值时,杀掉未完成的进程;将未完成的进程按照染色体的位点进一步划分,并启动划分后的染色体分段的结构体变异检测的进程,以进行结构体变异检测。通过采用本发明专利技术的技术方案,可以充分利用计算机资源,加快整个测试序列的结构体变异的检测进程,缩短整个测试序列的结构体变异的检测时间,提高检测效率。
【技术实现步骤摘要】
本专利技术涉及基因检测
,尤其涉及一种结构体变异检测的方法及装置。
技术介绍
在现有的人类全基因组重测序中,需要对海量原始数据进行结构体变异检测以进行数据分析。随着目前数量的增大,目前的结构体变异检测中,可以支持的方案有不并发方案,该种方案适用于单机单进程的对所有测试序列进行检测。该方案中,没有充分利用计算机资源,测试时间非常长。为了减少测试时间,现有技术对不并发方案进行改进,提出一种并发方案的结构体变异检测方案,该方案中将测试序列按照染色体分段,处理时每个设备可以处理指定染色体分段的染色体,这样,多段染色体之间可以并发的执行,一个染色体一个进程进行处理。为了进一步利用计算机资源,现有技术中还提出了染色体内的简单并发计算的方案,将测试序列按照染色体分开,然后将每一条染色体按照位点(range)切分为N份,每份一个启动一个进程,以并发执行。但是,由于染色体不同位点处理时长不同,划分段之间的处理时长也不同,导致并发任务分配不均衡,有些很快完成,而有些需要很长的时间,导致有空闲的计算机资源没有被充分利用,整体测试序列的测试时间还较长。
技术实现思路
本专利技术提供了一种结构体变异检测的方法及装置,用于充分利用计算机资源,缩短整体测试序列的测试时间。本专利技术提供一种结构体变异检测的方法,所述方法包括:将测试序列按照染色体的位点划分,得到至少两个染色体分段;同时启动所述至少两个染色体分段中每一分段的结构体变异检测的进程,以进行结构体变异检测;检测所述至少两个染色体分段的进程,确定未完成进程数是否减少到总进程数的预设比例阈值;当未完成进程数减少到总进程数的预设比例阈值时,杀掉未完成的进程;将未完成的进程对应的所述染色体分段按照染色体的位点进一步划分,并启动划分后的所述染色体分段的结构体变异检测的进程,以进行结构体变异检测。进一步可选地,如上所述的方法中,将测试序列按照染色体的位点划分,得到至少两个染色体分段,具体包括:将所述测试序列按照染色体拆分;将拆分后的所有染色体按照位点划分,得到所述至少两个染色体分段。进一步可选地,如上所述的方法中,将拆分后的各所述染色体按照位点划分,得到所述至少两个染色体分段,具体包括:根据进行结构体变异检测的计算机的核数,将拆分后的所有染色体按照位点划分,得到段数等于所述计算机核数的整数倍的所述至少两个染色体分段。进一步可选地,如上所述的方法中,当未完成进程数减少到总进程数的预设比例阈值时,杀掉未完成的进程之后,还包括:清除未完成的进程中产生的文件。进一步可选地,如上所述的方法中,当未完成进程数减少到总进程数的预设比例阈值时,杀掉未完成的进程之前,还包括:判断未完成的进程中对应的染色体分段中位点值的最大间隔是否大于或者等于预设位点间隔;确定未完成的进程中对应的染色体分段中位点值的最大间隔大于或者等于所述预设位点间隔。进一步可选地,如上所述的方法中,当未完成的进程中对应的染色体分段中位点值的最大间隔小于所述预设位点间隔,还包括:不杀掉未完成的进程,监控所述至少两个染色体分段中每一分段的结构体变异检测的进程,直到检测完成;将所述至少两个染色体分段的结构体变异检测的结果合并至一个文件中。本专利技术还提供一种结构体变异检测的装置,所述装置包括:划分模块,用于将测试序列按照染色体的位点划分,得到至少两个染色体分段;进程启动模块,用于同时启动所述至少两个染色体分段中每一分段的结构体变异检测的进程,以进行结构体变异检测;进程数检测模块,用于检测所述至少两个染色体分段的进程,确定未完成进程数是否减少到总进程数的预设比例阈值;处理模块,用于当未完成进程数减少到总进程数的预设比例阈值时,杀掉未完成的进程;所述划分模块,还用于将未完成的进程对应的所述染色体分段按照染色体的位点进一步划分;所述进程启动模块,还用于进一步启动划分后的所述染色体分段的结构体变异检测的进程,以进行结构体变异检测。进一步可选地,如上所述的装置中,所述划分模块,具体包括:染色体拆分单元,用于将所述测试序列按照染色体拆分;位点拆分单元,用于将拆分后的所有染色体按照位点划分,得到所述至少两个染色体分段。进一步可选地,如上所述的装置中,所述位点拆分单元,具体用于根据进行结构体变异检测的计算机的核数,将拆分后的所有染色体按照位点划分,得到段数等于所述计算机核数的整数倍的所述至少两个染色体分段。进一步可选地,如上所述的装置中,还包括:清除模块,用于清除未完成的进程中产生的文件。进一步可选地,如上所述的装置中,还包括:判断模块,用于判断未完成的进程中对应的染色体分段中位点值的最大间隔是否大于或者等于预设位点间隔;确定模块,用于确定未完成的进程中对应的染色体分段中位点值的最大间隔大于或者等于所述预设位点间隔。进一步可选地,如上所述的装置中,所述确定模块,还用于确定未完成的进程中对应的染色体分段中位点值的最大间隔小于所述预设位点间隔;所述处理模块,还用于不杀掉未完成的进程,监控所述至少两个染色体分段中每一分段的结构体变异检测的进程,直到检测完成;将所述至少两个染色体分段的结构体变异检测的结果合并至一个文件中。本专利技术的结构体变异检测的方法及装置,通过将测试序列按照染色体的位点划分,得到至少两个染色体分段;同时启动至少两个染色体分段中每一分段的结构体变异检测的进程,以进行结构体变异检测;检测至少两个染色体分段的进程,确定未完成进程数是否减少到总进程数的预设比例阈值;当未完成进程数减少到总进程数的预设比例阈值时,杀掉未完成的进程;将未完成的进程按照染色体的位点进一步划分,并启动划分后的染色体分段的结构体变异检测的进程,以进行结构体变异检测。通过采用本专利技术的技术方案,可以将每一轮结构变异体检测中未完成的进程对应的染色体分段再作为一段测试序列重复迭代执行上述步骤,以充分利用计算机资源,加快整个测试序列的结构体变异的检测进程,缩短整个测试序列的结构体变异的检测时间,提高检测效率。【附图说明】图1为本专利技术的结构体变异检测的方法实施例一的流程图。图2为本专利技术的结构体变异检测的方法实施例二的流程图。图3为本专利技术的结构体变异检测的装置实施例一的结构图。图4为本专利技术的结构体变异检测的装置实施例二的结构图。【具体实施方式】为了使本专利技术的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本专利技术进行详细描述。图1为本专利技术的结构体变异检测的方法实施例一的流程图。如图1所示,本实施例的结构体变异检测的方法,具体可以包括如下步骤:100、将测试序列按照染色体的位点划分,得到至少两个染色体分段;101、同时启动至少两个染色体分段中每一分段的结构体变异检测的进程,以进行结构体变异检测;102、检测至少两个染色体分段的进程,确定未完成进程数是否减少到总进程数的预设比例阈值;当未完成进程数减少到总进程数的预设比例阈值时,执行步骤103;否则继续检测未完成进程数是否减少到总进程数的预设比例阈值。103、杀掉未完成的进程;执行步骤104、104、将未完成的进程对应的染色体分段按照染色体的位点进一步划分,并启动划分后的染色体分段的结构体变异检测的进程,以进行结构体变异检测。本实施例的结构体变异检测的方法应用于人类全基因组重测序中。本实施例的测试序列由很多染色体构成。首先将测试序本文档来自技高网...
【技术保护点】
一种结构体变异检测的方法,其特征在于,所述方法包括:将测试序列按照染色体的位点划分,得到至少两个染色体分段;同时启动所述至少两个染色体分段中每一分段的结构体变异检测的进程,以进行结构体变异检测;检测所述至少两个染色体分段的进程,确定未完成进程数是否减少到总进程数的预设比例阈值;当未完成进程数减少到总进程数的预设比例阈值时,杀掉未完成的进程;将未完成的进程对应的所述染色体分段按照染色体的位点进一步划分,并启动划分后的所述染色体分段的结构体变异检测的进程,以进行结构体变异检测。
【技术特征摘要】
1.一种结构体变异检测的方法,其特征在于,所述方法包括:将测试序列按照染色体的位点划分,得到至少两个染色体分段;同时启动所述至少两个染色体分段中每一分段的结构体变异检测的进程,以进行结构体变异检测;检测所述至少两个染色体分段的进程,确定未完成进程数是否减少到总进程数的预设比例阈值;当未完成进程数减少到总进程数的预设比例阈值时,杀掉未完成的进程;将未完成的进程对应的所述染色体分段按照染色体的位点进一步划分,并启动划分后的所述染色体分段的结构体变异检测的进程,以进行结构体变异检测。2.根据权利要求1所述的方法,其特征在于,将测试序列按照染色体的位点划分,得到至少两个染色体分段,具体包括:将所述测试序列按照染色体拆分;将拆分后的所有染色体按照位点划分,得到所述至少两个染色体分段。3.根据权利要求2所述的方法,其特征在于,将拆分后的各所述染色体按照位点划分,得到所述至少两个染色体分段,具体包括:根据进行结构体变异检测的计算机的核数,将拆分后的所有染色体按照位点划分,得到段数等于所述计算机核数的整数倍的所述至少两个染色体分段。4.根据权利要求1所述的方法,其特征在于,当未完成进程数减少到总进程数的预设比例阈值时,杀掉未完成的进程之后,所述方法还包括:清除未完成的进程中产生的文件。5.根据权利要求1-4任一所述的方法,其特征在于,当未完成进程数减少到总进程数的预设比例阈值时,杀掉未完成的进程之前,所述方法还包括:判断未完成的进程中对应的染色体分段中位点值的最大间隔是否大于或者等于预设位点间隔;确定未完成的进程中对应的染色体分段中位点值的最大间隔大于或者等于所述预设位点间隔。6.根据权利要求5所述的方法,其特征在于,当未完成的进程中对应的染色体分段中位点值的最大间隔小于所述预设位点间隔,所述方法还包括:不杀掉未完成的进程,监控所述至少两个染色体分段中每一分段的结构体变异检测的进程,直到检测完成;将所述至少两个染色体分段的结构体变异检测的结果合并至一个文件中。7...
【专利技术属性】
技术研发人员:石子夜,何珊,徐东泽,张发恩,吴李知,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。