变异检测方法及装置、存储介质及电子设备制造方法及图纸

技术编号:23026156 阅读:23 留言:0更新日期:2020-01-03 17:19
本公开涉及数据处理技术领域,具体涉及一种变异检测方法及装置、计算机可读存储介质及电子设备,所述方法包括:将基础数据加入于概率计算队列;获取概率计算队列中的一组基础数据组,以并行的方式基于基础数据组中各基础数据计算各激活区域内的各待测序片段是单倍型的概率值,并将基础数据和对应的概率值加入概率输出队列;获取概率输出队列中的基础数据和对应的概率值,根据基础数据和概率值计算所述激活区域中的变异信息。本公开实施例的技术方案能够通过并行的方式同时获取并计算多个基础数据对应的概率值,避免依次计算概率值导致的概率值计算速度低的问题,进而加快变异检测的速度。

Variation detection method and device, storage medium and electronic equipment

【技术实现步骤摘要】
变异检测方法及装置、存储介质及电子设备
本公开涉及数据处理
,具体而言,涉及一种变异检测方法及装置、计算机可读存储介质及电子设备。
技术介绍
在治疗疾病的过程中往往会出现相同用药,效果差异较大的情况,这种情况的出现很大程度上是由于个体之间的遗传基因不同。为了能够更好的针对不同个体进行治疗,研究者不断研究如何在大量的遗传数据中进行变异检测。变异检测是指通过高通量测序手段检测物种个体或群体水平上的遗传变异信息。GATK(GenomeAnalysisToolKit)HaplotypeCaller工具作为一种常用的变异检测工具,能够减少由于排序错误导致的假阳性,因此具有准确率较高的优点。然而,在样品较多时,由于需要针对每个激活区域逐个进行计算,因此导致变异检测的速度较慢,效率较低。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本公开的目的在于提供一种变异检测方法及装置、计算机可读存储介质及电子设备,进而至少在一定程度上克服变异检测的速度较慢,效率较低的问题。本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。根据本公开的第一方面,提供了一种变异检测方法,包括:将基础数据加入于概率计算队列;其中,所述基础数据包括一个激活区域内的待测序片段和单倍型;获取概率计算队列中的一组基础数据组,以并行的方式基于所述基础数据组中各所述基础数据计算各所述激活区域内的各所述待测序片段是所述单倍型的概率值,并将所述基础数据和对应的概率值加入概率输出队列;获取所述概率输出队列中的所述基础数据和对应的概率值,根据所述基础数据和所述概率值计算所述激活区域中的变异信息。在本公开的一种示例性实施例中,基于前述方案,在所述将基础数据加入于概率计算队列之前,所述方法还包括:根据待测序片段和预设遗传数据生成至少一个所述基础数据。在本公开的一种示例性实施例中,基于前述方案,所述根据待测序片段和预设遗传数据生成至少一个所述基础数据,包括:将所述待测序片段和所述预设遗传数据进行比对以获取比对数据,根据所述比对数据识别至少一个所述激活区域;根据各所述激活区域内的所述待测序片段和所述预设遗传数据确定各所述激活区域内的所述单倍型;根据各所述激活区域内的待测序片段和单倍型生成基础数据。在本公开的一种示例性实施例中,基于前述方案,所述根据各所述激活区域内的所述待测序片段和所述预设遗传数据确定各所述激活区域内的所述单倍型,包括:对各所述激活区域内的所述待测序片段和所述预设遗传数据进行局部组装,根据所述局部组装的结果确定所述激活区域内的所述单倍型。在本公开的一种示例性实施例中,基于前述方案,所述根据待测序片段和预设遗传数据生成至少一个所述基础数据采用多线程的方式执行。在本公开的一种示例性实施例中,基于前述方案,所述基于所述基础数据组中各所述基础数据计算各所述激活区域内的各所述待测序片段是所述单倍型的概率值,包括:将各所述基础数据分别输入预设模型中,以计算在所述基础数据对应的所述激活区域内,所述待测序片段是所述单倍型的概率值。在本公开的一种示例性实施例中,基于前述方案,所述预设模型包括成对隐马尔可夫模型。在本公开的一种示例性实施例中,基于前述方案,所述根据所述基础数据和所述概率值计算所述激活区域中的变异信息,包括:通过对所述待测序片段是所述单倍型的概率值进行统计以确定所述激活区域内所述待测序片段上每个变异数据点的变异信息。在本公开的一种示例性实施例中,基于前述方案,在对所述待测序片段是所述单倍型的概率值进行统计时采用贝叶斯统计的方法进行统计。在本公开的一种示例性实施例中,基于前述方案,所述以并行的方式基于所述基础数据组中各所述基础数据计算各所述激活区域内的各所述待测序片段是所述单倍型的概率值,并将所述基础数据和对应的概率值加入概率输出队列通过可编程逻辑门阵列并行实现。在本公开的一种示例性实施例中,基于前述方案,所述根据所述基础数据和所述概率值计算所述激活区域中的变异信息采用多线程的方式执行。在本公开的一种示例性实施例中,基于前述方案,所述基础数据组包括的基础数据的最大数量根据预设数量确定。根据本公开的第二方面,提供了一种变异检测装置,包括:数据生成模块,用于将基础数据加入于概率计算队列;其中,所述基础数据包括一个激活区域内的待测序片段和单倍型;概率计算模块,用于获取概率计算队列中的一组基础数据组,以并行的方式基于所述基础数据组中各所述基础数据计算各所述激活区域内的各所述待测序片段是所述单倍型的概率值,并将所述基础数据和对应的概率值加入概率输出队列;变异计算模块,用于获取所述概率输出队列中的所述基础数据和对应的概率值,根据所述基础数据和所述概率值计算所述激活区域中的变异信息。根据本公开的第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述实施例中第一方面所述的变异检测方法。根据本公开实施例的第四方面,提供了一种电子设备,包括:处理器;以及存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中第一方面所述的变异检测方法。本公开实施例提供的技术方案可以包括以下有益效果:本公开的一种实施例所提供的变异检测方法中,通过将基础数据加入于概率计算队列,在所述概率计算队列中获取一组基础数据组,以并行的方式基于所述基础数据组中各所述基础数据计算各所述激活区域内的各所述待测序片段是所述单倍型的概率值,并将所述基础数据和对应的概率值加入概率输出队列,最后读取所述概率输出队列中的所述基础数据和对应的概率值,根据所述基础数据和所述概率值计算所述激活区域中的变异信息。通过将基础数据加入概率计算队列使得可以通过并行的方式同时获取并计算多个基础数据对应的概率值,避免依次计算概率值导致的概率值计算速度低的问题,进而加快变异检测的速度。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:图1示意性示出本公开示例性实施例中一种变异检测方法的流程图;图2示意性示出本公开示例性实施例中根据待测序片段和预设遗传数据生成至少一个基础数据的方法的流程图;图3示出本公开示例性实施例中预设模型为pairHMM模型时,一种变异检测方法的流程图;图4示意性示出本公开示例性实施例中一种变异本文档来自技高网...

【技术保护点】
1.一种变异检测方法,其特征在于,包括:/n将基础数据加入于概率计算队列;其中,所述基础数据包括一个激活区域内的待测序片段和单倍型;/n获取概率计算队列中的一组基础数据组,以并行的方式基于所述基础数据组中各所述基础数据计算各所述激活区域内的各所述待测序片段是所述单倍型的概率值,并将所述基础数据和对应的概率值加入概率输出队列;/n获取所述概率输出队列中的所述基础数据和对应的概率值,根据所述基础数据和所述概率值计算所述激活区域中的变异信息。/n

【技术特征摘要】
1.一种变异检测方法,其特征在于,包括:
将基础数据加入于概率计算队列;其中,所述基础数据包括一个激活区域内的待测序片段和单倍型;
获取概率计算队列中的一组基础数据组,以并行的方式基于所述基础数据组中各所述基础数据计算各所述激活区域内的各所述待测序片段是所述单倍型的概率值,并将所述基础数据和对应的概率值加入概率输出队列;
获取所述概率输出队列中的所述基础数据和对应的概率值,根据所述基础数据和所述概率值计算所述激活区域中的变异信息。


2.根据权利要求1所述的方法,其特征在于,在所述将基础数据加入于概率计算队列之前,所述方法还包括:
根据待测序片段和预设遗传数据生成至少一个所述基础数据。


3.根据权利要求2所述的方法,其特征在于,所述根据待测序片段和预设遗传数据生成至少一个所述基础数据,包括:
将所述待测序片段和所述预设遗传数据进行比对以获取比对数据,根据所述比对数据识别至少一个所述激活区域;
根据各所述激活区域内的所述待测序片段和所述预设遗传数据确定各所述激活区域内的所述单倍型;
根据各所述激活区域内的待测序片段和单倍型生成基础数据。


4.根据权利要求3所述的方法,其特征在于,所述根据各所述激活区域内的所述待测序片段和所述预设遗传数据确定各所述激活区域内的所述单倍型,包括:
对各所述激活区域内的所述待测序片段和所述预设遗传数据进行局部组装,根据所述局部组装的结果确定所述激活区域内的所述单倍型。


5.根据权利要求2所述的方法,其特征在于,所述根据待测序片段和预设遗传数据生成至少一个所述基础数据采用多线程的方式执行。


6.根据权利要求1所述的方法,其特征在于,所述基于所述基础数据组中各所述基础数据计算各所述激活区域内的各所述待测序片段是所述单倍型的概率值,包括:
将各所述基础数据分别输入预设模型中,以计算在所述基础数据对应的所述激活区域内,所述待测序片段是所述单倍型的概率值。


7.根据权利要求6所述的方法,其特征在于,所述预设模型包括成对隐马尔可夫模型...

【专利技术属性】
技术研发人员:刘兵张凯
申请(专利权)人:南京医基云医疗数据研究院有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1