序列变异校验方法和装置、生产变异序列的方法和装置及电子设备制造方法及图纸

技术编号:21456254 阅读:21 留言:0更新日期:2019-06-26 05:32
公开了一种序列变异校验方法、生成变异序列的方法、序列变异校正装置、生成变异序列的装置和电子设备。该序列变异校验方法包括:获取原始序列;获取变异信息;获取已变异的待校验序列;以及,基于所述原始序列和所述变异信息校验所述待校验序列以确定所述待校验序列的变异是否正确。这样,增加了变异模拟过程的可靠性。

【技术实现步骤摘要】
序列变异校验方法和装置、生产变异序列的方法和装置及电子设备
本申请涉及序列变异数据处理领域,且更为具体地,涉及一种序列变异校验方法、生成变异序列的方法、序列变异校正装置、生成变异序列的装置和电子设备。
技术介绍
当前研究基因组序列之间的差异,主要基于fasta和fastq两种格式数据。对于fasta来说,有例如blast等工具,将序列比对之后进行可视化展示,便于查看两段序列之间的差异;对于fastq来说,有基于二代测序的多种变异检测工具,而此类工具的结果大多以vcf格式进行保存。基于二代测序检测变异应用广泛,但其检测结果难以确定一个标准,所以fastq数据的模拟是很有必要的。目前已有多种变异模拟工具,其中一部分工具实现模拟fasta序列的功能,另一部分工具基于在模拟生成fasta之后,会继续基于此fasta模拟fastq数据。因此,期望提供改进的对于序列变异检查的处理方案。
技术实现思路
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种序列变异校验方法、生成变异序列的方法、序列变异校正装置、生成变异序列的装置和电子设备,其能够基于原始序列和变异信息对于已变异的待校验序列进行校验或者直接生成变异序列,增加了变异模拟过程的可靠性。根据本申请的一个方面,提供了一种序列变异校验方法,包括:获取原始序列;获取变异信息;获取已变异的待校验序列;以及,基于所述原始序列和所述变异信息校验所述待校验序列以确定所述待校验序列的变异是否正确。在上述序列变异校验方法中,所述确定所述待校验序列的变异是否正确包括:顺序读取所述原始序列;基于所述变异信息确定所述原始序列上的每一变异区域;基于所述每一变异区域确定所述原始序列中交替排列的对应于非变异区域的非变异字符串和对应于变异区域的变异字符串;按照所述原始序列的读取顺序,对于所述非变异字符串和所述变异字符串,交替地基于所述原始序列和所述变异信息校验所述待校验序列,包括:对于所述非变异字符串,对所述原始序列与所述待校验序列进行第一比对,以及,对于所述变异字符串,基于所述变异区域的所述变异信息和所述原始序列生成模拟变异段,并对所述模拟变异段和所述待校验序列进行第二比对。在上述序列变异校验方法中,所述第一比对和所述第二比对均是以字符串为单位进行的。在上述序列变异校验方法中,进一步包括:基于所述变异信息,在所述原始序列上的对应位点对插入变异进行空位占位;以及,基于所述变异信息,在所述待校验序列上的对应位点对删除变异进行空位占位。在上述序列变异校验方法中,所述第二比对进一步包括:响应于确定变异错误,记录错误序列的信息。在上述序列变异校验方法中,所述第二比对进一步包括:确定是否存在变异相邻和/或变异重叠;以及,响应于存在变异相邻和/或变异重叠,记录所述变异相邻和/或变异重叠的信息。在上述序列变异校验方法中,所述第一比对进一步包括:一一对应地显示所述原始序列和所述待校验序列的相应区域以及一致性指示符。在上述序列变异校验方法中,所述第二比对包括:基于所述变异区域的变异类型是SNV变异,一一对应地显示所述原始序列和所述待校验序列的相应区域以及变异指示符;基于所述变异区域的变异类型是删除型变异,以删除指示符补充所述待校验序列中与删除部分对应的区域,并与所述原始序列中的相应区域一一对应地显示;基于所述变异区域的变异类型是插入型变异,以删除指示符补充所述原始序列中与插入部分对应的区域,并与所述待校验序列中的相应区域一一对应地显示;基于所述变异区域的变异类型是倒序型变异,一一对应地显示所述原始序列和所述待校验序列的相应区域以及倒序指示符;以及,基于所述变异区域的变异类型是串联重复型变异,以删除指示符补充所述原始序列中与串联重复部分对应的区域,并与所述待校验序列中的相应区域以及串联重复指示符一一对应地显示。在上述序列变异校验方法中,所述原始序列包括含有待变异序列的目标序列段和位于所述目标序列段两侧的延长段。根据本申请的另一方面,提供了一种生成变异序列的方法,包括:获取原始序列;获取变异信息;基于所述变异信息确定所述原始序列上的每一变异区域,并形成间隔分布的若干非变异段和变异段;以及,顺序读取所述原始序列,并生成所述变异序列,其中,针对所述原始序列上的各非变异区域段,一致地生成所述变异序列上对应的非变异字符串;针对所述原始序列上的各变异区域,基于所述变异段的变异类型生成所述变异序列上对应的变异字符串。在上述生成变异序列的方法中,所述原始序列包括含有待变异序列的目标序列段和位于所述目标序列段两侧的延长段。在上述生成变异序列的方法中,所述延长段的长度不小于所述变异信息记录的所记录的删除变异中长度最长的删除变异的长度。在上述生成变异序列的方法中,所述原始序列的序列信息包括以下的至少其中之一:目标序列段计数、目标序列段所在染色体、目标序列的起始位置与结束位置、所述原始序列的延长段的序列长度。在上述生成变异序列的方法中,所述变异信息包括以下的至少其中之一:变异位点所在染色体、变异起始位置、变异终止位置、原始序列信息、变异后序列信息和变异类型。根据本申请的再一方面,提供了一种序列变异校验装置,包括:原始序列获取单元,用于获取原始序列;变异信息获取单元,用于获取变异信息;待校验序列获取单元,用于获取已变异的待校验序列;以及,变异校验单元,用于基于所述原始序列和所述变异信息校验所述待校验序列以确定所述待校验序列的变异是否正确。在上述序列变异校验装置中,所述变异校验单元包括:序列读取子单元,用于顺序读取所述原始序列;区域确定子单元,用于基于所述变异信息确定所述原始序列上的每一变异区域;字符串确定子单元,用于基于所述每一变异区域确定所述原始序列中交替排列的对应于非变异区域的非变异字符串和对应于变异区域的变异字符串;序列变异子单元,用于按照所述原始序列的读取顺序,对于所述非变异字符串和所述变异字符串,交替地基于所述原始序列和所述变异信息校验所述待校验序列,包括:对于所述非变异字符串,对所述原始序列与所述待校验序列进行第一比对,以及,对于所述变异字符串,基于所述变异区域的所述变异信息和所述原始序列生成模拟变异段,并对所述模拟变异段和所述待校验序列进行第二比对。在上述序列变异校验装置中,所述第一比对和所述第二比对均是以字符串为单位进行的。在上述序列变异校验装置中,所述变异校验单元进一步包括:空位占位子单元,用于基于所述变异信息,在所述原始序列上的对应位点对插入变异进行空位占位;以及,基于所述变异信息,在所述待校验序列上的对应位点对删除变异进行空位占位。在上述序列变异校验装置中,所述序列变异子单元进行所述第二比对进一步包括:响应于确定变异错误,记录错误序列的信息。在上述序列变异校验装置中,所述序列变异子单元进行所述第二比对进一步包括:确定是否存在变异相邻和/或变异重叠;以及,响应于存在变异相邻和/或变异重叠,记录所述变异相邻和/或变异重叠的信息。在上述序列变异校验装置中,所述序列变异子单元进行所述第一比对进一步包括:一一对应地显示所述原始序列和所述待校验序列的相应区域以及一致性指示符。在上述序列变异校验装置中,所述序列变异子单元进行所述第二比对包括:基于所述变异区域的变异类型是SNV变异,一一对应地显示所述原始序列和本文档来自技高网...

【技术保护点】
1.一种序列变异校验方法,其特征在于,包括:获取原始序列;获取变异信息;获取已变异的待校验序列;以及基于所述原始序列和所述变异信息校验所述待校验序列以确定所述待校验序列的变异是否正确。

【技术特征摘要】
2018.12.29 CN 20181163525791.一种序列变异校验方法,其特征在于,包括:获取原始序列;获取变异信息;获取已变异的待校验序列;以及基于所述原始序列和所述变异信息校验所述待校验序列以确定所述待校验序列的变异是否正确。2.根据权利要求1所述的序列变异校验方法,其特征在于,所述确定所述待校验序列的变异是否正确包括:顺序读取所述原始序列;基于所述变异信息确定所述原始序列上的每一变异区域;基于所述每一变异区域确定所述原始序列中交替排列的对应于非变异区域的非变异字符串和对应于变异区域的变异字符串;按照所述原始序列的读取顺序,对于所述非变异字符串和所述变异字符串,交替地基于所述原始序列和所述变异信息校验所述待校验序列,包括:对于所述非变异字符串,对所述原始序列与所述待校验序列进行第一比对,以及对于所述变异字符串,基于所述变异区域的所述变异信息和所述原始序列生成模拟变异段,并对所述模拟变异段和所述待校验序列进行第二比对,任选地,所述第一比对和所述第二比对均是以字符串为单位进行的,任选地,进一步包括:基于所述变异信息,在所述原始序列上的对应位点对插入变异进行空位占位;以及基于所述变异信息,在所述待校验序列上的对应位点对删除变异进行空位占位,任选地,所述第二比对进一步包括:响应于确定变异错误,记录错误序列的信息,任选地,所述第二比对进一步包括:确定是否存在变异相邻和/或变异重叠;以及响应于存在变异相邻和/或变异重叠,记录所述变异相邻和/或变异重叠的信息,任选地,所述第一比对进一步包括:一一对应地显示所述原始序列和所述待校验序列的相应区域以及一致性指示符,任选地,所述第二比对包括:基于所述变异区域的变异类型是SNV变异,一一对应地显示所述原始序列和所述待校验序列的相应区域以及变异指示符;基于所述变异区域的变异类型是删除型变异,以删除指示符补充所述待校验序列中与删除部分对应的区域,并与所述原始序列中的相应区域一一对应地显示;基于所述变异区域的变异类型是插入型变异,以删除指示符补充所述原始序列中与插入部分对应的区域,并与所述待校验序列中的相应区域一一对应地显示;基于所述变异区域的变异类型是倒序型变异,一一对应地显示所述原始序列和所述待校验序列的相应区域以及倒序指示符;以及基于所述变异区域的变异类型是串联重复型变异,以删除指示符补充所述原始序列中与串联重复部分对应的区域,并与所述待校验序列中的相应区域以及串联重复指示符一一对应地显示。3.根据权利要求2所述的序列变异校验方法,其特征在于,所述原始序列包括含有待变异序列的目标序列段和位于所述目标序列段两侧的延长段。4.一种生成变异序列的方法,其特征在于,包括:获取原始序列;获取变异信息;基于所述变异信息确定所述原始序列上的每一变异区域,并形成间隔分布的若干非变异段和变异段;以及顺序读取所述原始序列,并生成所述变异序列,...

【专利技术属性】
技术研发人员:周淼荆瑞琳杜洋李大为玄兆伶王海良肖飞
申请(专利权)人:北京安诺优达医学检验实验室有限公司安诺优达基因科技北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1