用于分析基因的方法及装置制造方法及图纸

技术编号:16672929 阅读:32 留言:0更新日期:2017-11-30 17:19
用于分析基因的方法及装置,其通过从受检样品的下一代测序(NGS)数据中获取关于读段的数据,并且利用该读段提取受检样品的有可能存在染色体内易位(translocation)的候选基因对,从而在候选基因对中识别易位基因。

【技术实现步骤摘要】
【国外来华专利技术】用于分析基因的方法及装置
本专利技术涉及一种用于分析基因的方法及装置,特别是,涉及一种用于分析关于易位(translocation)基因的数据的方法及装置。
技术介绍
基因组(genome)是指某一生物所具有的所有基因信息。为了某一个体基因组的测序(sequencing),正在开发DNA芯片及下一代测序(NextGenerationSequencing)技术或下下一代测序(NextNextGenerationSequencing)技术等多种技术。为了寻找表达如糖尿病或癌症等疾病的基因或者识别遗传多样性与个体表达特性之间的相关关系等,广泛应用如核酸序列或蛋白质等的基因信息的分析。特别是,从查明彼此不同的症状或与疾病进展相关联的个体遗传特征的方面来看,从个体中收集到的遗传数据很重要。因此,如个体的核酸序列或蛋白质等的遗传数据为允许通过识别当前及未来的疾病关联信息来预防疾病或在疾病的初期步骤中选择最佳治疗方法的核心数据。近年来,虽然因测序技术的发展而试图发掘多种结构变异(structurevariation),但仍然产生相当量的假阳性(falsepositive)或假阴性(falsenegative)的结果,其反证仍然有较多的生物信息学(bioinformatics)上的挑战性因素。
技术实现思路
技术问题本专利技术提供一种用于分析基因的方法及装置。本实施例所要解决的技术问题并非由如上所述的技术问题来限定,能够从以下实施例中类推出又一技术问题。技术方案根据一方面,用于分析基因的方法包括以下步骤:从受检样品的下一代测序(NGS)数据中获取关于断裂读段(splitreads)及比对不一致(discordantly)的PE(paired-end,双端)读段的数据;利用所述断裂读段和所述PE读段来提取所述受检样品的有可能存在染色体内易位(translocation)的第一候选基因对;以及以所述断裂读段所呈现的断点(breakpoints)和所述第一候选基因对的融合(fusion)方向为基础,在所述第一候选基因对中识别易位基因。此外,所述识别包括:在所提取的第一候选基因对中提取第二候选基因对,所述第二候选基因对包含与具有属于相同的覆盖度的断点的多个断裂读段进行比对的基因,其中从所提取的第二候选基因对中识别出所述易位基因。此外,关于包含在所提取的第二候选基因对中的所述基因,具有属于所述相同的覆盖度的所述断点的所述断裂读段的个数为规定临界值以上。此外,所述识别包括:在所提取的第二候选基因对中提取彼此不同的基因之间的所述融合方向为从5’端(end)到3’端或从3’端到5’端的第三候选基因对,其中从所提取的第二候选基因对中识别出所述易位基因。此外,所述NGS数据包括BAM(二进制序列比对/映射,binaryversionofSAM)格式数据或SAM(序列比对/映射,SequenceAlignment/Map)格式数据。此外,所述获取步骤从所述BAM格式数据或所述SAM格式数据中获取关于每个所述断裂读段和每个所述PE读段的FLAG(位标识)及CIGAR(CompactIdiosyncraticGappedAlignmentReport,简要比对信息表达式)字符串的数据。此外,通过用于在所述受检样品中识别靶向基因的碱基序列的靶向测序(targetedsequencing)来生成所述NGS数据。此外,所述受检样品为活检样品或福尔马林固定石蜡包埋(Formalin-fixed,paraffin-embedded,FFPE)样品。根据另一方面,提供一种存储有用于使计算机执行所述方法的程序的计算机可读存储介质。根据又一方面,用于分析基因的装置包括:读段分析部,从受检样品的下一代测序(NGS)数据中获取关于断裂读段(splitreads)及比对不一致(discordantly)的PE(paired-end,双端)读段的数据;以及易位识别部,利用所述断裂读段和所述PE读段来提取所述受检样品的有可能存在染色体内易位(translocation)的第一候选基因对,并且以所述断裂读段所呈现的断点(breakpoints)和所述第一候选基因对的融合(fusion)方向为基础,在所述第一候选基因对中识别易位基因。此外,所述易位识别部在所提取的第一候选基因对中提取第二候选基因对,所述第二候选基因对包含与具有属于相同的覆盖度的断点的多个断裂读段进行比对的基因,且所述易位识别部从所提取的第二候选基因对中识别出所述易位基因。此外,关于包含在所提取的第二候选基因对中的所述基因,具有属于所述相同的覆盖度的所述断点的所述断裂读段的个数为规定临界值以上。此外,所述易位识别部在所提取的第二候选基因对中提取彼此不同的基因之间的所述融合方向为从5’端(end)到3’端或从3’端到5’端的第三候选基因对,且所述易位识别部从所提取的第二候选基因对中识别出所述易位基因。此外,所述NGS数据包括BAM(binaryversionofSAM)格式数据或SAM(SequenceAlignment/Map)格式数据。此外,所述读段分析部从所述BAM格式数据或所述SAM格式数据中获取关于每个所述断裂读段和每个所述PE读段的FLAG及CIGAR(CompactIdiosyncraticGappedAlignmentReport,简要比对信息表达式)字符串的数据。此外,通过用于在所述受检样品中识别靶向基因的碱基序列的靶向测序(targetedsequencing)来生成所述NGS数据。此外,所述受检样品为活检样品或福尔马林固定石蜡包埋(Formalin-fixed,paraffin-embedded,FFPE)样品。专利技术效果根据上述内容,能够更准确地分析在从受检体的受检样品中提取到的受检基因中是否存在易位基因。附图说明图1是用于说明一实施例所涉及的基因分析装置的图。图2是表示一实施例所涉及的基因分析装置的硬件结构的方框图。图3是用于说明一实施例所涉及的PE读段的图。图4是根据一实施例用于说明比对不一致的PE读段的图。图5是用于说明一实施例所涉及的断裂读段的图。图6是用于说明一实施例所涉及的将从受检体的活检样品中获取到的读段与参照基因数据进行比较的IGV(IntegrativeGenomicsViewer,基因组浏览器)屏幕截图的图。图7是一实施例所涉及的将从受检体的FFPE样品中获取到的读段与参照基因数据进行比较的IGV屏幕截图的图。图8是根据一实施例通过由易位识别部提取候选基因对而识别易位基因的方法的流程图。图9是用于说明根据一实施例利用断裂读段的断点来提取第二候选基因对的图。图10是用于说明根据一实施例利用融合方向的适当性来提取第三候选基因对的图。图11是用于说明根据一实施例而识别出EML4(echinodermmicrotubule-associatedprotein-like4,棘皮动物微管结合蛋白4)及ALK(anaplasticlymphomakinase,间变性淋巴瘤激酶)的易位基因的结果的图。图12是根据一实施例而分析基因的方法的流程图。图13是表示一实施例所涉及的计算装置的硬件结构的方框图。具体实施方式根据一方面,用于分析基因的方法包括以下步骤:从受检样品的下一代测序(N本文档来自技高网...
用于分析基因的方法及装置

【技术保护点】
一种用于分析基因的方法,包括以下步骤:从受检样品的下一代测序数据中获取关于断裂读段及比对不一致的双端读段的数据;利用所述断裂读段和所述双端读段来提取所述受检样品的有可能存在染色体内易位的第一候选基因对;以及以所述断裂读段所呈现的断点和所述第一候选基因对的融合方向为基础,在所述第一候选基因对中识别易位基因。

【技术特征摘要】
【国外来华专利技术】2015.06.24 KR 10-2015-00894481.一种用于分析基因的方法,包括以下步骤:从受检样品的下一代测序数据中获取关于断裂读段及比对不一致的双端读段的数据;利用所述断裂读段和所述双端读段来提取所述受检样品的有可能存在染色体内易位的第一候选基因对;以及以所述断裂读段所呈现的断点和所述第一候选基因对的融合方向为基础,在所述第一候选基因对中识别易位基因。2.根据权利要求1所述的方法,其中,所述识别包括:在所提取的第一候选基因对中提取第二候选基因对,所述第二候选基因对包含与具有属于相同的覆盖度的断点的多个断裂读段进行比对的基因,其中,从所提取的第二候选基因对中识别出所述易位基因。3.根据权利要求2所述的方法,其中,关于包含在所提取的第二候选基因对中的所述基因,具有属于所述相同的覆盖度的所述断点的所述断裂读段的个数为规定临界值以上。4.根据权利要求2所述的方法,其中,所述识别包括:在所提取的第二候选基因对中提取彼此不同的基因之间的所述融合方向为从5’端到3’端或从3’端到5’端的第三候选基因对,其中,从所提取的第二候选基因对中识别出所述易位基因。5.根据权利要求1所述的方法,其中,所述下一代测序数据包括二进制序列比对/映射格式数据或序列比对/映射格式数据。6.根据权利要求5所述的方法,其中,在所述获取中,从所述二进制序列比对/映射格式数据或所述序列比对/映射格式数据中获取关于每个所述断裂读段和每个所述双端读段的位标识及简要比对信息表达式字符串的数据。7.根据权利要求1所述的方法,其中,通过用于在所述受检样品中识别靶向基因的碱基序列的靶向测序来生成所述下一代测序数据。8.根据权利要求1所述的方法,其中,所述受检样品为活检样品或福尔马林固定石蜡包埋样品。9.一种计算机可读存储介...

【专利技术属性】
技术研发人员:朴熊洋慎玹锐金奈映
申请(专利权)人:社会福祉法人三星生命公益财团
类型:发明
国别省市:韩国,KR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1