一种结构变异的检测方法技术

技术编号:24614969 阅读:39 留言:0更新日期:2020-06-24 01:55
本发明专利技术公开了一种结构变异的检测方法,所述方法同时支持RNA和DNA的结构变异识别,灵敏度高,特异性高,速度快,资源消耗小。本发明专利技术还提供了基于所述方法建立的成套系统或装置、计算机可读存储介质和设备。

A detection method of structural variation

【技术实现步骤摘要】
一种结构变异的检测方法
本专利技术属于基因检测
,具体涉及一种结构变异的检测方法及其相关的系统、装置、计算机可读存储介质、设备。
技术介绍
起源于基因组内部的结构变异,包括同一条染色体内部的缺失,倒位,复制,以及不同染色体之间的异常连接。无论是哪种事件造成,其结果往往表现出两个基因的不同部分物理上连接到一起,转录以后,可以在转录水平上得到一个由两个不同基因的转录本的一部分构成的一个新的转录本。这些结构变异基因在癌症的发生发展过程中具有重要的科学意义,对于研究肿瘤的发生发展机理,肿瘤的治疗和监控具有极其重要的医学价值。例如BCR->ABL在血液肿瘤和膀胱癌,肺癌,恶性胶质瘤等肿瘤中广泛存在,FGFR3->TACC3主要出现在膀胱癌、宫颈鳞癌与宫颈腺癌中,EML4->ALK主要出现在肺癌中。基于二代测序技术手段的结构变异检测技术已经出现较长时间了,主要是通过对目标区域或者全基因组进行测序,对测序得到的序列进行分析来判断结构变异的发生与否。DNA水平的检测主要是通过将测序得到的数据比对到基因组上,根据比对的读段是否发生了断裂比对,也就是读段的两部分分别比对到基因组的不同位置,来搜集可能支持结构变异发生事件的证据,如果发生了断裂比对,则进一步对发生断裂比对的读段两部分进行分析,根据两部分比对的位置,链向来反推结构变异发生的起因,计算结构变异发生的结果。如果是双端测序,同一个模版经过测序会有两条读段产生,则可以根据两条配对的读段的比对情况是否异常收集支持结构变异的异常读段对,正常情况下两条读段应该一条比对到基因组的正链,一条比对到基因组的负链,且从核酸的转录方向看,是一致的,且插入片段长度在合理分布范围之内,如果两条读段来自结构变异基因的两部分,则会出现方向不正常,或者隐含的插叙片段长度不正常,但是目前发布的诸多方法存在计算时间长,灵敏度低,假阳性高,无注释模块等缺点。RNA水平的检测往往需要借助基因组和转录组两大参考序列的比对,通过转录组比对,然后将坐标映射到基因组,再通过读段的比对特征,参考DNA计算的判断方法,推导出结构变异事件发生的机理,计算出发生结构变异的类型和基因,这种技术方案不仅耗费资源过高,且受到内含子干扰往往导致计算不准确,假阳性和假阴性都比较多,计算结果往往也缺乏注释,使用极不方便。
技术实现思路
本专利技术的目的之一是针对现有技术存在的缺陷,提供一种同时支持RNA和DNA的结构变异识别,灵敏度高,特异性高,速度快,资源消耗小的结构变异检测方法。为了实现以上目的,本专利技术提供了一种结构变异的检测方法,所述检测方法包含以下步骤:1)将测序数据比对至参考基因组序列或参考主转录本序列;2)寻找正常比对读段(read)、发生断裂比对的读段和不一致比对读段对;3)对发生断裂比对的读段和不一致比对读段对进行分类;4)分别对不同类别的断裂比对读段和不一致比对读段对进行分组,将支持同一个结构变异事件的读段归入同一个集合;5)对于由断裂比对读段确定的结构变异事件,通过对支持该结构变异事件的读段进行组装形成保守序列;6)基于保守序列确定精确的断点位置;7)分别对断裂比对读段支持的结构变异和不一致比对读段对支持的结构变异进行合并,所述合并是指将断点相近、类型相同的结构变异事件合并为同一个结构变异事件;8)将断点相近、类型相同的断裂比对读段支持的结构变异与不一致比对读段对支持的结构变异合并;9)删除保守序列能够完整的连续匹配到基因组上一段序列或者能够发生多处一致性比对的结构变异事件;10)计算结构变异事件频率。在一个具体实施方案中,步骤1)中,如果测序数据为DNA数据,则将其比对至参考基因组序列;如果测序数据为RNA数据,则将其比对至参考主转录本序列。在一个具体实施方案中,步骤2)中还包含通过所述正常比对读段统计插入片段长度、计算插入片段长度分布的主要参数的步骤;所述主要参数优选最大值、最小值和/或均值。在一个具体实施方案中,步骤3)中,发生断裂比对的读段的分类可以基于以下指标进行:发生断裂比对的两部分是否比对到同一条染色体、是否比对到基因组的不同方向和/或是否剪切位置都在比对位置的上游。在一个具体实施方案中,步骤3)中,发生断裂比对的读段可以按照下表标准分类:在一个具体实施方案中,步骤3)中,不一致比对读段对的分类可以基于以下指标进行:是否比对到同一条染色体、是否比对到基因组的不同方向和/或插入片段大小。在一个具体实施方案中,步骤3)中,不一致比对读段对可以按照下表标准分类:在一个具体实施方案中,可以利用SA标签寻找发生断裂比对的读段和/或不一致比对读段对。在一个具体实施方案中,识别断裂比对的读段时,如果部分比对到其他地方,则不予计算。在一个具体实施方案中,识别断裂比对的读段时,可以将来自同一个比对读段的断裂比对记录作为一个实体进行考虑。在一个具体实施方案中,步骤4)中,所述分组可以通过聚类分析进行。优选地,对断裂比对读段进行聚类的标准包括结构变异类型、断裂比对读段两部分比对的参考序列名称、第一个断裂点位置和/或第二个断裂点位置。进一步地,将结构变异类型相同、比对参考序列名相同、并且第一和第二断裂点位置相距m个碱基以内的读段作为一类,其中,m为30以内的自然数,优选10。进一步地,如果一类中的读段支持数高于预先设定的阈值(该阈值选自1以上的自然数),则使用该类中的所有读段断点位置信息取均值得到平均断点位置。优选地,对不一致比对读段对进行聚类的标准包括结构变异类型、读段比对的参考序列名、配对读段比对的参考序列名、读段比对位置和/或配对读段比对的位置。进一步地,将比对参考序列名相同、并且比对位置差别在最大插入片段大小范围以内的读段作为一类。进一步地,如果一类中的读段支持数高于预先设定的阈值(该阈值选自1以上的自然数,优选为2),则使用该类中的读段对所确定的断点范围来估计断点位置;优选地,根据读段对的比对起始位置和终止位置,采用渐进方法不断缩小断点位置所在区间来估计断点位置。在一个具体实施方案中,步骤5)中,所述组装可通过多重序列比对进行。在一个具体实施方案中,步骤5)中,还包含对参与组装的序列进行解析重构的步骤,所述解析重构包括:提取出断点附近的短的插入序列和/或将序列方向调整为读段5’端与参考序列方向一致。在一个具体实施方案中,步骤6)中,将保守序列与参考断点序列进行比对,根据断裂比对发生的位置,确定精确的断点位置;所述参考断点序列包含两部分,一部分来自于跨越结构变异事件的一个断点的参考序列,另一部分来自于跨越结构变异事件的另一个断点的参考序列。在一个具体实施方案中,步骤7)中,合并时保留支持数更高的结构变异事件。在一个具体实施方案中,步骤7)中,对于断裂比对读段支持的结构变异事件,进行合并的条件包括断点距本文档来自技高网
...

【技术保护点】
1.一种结构变异的检测方法,其特征在于,所述检测方法包含以下步骤:/n1)将测序数据比对至参考基因组序列或参考主转录本序列;/n2)寻找正常比对读段(read)、发生断裂比对的读段和不一致比对读段对;/n3)对发生断裂比对的读段和不一致比对读段对进行分类;/n4)分别对不同类别的断裂比对读段和不一致比对读段对进行分组,将支持同一个结构变异事件的读段归入同一个集合;/n5)对于由断裂比对读段确定的结构变异事件,通过对支持该结构变异事件的读段进行组装形成保守序列;/n6)基于保守序列确定精确的断点位置;/n7)分别对断裂比对读段支持的结构变异和不一致比对读段对支持的结构变异进行合并,所述合并是指将断点相近、类型相同的结构变异事件合并为同一个结构变异事件;/n8)将断点相近、类型相同的断裂比对读段支持的结构变异与不一致比对读段对支持的结构变异合并;/n9)删除保守序列能够完整的连续匹配到基因组上一段序列或者能够发生多处一致性比对的结构变异事件;/n10)计算结构变异事件频率。/n

【技术特征摘要】
1.一种结构变异的检测方法,其特征在于,所述检测方法包含以下步骤:
1)将测序数据比对至参考基因组序列或参考主转录本序列;
2)寻找正常比对读段(read)、发生断裂比对的读段和不一致比对读段对;
3)对发生断裂比对的读段和不一致比对读段对进行分类;
4)分别对不同类别的断裂比对读段和不一致比对读段对进行分组,将支持同一个结构变异事件的读段归入同一个集合;
5)对于由断裂比对读段确定的结构变异事件,通过对支持该结构变异事件的读段进行组装形成保守序列;
6)基于保守序列确定精确的断点位置;
7)分别对断裂比对读段支持的结构变异和不一致比对读段对支持的结构变异进行合并,所述合并是指将断点相近、类型相同的结构变异事件合并为同一个结构变异事件;
8)将断点相近、类型相同的断裂比对读段支持的结构变异与不一致比对读段对支持的结构变异合并;
9)删除保守序列能够完整的连续匹配到基因组上一段序列或者能够发生多处一致性比对的结构变异事件;
10)计算结构变异事件频率。


2.根据权利要求1所述的检测方法,其特征在于,步骤2)中还包含通过所述正常比对读段统计插入片段长度、计算插入片段长度分布的主要参数的步骤;所述主要参数优选最大值、最小值和/或均值。


3.根据权利要求1-2任一项所述的检测方法,其特征在于,利用SA标签寻找发生断裂比对的读段和/或不一致比对读段对。


4.根据权利要求1-3任一项所述的检测方法,其特征在于,步骤8)中,进行合并的条件包括一个断裂比对读段支持的结构变异事件的断点与另一个类型相同的不一致比对读段对支持的结构变异事件的断点距离在最大插入序列长度之内。


5.根据权...

【专利技术属性】
技术研发人员:伍林军白健茹兰兰郑璐
申请(专利权)人:福建和瑞基因科技有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1