System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及面向长读长rna-seq测序数据的融合基因检测方法。
技术介绍
1、基因融合通常指由于某种原因(如染色体结构变异)使得两个以上的不同基因连接起来,形成了一个新的基因的过程,而这种基因通常被称为融合基因,这些不同基因的链接处一般称为断点。通常情况下,融合可能通过编码蛋白来改变蛋白功能,从而刺激肿瘤发生。过去的医学研究表明,基因融合驱动了16.5%的人类癌症,并在超过1%的癌症中发挥了唯一驱动作用。在基因序列的层面上,融合可以通过改变肿瘤抑制因子或原癌基因表达导致细胞癌变;在基因表达的层面上,融合还可以通过表达出的融合蛋白使蛋白质功能发生转变,从而导致癌变的发生。
2、在过去的20年中,第二代测序(ngs)技术大大增强了rna-seq实验的可扩展性和成本效益。但有限的读长和系统偏差阻碍了准确的测序片段比对和精确的基因亚型分析。但受限于测序长度,ngs数据难以覆盖发生在转录本中的变异,以至于在融合基因检测的过程中无法确定断点的位置。
3、而近些年,pacific biosciences(pacbio)单分子实时测序和oxford nanoporetechnologies(ont)测序等长读长测序技术提供了更长的测序片段长度,能够生成全长转录本,并解决选择性剪接事件和复杂转录本结构带来的挑战。相比于第二代测序技术,第三代测序技术产生的测序片段拥有更长的读长,最长甚至可以超过1mbp,同时平均长度也可以达到10kbp,因此它们可以覆盖到很长的基因组区域。但相对于第二代测序的高精度,第三代测序技术的错误
4、对于长读长的测序数据,基于参考序列的比对方法相较于直接的聚类方法更具优势。因此,基于在参考基因组上的比对结果的方法是当前融合基因检测的主流设计。现有的基于长读长rna-seq的融合基因检测工具主要有longgf,genion,fusionseeker,jaffal。其中,除了jaffal是基于在转录本上的比对进行过滤,其他的工具都是在基于参考基因组的比对基础上进行过滤。一般的
技术介绍
路线如实例图2所示。
5、在参考序列上的rna比对相对于在参考转录本上的dna比对过程不需要考虑内含子区域,可能会产生较高的假阳性。而且,相较于全基因组上的比对,在转录本上的比对资源占用更少,还能精确找出融合基因对应的转录本。因此基于转录本比对结果过滤的方法要更具优势。而由于jaffal在有些情况下灵敏度过高,产生较多的假阳。
技术实现思路
1、本专利技术的目的是为了解决现有方法在多种人类癌症测序数据上识别融合基因过程计算资源占用过高,识别结果的准确性较低等问题,而提出一种面向长读长rna-seq测序数据的融合基因检测方法。
2、一种面向长读长rna-seq测序数据的融合基因检测方法具体过程为:
3、步骤一:基于基因注释文件对参考序列进行重组,生成仅含转录本序列的重组参考转录本以及重组转录本注释;
4、步骤二:利用开源比对工具minimap2的dna比对模式将待检测测序片段比对到重组参考转录本上,对比对上的待检测测序片段进行过滤,得到过滤后的测序片段;
5、过滤后的测序片段对应的基因组成基因全集g;
6、过滤后的测序片段中包含序列标识符flag;
7、步骤三:在过滤后的测序片段中,寻找融合基因对;
8、步骤四:对每个融合基因对进行断点还原处理,得到断点还原后的每个融合基因对;
9、对断点还原后的每个融合基因对的测序片段按照断点位置进行层次聚类,找出并保留测序片段数大于等于二的聚类簇,每个聚类簇为融合基因对;
10、步骤五:利用开源序列比对工具abpoa对每个聚类簇中的测序片段进行序列比对,输出一致性序列;
11、利用开源比对工具minimap2的rna-seq比对功能,将一致性序列比对到步骤一的参考序列,得到rna-seq比对结果;
12、步骤六:根据rna-seq比对结果,对步骤四得到的融合基因对进行筛选,获得最终的融合基因对。
13、优选地,所述步骤一中基于基因注释文件对参考序列进行重组,生成仅含转录本序列的重组参考转录本以及重组转录本注释;
14、具体过程为:
15、步骤一一:读取基因注释文件,根据需求保留基因注释文件中转录本及保留的转录本对应的外显子的信息;
16、步骤一二:根据步骤一一保留的每个外显子的信息中的起始与结束位置以及参考序列,确定每个外显子的序列,将所有外显子的序列链接起来得到转录本序列;
17、步骤一三:将转录本序列按照染色体连接起来,得到重组参考转录本;
18、记录参考序列上的起始和结束位置,以及重组参考转录本的起始和结束位置,得到重组转录本注释;
19、步骤一四:用minimap2的index功能建立重组参考转录本和参考序列的比对索引。
20、优选地,所述步骤二中对比对上的待检测测序片段进行过滤,得到过滤后的测序片段;
21、具体过程为:
22、步骤二一:根据测序片段的序列长度进行过滤;
23、步骤二二:根据测序片段覆盖的基因数进行过滤;
24、步骤二三:根据步骤二二保留的每个测序片段的边界和对应重组参考转录本的外显子的边界进行过滤,得到过滤后的测序片段。
25、优选地,所述步骤二一中根据测序片段的序列长度进行过滤;
26、具体过程为;
27、将比对上的待检测测序片段中序列长度大于长度阈值的测序片段进行保留;
28、将比对上的待检测测序片段中序列长度小于等于长度阈值的测序片段进行删除。
29、优选地,所述步骤二二中根据测序片段覆盖的基因数进行过滤;
30、具体过程为:
31、根据重组转录本注释,确定步骤二一保留的每个测序片段的序列信息对应的基因;
32、若测序片段的序列信息对应的基因个数大于等于两个,则测序片段保留;
33、若测序片段的序列信息对应的基因个数小于两个,则测序片段删除。
34、优选地,所述步骤二三中根据步骤二二保留的每个测序片段的边界和对应重组参考转录本的外显子的边界进行过滤,得到过滤后的测序片段;
35、具体过程为:
36、1)、计算步骤二二保留的某个测序片段a的起始位置和对应重组参考转录本的外显子的起始位置的距离;
37、2)、计算步骤二二保留的某个测序片段a的起始位置和对应重组参考转录本的外显子的终止位置的距离;
38、3)、计算步骤二二保留的某个测序片段a的终止位置和对应重组参考转录本的外显子的起始位置的距离;
39、4)、计算步骤二二保留的某个测序片段a的终止位置和对应重组参考转录本的外显子的终止位置的距本文档来自技高网...
【技术保护点】
1.一种面向长读长RNA-seq测序数据的融合基因检测方法,其特征在于:所述方法具体过程为:
2.根据权利要求1所述的一种面向长读长RNA-seq测序数据的融合基因检测方法,其特征在于:所述步骤一中基于基因注释文件对参考序列进行重组,生成仅含转录本序列的重组参考转录本以及重组转录本注释;
3.根据权利要求2所述的一种面向长读长RNA-seq测序数据的融合基因检测方法,其特征在于:所述步骤二中对比对上的待检测测序片段进行过滤,得到过滤后的测序片段;
4.根据权利要求3所述的一种面向长读长RNA-seq测序数据的融合基因检测方法,其特征在于:所述步骤二一中根据测序片段的序列长度进行过滤;
5.根据权利要求4所述的一种面向长读长RNA-seq测序数据的融合基因检测方法,其特征在于:所述步骤二二中根据测序片段覆盖的基因数进行过滤;
6.根据权利要求5所述的一种面向长读长RNA-seq测序数据的融合基因检测方法,其特征在于:所述步骤二三中根据步骤二二保留的每个测序片段的边界和对应重组参考转录本的外显子的边界进行过滤,得到过滤后的测
7.根据权利要求6所述的一种面向长读长RNA-seq测序数据的融合基因检测方法,其特征在于:所述步骤三中在步骤二得到的过滤后的测序片段中,寻找融合基因对;
8.根据权利要求7所述的一种面向长读长RNA-seq测序数据的融合基因检测方法,其特征在于:所述步骤四中对每个融合基因对进行断点还原处理,得到断点还原后的每个融合基因对;
9.根据权利要求8所述的一种面向长读长RNA-seq测序数据的融合基因检测方法,其特征在于:所述步骤四二中对断点还原后的每个融合基因对的测序片段按照断点位置进行层次聚类,找出并保留测序片段数大于等于二的聚类簇,每个聚类簇为融合基因对;
10.根据权利要求9所述的一种面向长读长RNA-seq测序数据的融合基因检测方法,其特征在于:所述步骤六中根据RNA-seq比对结果,对步骤四得到的融合基因对进行筛选,获得最终的融合基因对;
...【技术特征摘要】
1.一种面向长读长rna-seq测序数据的融合基因检测方法,其特征在于:所述方法具体过程为:
2.根据权利要求1所述的一种面向长读长rna-seq测序数据的融合基因检测方法,其特征在于:所述步骤一中基于基因注释文件对参考序列进行重组,生成仅含转录本序列的重组参考转录本以及重组转录本注释;
3.根据权利要求2所述的一种面向长读长rna-seq测序数据的融合基因检测方法,其特征在于:所述步骤二中对比对上的待检测测序片段进行过滤,得到过滤后的测序片段;
4.根据权利要求3所述的一种面向长读长rna-seq测序数据的融合基因检测方法,其特征在于:所述步骤二一中根据测序片段的序列长度进行过滤;
5.根据权利要求4所述的一种面向长读长rna-seq测序数据的融合基因检测方法,其特征在于:所述步骤二二中根据测序片段覆盖的基因数进行过滤;
6.根据权利要求5所述的一种面向长读长rna-seq测序数据的融合基因检测方法,其特征在于:所述步骤二三中根据...
【专利技术属性】
技术研发人员:卢振浩,杨宇航,刘亚东,姜涛,王亚东,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。