The invention relates to a method for fusion gene detection based on transcriptome sequencing data, which comprises the following steps: S1: two generation transcriptome sequencing and transcriptome sequencing of three samples, two generation transcriptome sequencing data and three generation transcriptome sequencing data were obtained; S2: To compare the three generation transcriptome sequencing the data and reference genome, identification of possible fusion gene FLNC may be involved in the reading order and fusion gene, sequence extraction might have a genetic fusion of the FLNC reads, and determine the fusion position; S3: the two generation transcriptome sequencing data comparison to the possible fusion gene FLNC sequence from S2 read in order to read the log consistency in pairs and in combination with the number of non reading order according to the comparison result, the number and the possible gene fusion of FLNC reads, identification fusion happened Gene pair. The fusion gene is detected by the combination of the three generation transcriptome sequencing and the two generation transcriptome sequencing, and the fusion gene detection results of the combination of the two generation and the second generation sequencing are more reliable.
【技术实现步骤摘要】
本专利技术涉及转录组分析领域,更特别地,涉及一种基于转录组测序数据检测融合基因的方法。
技术介绍
基因重排是生物体中遗传物质之间时有发生的现象,由于基因重排常常导致原本不在一个顺反子下的一个或多个基因或基因片段形成融合基因,并作为一个顺反子转录,这将导致某些基因的活化、失活或产生新功能。许多疾病的发生都伴随有融合基因现象,例如,白血病常伴随有bcr/abl、AML1/ETO、CBFβ/MYH11、PML/RARα等融合基因,多种实体瘤中也发现融合基因,非小细胞肺癌中有EML4-ALK,前列腺癌中有SLC45A3-ELK4,横纹肌肉瘤中有PAX3-FOXO1等等。科学研究发现,一些融合基因参与了相关疾病的致病过程,因此,这些融合基因的检测可作为诊断标准之一,甚至可将其作为治疗靶点。目前,对融合基因的检测一般基于对二代转录组测序数据进行分析来得到。其主要通过比对两种类型的读序(reads)来进行。一种为非一致成对读序(discordantpaired-endreads,即,成对的reads分别比对到参与融合的5’伴侣基因和3’伴侣基因),另一种为结合读序(junctionreads,即,reads的比对跨越了融合位点)。通过鉴定这两类读序的支持情况,可检测出转录产物中的融合基因。目前基于这类方法已经开发出来的软件很多,包括SOAPfusion、Defuse、SOAPfuse、FusionCatcher、FusionMap、Tophat-fusion、ChimeraScan、Star-fusion等。但是由于转录组的复杂性和二代RNA-seq测序读序读长的限制 ...
【技术保护点】
一种基于转录组测序数据检测融合基因的方法,其特征在于,包括以下步骤:S1:对样本进行二代转录组测序和三代转录组测序,分别得到二代转录组测序数据和三代转录组测序数据;S2:将所述三代转录组测序数据与参考基因组进行比对,鉴定可能发生了基因融合的FLNC读序以及可能参与融合的基因对,提取所述可能发生了基因融合的FLNC读序的序列,并判断融合位置;S3:将所述二代转录组测序数据比对到S2中得到的可能的融合基因FLNC读序,根据比对结果中非一致性成对读序的对数和结合读序的个数,以及所述可能发生了基因融合的FLNC读序的个数,鉴定确实发生了融合的基因对。
【技术特征摘要】
1.一种基于转录组测序数据检测融合基因的方法,其特征在于,包括以下步骤:S1:对样本进行二代转录组测序和三代转录组测序,分别得到二代转录组测序数据和三代转录组测序数据;S2:将所述三代转录组测序数据与参考基因组进行比对,鉴定可能发生了基因融合的FLNC读序以及可能参与融合的基因对,提取所述可能发生了基因融合的FLNC读序的序列,并判断融合位置;S3:将所述二代转录组测序数据比对到S2中得到的可能的融合基因FLNC读序,根据比对结果中非一致性成对读序的对数和结合读序的个数,以及所述可能发生了基因融合的FLNC读序的个数,鉴定确实发生了融合的基因对。2.根据权利要求1所述的方法,其特征在于,S2包括以下步骤:S2.1:将所述三代转录组测序数据与参考基因组注释文件进行比对,得到分段比对到参考基因组上两个不同位置的FLNC读序;S2.2:判断所述参考基因组上两个不同位置以及所述FLNC读序上与所述两个不同位置对应的片段是否满足融合基因判定条件,当满足所有所述融合基因判定条件时,则将所述FLNC判定为可能发生了基因融合的FLNC读序并得到可能参与融合的基因对,提取所述可能发生了基因融合的FLNC读序的序列,并判断融合位置。3.根据权利要求2所述的方法,其特征在于,所述融合基因判定条件为:1)所述参考基因组上的两个不同位置分别对应所述FLNC读序的5’片段和3’片段;2)所述5’片段和3’片段在所述FLNC读序上的位置满足不超过最大重叠长度和最大间隔长度,并且不小于最小总长度;3)所述5’片段和3’片段在...
【专利技术属性】
技术研发人员:程艳兵,
申请(专利权)人:武汉菲沙基因信息有限公司,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。