一种基因融合检测方法技术

技术编号:38044797 阅读:14 留言:0更新日期:2023-06-30 11:11
本发明专利技术公开了一种基因融合检测方法,包括:步骤S1,将待测样品的测序数据与参考基因组进行比对,判断是否存在比对异常,得到若干异常比对序列;步骤S2,拼接端部具有重叠片段的异常比对序列,直至所有异常比对序列的端部之间均不存在重叠片段;步骤S3,将步骤S2已经拼接完成的测序序列比对到参考基因组上,如果该拼接测序序列仍然比对异常,则判断待测样品发生了基因融合突变,反之则待测样品未发生基因融合突变。本发明专利技术率先提出将定位于相同位置或者临近的位置的测序序列拼接延长来检测基因融合的方法,并结合参与融合基因的序列结构分析,对融合基因是否有意义做出分析和判断。对融合基因是否有意义做出分析和判断。对融合基因是否有意义做出分析和判断。

【技术实现步骤摘要】
一种基因融合检测方法


[0001]本专利技术涉及生物信息学领域,具体涉及一种基因融合检测方法。

技术介绍

[0002]融合基因是指正常染色体发生了易位,产生的包含2个或2个以上基因序列的嵌合体。融合基因是肿瘤基因组中的一种常见变异,很多融合基因是癌症发展的驱动变异,对肿瘤的发生、发展有重要作用。由于肿瘤细胞有很强的异质性,病人的不同癌细胞可能会有不同的变异,准确检测肿瘤基因变异对研究肿瘤细胞的起源、进化、抗药性乃至肿瘤的治疗都有重要的意义。
[0003]目前检测基因融合的方法存在各种问题,主要包括:
[0004]①
免疫组化(IHC)检测,免疫组化检测结果准确性较低,与RT

PCR相比,免疫组化检测结果易出现假阳性、假阴性。
[0005]②
逆转录聚合酶链反应(RT

PCR)检测,RT

PCR检测需要针对融合基因设计引物,因而只能用于鉴定已知类型的基因融合,不能检测未知的基因融合。
[0006]③
荧光原位杂交(FISH)检测,FISH是检测融合基因的金标准,它的优点在于敏感性好,并且检测时无需考虑融合类型;但FISH的试剂盒价格昂贵,同时病理结果图片还需要经过专业培训后的病理医生进行判读。

技术实现思路

[0007]本专利技术的目的是提供一种高准确性的基因融合检测方法,解决现有融合基因检测不准确的技术问题。
[0008]为了达到上述目的,本专利技术提供了一种基因融合检测方法,包括如下步骤:
[0009]步骤S1,将待测样品的测序数据与参考基因组进行比对,判断是否存在比对异常,得到若干异常比对序列;;
[0010]步骤S2,拼接端部具有重叠片段的异常比对序列,直至所有异常比对序列的端部之间均不存在重叠片段;
[0011]步骤S3,将步骤S2已经拼接完成的测序序列比对到参考基因组上,如果该拼接测序序列仍然比对异常,则判断待测样品发生了基因融合突变,反之则待测样品未发生基因融合突变。
[0012]优选地,步骤S3后还包括对融合基因进行功能预测的步骤,所述对融合基因进行功能预测的步骤包括:提取参与融合基因的序列进行功能预测,如果该序列表达的蛋白质含有酪氨酸激酶,且酪氨酸激酶区域位于启动子区域之后,则认为该融合基因能够翻译出融合蛋白。
[0013]优选地,上述待测样品的测序数据由高通量测序技术测序得到。
[0014]优选地,上述异常比对序列包括:双端测序中的两条序列在参考基因组中的比对位置间隔大于500bp的序列,和/或,双端测序中的至少一条序列的两端在参考基因组中的
比对位置间隔大于500bp的序列。
[0015]优选地,使用bwa软件将测序数据与参考基因组进行比对。
[0016]优选地,所述序列重叠包括:两条异常比对序列中40个碱基序列内相似度大于90%。
[0017]优选地,在步骤S1前还包括对原始测序数据预处理的步骤,包括:序列质量控制和/或重复序列去除。所述序列质量控制包括:使用fastp软件去除质量低和长度低于50bp的序列。所述重复序列去除包括:使用picard软件去除重复序列。
[0018]优选地,待测样品包括:cfDNA。
[0019]与现有技术相比,本专利技术的有益效果是:
[0020](1)本专利技术率先提出将定位于相同位置或者临近的位置的测序序列拼接延长来检测基因融合的方法,与未拼接序列检测(即,直接检测)相比,拼接后的序列在序列比对时更易观察基因融合位点临近区域的序列,从而更易发现该位点是否确实发生基因融合,提高了检测的灵敏度。
[0021](2)本专利技术采用高通量测序技术对待测样本进行测序,无需针对融合基因设计引物,只需将测序序列与参考基因组进行比对,从而得到在参考基因组中异常比对的测序序列,进而判断该位置是否发生基因融合,因而本专利技术的检测方法可以检测未知的基因融合。
[0022](3)本专利技术对基因融合是否具有临床上的意义做出了预测。主要是通过分析参与基因融合的基因的序列是否具有酪氨酸激酶或酪氨酸激酶结合结构域,并且此区域上游有启动子,保证形成基因融合的序列能够被翻译。
[0023](4)本专利技术方法简单,得到的检测结果无需专业医生判读。
附图说明
[0024]图1为scansite4软件预测EML4

ALK Fusion V1表达蛋白的结果图。
具体实施方式
[0025]以下结合附图和实施例对本专利技术的技术方案做进一步的说明。
[0026]高通量测序技术又称“下一代”测序技术(NGS),能够一次并行对大量核酸分子进行平行序列测定。但现有利用高通量测序技术进行融合基因检测,都是直接使用序列数据与参考基因组比对,在序列比对时,由于测序序列基本是片段化的,在序列比对时具有局限性,不能明确该位点是否发生基因融合,从而在检测结果中发生假阴性和假阳性的概率都较高。
[0027]本专利技术率先提出将定位于相同位置或者临近的位置的序列拼接延长来检测基因融合的方法,拼接后的序列在序列比对时更易观察基因融合位点临近区域的序列,从而更易发现该位点是否确实发生基因融合,与未拼接序列检测相比,提高了检测的灵敏度。
[0028]本专利技术尤其适用于以cfDNA为待测样品融合基因检测。血液中cfDNA是片段化的,与组织中的完整DNA相比,其在基因融合检测时更加不易观察到基因融合位点临近区域的序列,检测结果的假阴性概率更高,具体如下:
[0029]对于发生A基因和B基因融合的片段化待测样品,采用现有直接使用NGS数据检测时,由于该序列是较短的片段化序列,因而易发生序列中大部分碱基与B基因匹配,而只有
几个碱基与A基因匹配现象。由于与A基因配对的长度较短,因而软件在将数据与参考基因组比对时,显示测序序列不能与A基因配对,从而在软件判断时,判断为该待测样品未发生基因融合,导致假阴性。而采用本专利技术的方法,将测序序列A基因匹配一端延长,使得该序列有较多与A基因配对的碱基,使得匹配的A基因能够被检测到,实现该序列与A基因的配对,从而在软件判断时,该序列在参考基因组中的异常比对,即,该序列既与A基因匹配,又与B基因匹配,从而判断为该待测样品发生基因融合,减少了假阴性结果的发生。
[0030]本专利技术还适用于检测重复片段较多的DNA序列,对于此类DNA序列,在序列比对时由于含有较多的重复序列,因而在序列比对时容易将临近的序列比对到较远的位置,发生假阳性的结果,具体如下:
[0031]对应重复片段较多的待测样品,序列的一端匹配到A基因上,另一端匹配到B基因上,仅是由于B基因临近区段与A基因的部分序列较为相似(如重复序列较多区段),采用现有直接使用NGS数据检测时,检测结果是A基因与B基因发生融合,而实际上,A基因和B基因未发生融合,即检测结果为假阳性。采用本专利技术的方法将测序序列延长,可以具体观察到B基因临近区段较长部分的序列,因而可以观测到本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基因融合检测方法,其特征在于,包括如下步骤:步骤S1,将待测样品的测序数据与参考基因组进行比对,判断是否存在比对异常,得到若干异常比对序列;步骤S2,拼接端部具有重叠片段的异常比对序列,直至所有异常比对序列的端部之间均不存在重叠片段;步骤S3,将步骤S2已经拼接完成的测序序列比对到所述参考基因组上,如果该拼接测序序列仍然比对异常,则判断待测样品发生了基因融合突变,反之则待测样品未发生基因融合突变。2.如权利要求1所述的基因融合检测方法,其特征在于,待测样品的测序数据由高通量测序技术测序得到。3.如权利要求1所述的基因融合检测方法,其特征在于,所述异常比对序列包括:双端测序中的两条序列在参考基因组中的比对位置间隔大于500bp的序列,和/或双端测序中的至少一条序列的两端在参考基因组中的比对位置间隔大于500bp的序列。4.如权利要求1所述的基因融合检测方法,其特征在于,步骤S1中,使用bwa软件将测序数据与参考基因组进行比对。5.如权利...

【专利技术属性】
技术研发人员:朱智东蔡微菁严令华
申请(专利权)人:上海桐树生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1