System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于生物信息分析领域,特别是涉及分析突变是否位于同一基因单倍型的方法和装置。
技术介绍
1、目前用于肿瘤患者的一线、二线和辅助治疗的药物能够显著改善肿瘤患者的预后。尽管疗效显著,但耐药不可避免地出现,并导致疾病进展。例如,egfr c797x是非小细胞肺癌(nsclc)患者在接受奥希替尼治疗后常见的靶内耐药突变。既往研究表明,不同突变是否位于相同等位基因直接影响患者治疗方案。例如,携带egfr c797s突变,无egfr t790m突变的患者对一代和二代egfr-tkis敏感,同时携带egfr t790m和egfr c797s突变且二者位于不同单倍型的患者使用一代和三代egfr-tkis联合治疗。同时携带egfr t790m和egfrc797s突变且二者位于相同单倍型将会对一代、二代和三代egfr-tkis单药耐药,需要使用新型研究中的单药或药物联合方案治疗。因此判断不同突变是否位于同一基因单倍型对于患者治疗方案的确定非常关键。
2、基于sanger测序技术直接检测步骤繁杂、耗费时间较长以及检出突变频率要求较高。基于ngs的方法可以同时快速、准确的检出。然而,临床样本ngs分析时,为避免过滤掉有意义的阳性突变,突变检测软件(如freebayes、vardict、varscan、mutect2)通常会放宽检测的阈值,扩大检测到的突变数量。突变检测质控阈值放宽会引入假阳性的突变,因此有大量的突变位点需要人工检验。人工审核具有很多局限性,例如:(1)不同人审核相同样本,容易出现主观性误判;(2)审核人员培训成本较
3、因此,目前仍需要一种基于多基因检测的同时准确、快速的识别突变是否位于同一基因单倍型的方法和装置,从而为肿瘤患者的精准治疗提供指导。
技术实现思路
1、为解决上述现有技术中的至少部分技术问题,本专利技术提供一种分析突变是否位于同一基因单倍型的方法和装置,本专利技术的方法通过多等位位点拆分、hgvs矫正、位点自动化审核,得到待分析突变位点各自支持读段的集合,进一步通过确定集合的差集和交集,实现突变是否位于同一基因单倍型的准确判定。具体地,本专利技术包括以下内容。
2、本专利技术的第一方面,提供一种分析突变是否位于同一基因单倍型的方法,其包括以下步骤:
3、(1)以突变结果文件、样本比对结果文件、基因的转录本文件和待分析突变位点信息为输入参数进行多等位位点拆分,得到拆分后的突变结果文件;
4、(2)对所述拆分后的突变结果文件进行hgvs矫正,得到矫正后数据;
5、(3)对所述矫正后数据进行位点自动化审核,得到待分析突变位点各自支持读段的集合;
6、(4)确定所述集合的差集和交集,如果交集中支持读段的数量大于等于3并且大于等于所有差集支持读段的数量的最小值,则判定待分析突变位于同一基因单倍型,否则判定为突变不位于同一基因单倍型。
7、本专利技术中,待分析突变位点包括任何突变位点间的距离小于测序读段长度的至少两个突变,这样的突变包括点突变、插入突变或缺失突变。可以理解,突变可以是同一基因上测序读段长度内多于2个位点的突变,例如3、4个位点的突变。以egfr为例,可以联合egfr基因上t790m、l792h、g796r和c797s等突变中的两种或多种确定其是否位于同一基因单倍型。
8、在某些实施方案中,根据本专利技术所述的方法,其中,所述突变包括至少两个位点的突变,且所述位点间的距离小于150bp,优选小于145bp,还优选小于140bp,进一步优选小于135bp,更优选小于130bp,例如小于130、125、120、115、110、105、100、95、90、85、80、75、70、65、60、55、50、45、40、35、30、25、20bp。
9、在某些实施方案中,根据本专利技术所述的方法,其中,所述样本包括肿瘤组织样本或流体样本,流体样本包括但不限于血液、滑膜液和脑脊液等,含ctdna的上述组织或流体样本是优选的。
10、在某些实施方案中,根据本专利技术所述的方法,其中,所述多等位位点拆分包括:
11、(i)将所述突变结果文件中以分隔符隔开的检测样本基因组序列的等位基因拆分成多行;
12、(ii)根据拆分后的检测样本基因组序列的碱基与参考(ref)碱基的差异对检测样本基因组序列的碱基进行矫正,得到矫正后碱基信息;
13、(iii)根据所述矫正后检测样本基因组序列的碱基信息和参考碱基信息,对突变位点的物理位置进行矫正;
14、进一步包括(iv):拆分突变的注释信息。
15、在某些实施方案中,根据本专利技术所述的方法,其中,所述注释信息包括等位基因平衡、等位基因平衡概率、所有突变等位基因的总数、等位基因频率、特定突变等位基因支持读段数、特定突变等位基因的cigar值、特定突变等位基因深度比值、末端定位概率、特定突变等位基因长度、突变等位基因反向链支持读段数、突变等位基因正向链支持读段数和突变类型。
16、在某些实施方案中,根据本专利技术所述的方法,其中,所述hgvs矫正包括:
17、(a)输入突变检测结果:所述突变检测结果包含突变的类型、位置和参考序列;
18、(b)突变分类:对所述突变检测结果进行分类,以区分为c点突变和p点突变;
19、(c)进行c点突变矫正;
20、(d)进行p点突变矫正;
21、(e)进行突变注释。
22、在某些实施方案中,根据本专利技术所述的方法,其中,所述c点突变矫正包括:
23、识别cdna序列:根据参考基因组和转录本信息确定cdna序列;
24、突变映射:将测序读段映射到cdna序列上,确定突变的确切位置;
25、剪接位点分析:检查突变是否位于剪接位点或剪接位点附近;
26、编码区分析:确定突变是否位于编码区,并分析其对编码序列的影响。
27、在某些实施方案中,根据本专利技术所述的方法,其中,所述p点突变矫正包括:
28、蛋白质序列确定:根据所述cdna序列翻译成蛋白质序列;
29、突变效应预测:分析突变对蛋白质序列的影响;
30、功能域分析:确定突变是否发生在蛋白质的功能域或结构域上;
31、遗传密码子表矫正:矫正突变注释错误。
32、在某些实施方案中,根据本专利技术所述的方法,其中,所述自动化审核包括:
33、(1’)确定支持位点的读段比对质量高于30;
34、(2’)确定突变碱基质量高于20;
35、(3’)确定突变位置不位于读段末端;
36、(4’)确定读段的编辑距离标签小于4;
37、(5’)确定不存在正负链偏好并且突变位点不处于基因组重复区域。
38、本专利技术中本文档来自技高网...
【技术保护点】
1.一种分析突变是否位于同一基因单倍型的方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的分析突变是否位于同一基因单倍型的方法,其特征在于,所述突变包括至少两个位点的突变,所述位点间的距离小于测序读段长度。
3.根据权利要求1所述的分析突变是否位于同一基因单倍型的方法,其特征在于,所述样本包括肿瘤组织样本或流体样本。
4.根据权利要求1所述的分析突变是否位于同一基因单倍型的方法,其特征在于,所述多等位位点拆分包括将所述突变结果文件中以分隔符隔开的检测样本基因组序列的等位基因拆分成多行的步骤,其中,根据拆分后的检测样本基因组序列的碱基与参考碱基的差异对检测样本基因组序列的碱基进行矫正,得到矫正后碱基信息,根据所述矫正后检测样本基因组序列的碱基信息和参考碱基信息,对突变位点的物理位置进行矫正;
5.根据权利要求1所述的分析突变是否位于同一基因单倍型的方法,其特征在于,所述HGVS矫正包括:
6.根据权利要求4所述的分析突变是否位于同一基因单倍型的方法,其特征在于,所述c点突变矫正包括:
7.根据权利要求1
8.分析突变是否位于同一基因单倍型的装置,其特征在于,包括:
9.计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法的步骤。
10.电子设备,其特征在于,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法的步骤。
...【技术特征摘要】
1.一种分析突变是否位于同一基因单倍型的方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的分析突变是否位于同一基因单倍型的方法,其特征在于,所述突变包括至少两个位点的突变,所述位点间的距离小于测序读段长度。
3.根据权利要求1所述的分析突变是否位于同一基因单倍型的方法,其特征在于,所述样本包括肿瘤组织样本或流体样本。
4.根据权利要求1所述的分析突变是否位于同一基因单倍型的方法,其特征在于,所述多等位位点拆分包括将所述突变结果文件中以分隔符隔开的检测样本基因组序列的等位基因拆分成多行的步骤,其中,根据拆分后的检测样本基因组序列的碱基与参考碱基的差异对检测样本基因组序列的碱基进行矫正,得到矫正后碱基信息,根据所述矫正后检测样本基因组序列的碱基信息和参考碱基信息,对突变位点的物理位置进行矫正;
...【专利技术属性】
技术研发人员:李致伟,张美俊,封彦杰,辛瑶,王鹏辉,田埂,
申请(专利权)人:元码基因科技北京股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。