检测纯合缺失的方法和装置制造方法及图纸

技术编号:31094617 阅读:41 留言:0更新日期:2021-12-01 13:03
本发明专利技术提供了一种检测纯合缺失的方法和装置。该方法包括:获取待测肿瘤样本和对照样本测序数据与参考基因组序列比对得到的比对结果数据;分别统计待测肿瘤样本和对照样本的原始测序深度并进行归一化处理,分别得到待测肿瘤样本的和对照样本的归一化深度DN和PoN;利用PoN建立所有捕获探针的正态分布模型;利用DN初步检测待测肿瘤样本中存在缺失的捕获探针区域;根据如下任意一种情况来判断存在缺失的捕获探针区域为纯合缺失:1)实际深度DI小于等于深度阈值,实际深度DI=样本深度

【技术实现步骤摘要】
检测纯合缺失的方法和装置


[0001]本专利技术涉及基因测序领域,具体而言,涉及一种检测纯合缺失的方法和装置。

技术介绍

[0002]肿瘤组织细胞成分结构复杂,除了肿瘤细胞,还包括基质细胞、免疫细胞、 成纤维细胞、脉管系统和细胞外基质等,共同构成肿瘤微环境。肿瘤纯度是指肿瘤组织中肿瘤细胞所占的比例。因此实际的肿瘤组织测序数据中往往包含未知比例的正常细胞的数据。
[0003]基因的纯合缺失(homozygous deletion,HD)是一类在临床上非常重要的结构变异,与多种肿瘤的预后、靶向药物的敏感性相关。可靠的HD检测结果可以为临床用药以及病情评估等提供十分重要的依据。
[0004]目前临床上没有专门的HD检测方法或者技术,HD的检测一般归类于基因的拷贝数变异(Copy Number Variation,CNV)检测。CNV目前的常用检测平台和金标准是基因芯片(microarray),其他技术包括基于PCR、免疫组化的实验手段(如FISH,IHC等)、高通量测序(NGS)等。基于实验的方法通常单次检测仅可覆盖一个基因,且检测结果灵敏度较低。基于基因芯片的方法只能检测特定的几个区域,而且正常组织的含量的多少也会影响对肿瘤CNV的计算。基于NGS的检测方法通常基于测序深度侧重于杂合缺失(LOH)和CNV扩增的计算,无法区分真实的缺失还是测序未覆盖。
[0005]分析HD难度源于以下三个方面: (1)肿瘤细胞几乎总是与未知比例的正常细胞混合; (2)肿瘤细胞的实际DNA含量, 由于总数和结构的染色体异常而未知; (3)肿瘤细胞群由于持续的亚克隆进化而可能是异质性的。 原则上,可以根据每个肿瘤细胞的DNA质量的细胞学测量或单细胞测序方法, 通过重新排列相对数据来推断绝对拷贝数。 然而, 这样的方法并不适合在解读肿瘤基因组中大规模使用。(4)对于测序深度为0的区域难以区分是未捕获到数据还是发生了纯合缺失。
[0006]因此,亟需研发一种更有效的准确识别肿瘤纯合缺失的方案,以满足科研和/或临床的使用需求。

技术实现思路

[0007]本专利技术的主要目的在于提供一种检测纯合缺失的方法和装置,以解决现有难以区分某些缺失是否为纯合缺失的问题。
[0008]为了实现上述目的,根据本专利技术的一个方面,提供了一种检测纯合缺失的方法,该方法包括:S1,获取待测肿瘤样本和对照样本的测序数据,并分别与参考基因组序列比对得到的比对结果数据,配对样本包括待测肿瘤样本和对照样本;S2,利用比对结果数据,分别统计待测肿瘤样本和对照样本的原始测序深度,对原始测序深度进行归一化处理,分别得到待测肿瘤样本的和对照样本的归一化深度,相应记为DN和PoN;S3,利用对照样本的归一化深度PoN建立所有捕获探针的正态分布模型;S4,利用待测肿瘤样本的归一化深度DN,初步检测待测肿瘤样本中存在缺失的捕获探针区域;S5,根据如下任意一种情况来判断存在
缺失的捕获探针区域为纯合缺失:1)缺失的捕获探针区域的实际深度DI小于等于深度阈值,其中,实际深度DI=样本深度
×
肿瘤纯度c,样本深度为待测肿瘤样本的原始测序深度或归一化深度;2)缺失的捕获探针区域的DN不符合正态分布模型。
[0009]进一步地,S2包括:S21,按照如下原则统计捕获区域的原始测序深度:a) read1和read2的重叠区域只统计一次,b) 发生插入缺失的reads纳入统计;S22,在样本内,以捕获探针区域为单位对原始测序深度进行第一次归一化处理,得到样本内归一化深度;S23,在样本间,对同一捕获探针区域的样本内归一化深度进行第二次归一化处理,得到同一捕获探针区域的归一化深度;S24,将待测肿瘤样本的和对照样本的归一化深度分别记为DN和PoN;优选地,第一次归一化处理通过每一捕获探针区域的原始测序深度/样本内所有捕获探针区域的原始测序深度的中位值得到;优选地,第二次归一化处理通过同一捕获探针区域的样本内归一化深度/所有样本在同一捕获探针区域的样本内归一化深度的中位值得到。
[0010]进一步地,在进行第一次归一化处理之前,方法还包括:去除原始测序深度为0的捕获探针区域;优选地,在第一次归一化处理和/或第二次归一化处理后,方法还包括将待测肿瘤样本中归一化后不满足正态分布模型的捕获探针区域作为备选分析区;优选地,若缺失的捕获探针区域位于备选分析区中,则推断存在缺失的捕获探针区域为纯合缺失。
[0011]进一步地,S4包括:以单个捕获探针区域为单位,检测待测肿瘤样本的归一化深度DN是否满足DN<待测肿瘤样本的归一化深度DN的均值
‑ꢀ
n*标准差,1.7≤n≤2.4,若是,判定捕获探针区域存在缺失。
[0012]进一步地,S5中,肿瘤纯度c按照如下方法计算:1)选取对照样本中0.15≤AF≤0.85的杂合SNP,从待测肿瘤样本中找出相应杂合SNP的突变频率;2)以捕获探针区域为单位,从归一化处理后的测序数据中读取各杂合SNP的支持read数,对对照样本中各杂合SNP的AF进行矫正,得到矫正后的AF,其中,若双端测序的read 1和read 2都支持同一杂合SNP,则只计算一次;3)以捕获探针区域为单位,分别统计对照样本和待测肿瘤样本的各个捕获探针区域的平均的归一化深度,并进一步分别计算对照样本和待测肿瘤样本的同一捕获探针区域内所有SNP位点的归一化深度的方差,如果待测肿瘤样本的捕获探针区域内所有SNP位点的归一化深度的方差超出对照样本在同一捕获探针区域的方差波动范围,则标记为异常区域;4)在异常区域中,将待测肿瘤样本的杂合SNP中相对于对照样本的杂合SNP位点中基因频率下降的等位基因记为CAF,若矫正后的AF≥0.5,则CAF=1

矫正后的AF;若矫正后的AF<0.5,则CAF=矫正后的AF;5)计算异常区域中,各捕获探针区域的log2(DN/PoN)值,若捕获探针区域的log2(DN/PoN)值<0,则表明捕获探针区域发生了杂合性缺失,此时肿瘤纯度c = (1

2CAF) / (1

CAF)。
[0013]进一步地,在计算各个捕获探针区域的平均的归一化深度时,如果相邻的捕获探针之间有重叠,则合并为一个捕获探针区域;优选地,在进行方差计算时,如果捕获探针区域所涵盖的物理距离大于等于1Mb且待测肿瘤样本的方差超出对照样本在同一捕获探针区域的方差波动范围的,则将捕获探针区域进一步分割成多个,然后再进行方差的计算。
[0014]进一步地,获取待测肿瘤样本和对照样本的测序数据,并分别与参考基因组序列比对得到的比对结果数据包括:对待测肿瘤样本和对照样本的原始测序数据进行质控处理,得到有效数据;将有效数据与参考基因组序列进行比对,得到初步比对信息;对有效数
据中含有indel位点的区域进行重新比对,得到比对结果数据;优选地,重新比对包括:根据已知的indel位点信息,查找有效数据中所有的indel区域,形成indel区域序列文件;结合in本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1和read 2都支持同一杂合SNP,则只计算一次;3)以捕获探针区域为单位,分别统计所述对照样本和所述待测肿瘤样本的各个所述捕获探针区域的平均的归一化深度,并进一步分别计算所述对照样本和所述待测肿瘤样本的同一所述捕获探针区域内所有SNP位点的归一化深度的方差,如果所述待测肿瘤样本的所述捕获探针区域内所有SNP位点的归一化深度的方差超出所述对照样本在同一所述捕获探针区域的方差波动范围,则标记为异常区域;4)在所述异常区域中,将所述待测肿瘤样本的杂合SNP中相对于所述对照样本的杂合SNP位点中基因频率下降的等位基因记为CAF,若所述矫正后的AF≥0.5,则CAF=1

所述矫正后的AF;若所述矫正后的AF<0.5,则CAF=所述矫正后的AF;5)计算所述异常区域中,各所述捕获探针区域的log2(DN/PoN)值,若所述捕获探针区域的log2(DN/PoN)值<0,则表明所述捕获探针区域发生了杂合性缺失,此时所述肿瘤纯度c = (1

2CAF) / (1

CAF)。8.根据权利要求7所述的方法,其特征在于,在计算各个所述捕获探针区域的平均的归一化深度时,如果相邻的捕获探针之间有重叠,则合并为一个捕获探针区域。9.根据权利要求8所述的方法,其特征在于,在进行方差计算时,如果所述捕获探针区域所涵盖的物理距离大于等于1Mb且所述待测肿瘤样本的方差超出所述对照样本在同一捕获探针区域的方差波动范围的,则将所述捕获探针区域进一步分割成多个,然后再进行所述方差的计算。10.根据权利要求1所述的方法,其特征在于,获取待测肿瘤样本和对照样本的测序数据,并分别与参考基因组序列比对得到的比对结果数据包括:对所述待测肿瘤样本和所述对照样本的原始测序数据进行质控处理,得到有效数据;将所述有效数据与参考基因组序列进行比对,得到初步比对信息;对所述有效数据中含有indel位点的区域进行重新比对,得到所述比对结果数据。11.根据权利要求10所述的方法,其特征在于,所述重新比对包括:根据已知的indel位点信息,查找所述有效数据中所有的indel区域,形成indel区域序列文件;结合所述indel区域序列文件,对所述初步比对信息中的indel区域进行重新比对。12.根据权利要求10所述的方法,其特征在于,所述待测肿瘤样本是前列腺癌石蜡包埋组织样本,所述原始测序数据是靶向捕获测序数据。13.根据权利要求12所述的方法,其特征在于,所述靶向捕获测序数据是靶向捕获如下14个同源重组修复基因的测序数据:BRCA1、BRCA2、ATM、CDK12、PALB2、 BRIP1、RAD54L、BARD1、RAD51B、RAD51D、CHEK1、CHEK2、FANCL及RAD51C。14.一种检测纯合缺失的装置,其特征在于,所述装置包括:获取模块,用于获取待测肿瘤样本和对照样本的测序数据,并分别与参考基因组序列比对得到的比对结果数据;深度归一化模块,用于利用所述比对结果数据,分别统计所述待测肿瘤样本和所述对照样本的原始测序深度,对所述原始测序深度进行归一化处理,分别得到所述待测肿瘤样
本的和所述对照样本的归一化深度,相应记为DN和PoN;探针捕获特征模型构建模块:用于利用所述对照样本的归一化深度PoN建立所有捕获探针的正态分布模型;缺失区域初检模块,用于利用所述待测肿瘤样本的归一化深度DN,初步检测所述待测肿瘤样本中存在缺失的捕获探针区域;纯合缺失推断模块,用于根据如下任意一种情况来推断存在缺失的所述捕获探针区域为纯合缺失:1)缺失的所述捕获探针区域的实际深度DI小于等于深度阈值,其中,所述实际深度DI=样本深度
×
肿瘤纯度c,所述样本深度为所述待测肿瘤样本的原始测序深度或归一化深度;2)缺失的所述捕获探针区域的DN不符合所述正态分布模型。15.根据权利要求14所述的装置,其特征在于,所述深度归一化模块包括:原始深度统计模块,用于按照如下原则统计捕获区域的所述原始测序深度:a) read1和read2的重叠区域只统计一次,b) 发生插入缺失的reads纳入统计;样本内归一化模块,用于在样本内,以捕获探针区域为单位对所述原始测序深度进行第一次归一化处理,得到样本内归一化深度;样本间归一化模块,用于在样本间,对同一捕获探针区域的样本内归一化深度进行第二次归一化处理,得到所述同一捕获探针区域的归一化深度;标记模块,用于将所述待测肿瘤样本的和所述对照样本的归一化深度分别记为DN和PoN。16.根据权利要求14所述的装置,其特征在于,所述深度归一化模块还包括去除模块,用于去除所述原始测序深度为0的捕获探针区域。17.根据权利要求16所述的装置,其特...

【专利技术属性】
技术研发人员:靳红帅侯光远
申请(专利权)人:北京雅康博生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1