【技术实现步骤摘要】
一种低深度WGS下机数据的处理方法
[0001]本申请属于基因检测
,更具体地说,它涉及一种低深度WGS下机数据的处理方法、建立基因组杂合性缺失LOH的计算方法、建立大片段迁移LST的计算方法和端粒等位基因不平衡TAI的计算方法。
技术介绍
[0002]DNA双链断裂(double strand breaks)是一种DNA损伤类型,严重时会导致染色体的断裂和重排等,由于没有互补链进行修复,所以DNA序列难以恢复,造成遗传信息丢失,这种DNA双链断裂需要同源重组修复。若同源重组修复能力缺失即发生HRD,则会导致基因组丧失稳定性,在基因组不稳定的情况下容易积累DNA损伤,以此恶性循环,导致癌症发生。HRD对铂类或者PARP抑制剂的使用具有很重要的指导意义。
[0003]HRD一般由同源重组修复通路中基因变异或者表观变异引起,同源重组修复通路中包含BRCA1/2、Rad52/Rad22、PALB2、RAD51家族、BRIP1/BACH1、ATM和CHEK2等基因。研究表明存在BRCA1突变的女性,会存在50
‑
85%和15
‑
45%的概率罹患乳腺癌和卵巢癌。在乳腺癌中,遗传性BRCA1/2变异占大约7%,而在三阴性乳腺癌中能达到11%
‑
15%。在家族性和偶发性乳腺癌患者中,估计有40%属于同源重组缺陷。尽管目前主要关注HRD在乳腺癌中的治疗,但是HRD在其他癌种中也是一个重要的指标。
[0004]目前,HRD的检测方法有以下两种:HR基因芯片,芯 ...
【技术保护点】
【技术特征摘要】
1.一种低深度WGS下机数据的处理方法,其特征在于,包括如下步骤:S1
‑
1:将待测样本的低深度WGS下机数据与全基因组的参考基因组比对,得到第一比对文件;S1
‑
2:去除所述第一比对文件中重复的reads,得到第二比对文件;S1
‑
3:将全基因组按照排列顺序划分成100Kbp大小的windows;S1
‑
4:以所述第二比对文件中的reads为基本单元,统计落在每个所述window内的reads数,作为该window的reads count,记为RC
i
,i为全基因组中按照排列顺序划分成的window的次序,i为1,2,3....;S1
‑
5:统计每个window的GC碱基含量,将GC含量相同的相邻的windows合并为一组,第j组记为W
j
,第j组含有的window的个数记为M
j
,第j组含有的第k个window记为W
kj
,j、k分别为1,2,3....;S1
‑
6:计算W
j
的中位值RC,记为RC
j
,与该待测样本整体的平均RC,记为RC
p
,通过以下公式对RC
i
进行矫正:i=M1+M2+M3...+M
(j
‑
1)
+k;S1
‑
7:按照步骤S1
‑
4、S1
‑
5和S1
‑
6处理N个健康样本的低深度WGS下机数据,计算每个window在N个健康样本中的中位值RC,记为RC
y
,作为该window的RC,构建baseline;N≥30,y为1,2,3...;S1
‑
8:取每个window的待测样本的NRC
i
除以对应baseline中的RC
y
,得到DR;S1
‑
9:基于循环二元分割算法对DR进行分段,记为DR片段,同一个DR片段中的DR值比较接近,相邻两个DR片段的平均DR值相差显著,且每个DR片段中至少包含10个windows。2.根据权利要求1所述的低深度WGS下机数据的处理方法,其特征在于,还包括:S1
‑
10:统计每个DR片段中DR的中位值,作为该DR片段的DR值,记为DR
q
,计算该DR片段的拷贝数,记为C
q
,计算公式为:。3.一种基因组杂合性缺失LOH的计算方法,其特征在于,包括权利要求2所述的低深度WGS下机数据的处理方法中的处理步骤,以及如下步骤:S2
‑
1:使用千人基因组计划数据,选择杂合概率较高的SNP位点;S2
‑
2:统计所述SNP位点上的每个位点等位碱基在待测样本上的频率,如果存在多个等位碱基,取频率最高的两个;如果仅有一个等位碱基,第二等位碱基给定默认频率为0;S2
‑
3:统计每个window中所述SNP位点第二等位碱基频率的平均数作为该window的AF,生成新的AF数列;如果AF大于0,则将AF调整成0.5;S2
‑
4:将步骤S2
‑
3中所述AF相同且相邻的window相连,得...
【专利技术属性】
技术研发人员:楼峰,刘凯,张萌萌,郭璟,孙宏,曹善柏,
申请(专利权)人:天津橡鑫生物科技有限公司天津橡鑫医疗器械有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。