一种低深度WGS下机数据的处理方法技术

技术编号:31980245 阅读:21 留言:0更新日期:2022-01-20 01:36
本申请属于基因检测技术领域,具体公开一种低深度WGS下机数据的处理方法,该方法可以用于评估HRD score。本申请至少具有以下有益效果之一:本申请提供的基于低深度WGS评估HRD score的方法以低深度WGS测序形成的数据为基础进行分析,极大地降低了成本,有利于大规模的应用。的应用。的应用。

【技术实现步骤摘要】
一种低深度WGS下机数据的处理方法


[0001]本申请属于基因检测
,更具体地说,它涉及一种低深度WGS下机数据的处理方法、建立基因组杂合性缺失LOH的计算方法、建立大片段迁移LST的计算方法和端粒等位基因不平衡TAI的计算方法。

技术介绍

[0002]DNA双链断裂(double strand breaks)是一种DNA损伤类型,严重时会导致染色体的断裂和重排等,由于没有互补链进行修复,所以DNA序列难以恢复,造成遗传信息丢失,这种DNA双链断裂需要同源重组修复。若同源重组修复能力缺失即发生HRD,则会导致基因组丧失稳定性,在基因组不稳定的情况下容易积累DNA损伤,以此恶性循环,导致癌症发生。HRD对铂类或者PARP抑制剂的使用具有很重要的指导意义。
[0003]HRD一般由同源重组修复通路中基因变异或者表观变异引起,同源重组修复通路中包含BRCA1/2、Rad52/Rad22、PALB2、RAD51家族、BRIP1/BACH1、ATM和CHEK2等基因。研究表明存在BRCA1突变的女性,会存在50

85%和15

45%的概率罹患乳腺癌和卵巢癌。在乳腺癌中,遗传性BRCA1/2变异占大约7%,而在三阴性乳腺癌中能达到11%

15%。在家族性和偶发性乳腺癌患者中,估计有40%属于同源重组缺陷。尽管目前主要关注HRD在乳腺癌中的治疗,但是HRD在其他癌种中也是一个重要的指标。
[0004]目前,HRD的检测方法有以下两种:HR基因芯片,芯片设计时包含同源重组通路基因,利用靶向捕获技术和二代测序技术,获得同源重组通路基因的测序数据,检测所有基因的SNV、Indel和large arrangement,缺点是可能会高估HRD,而且基于芯片检测时,芯片上的SNP位点是固定的,只能检测特定位点的变异,具有一定的局限性。
[0005]全基因组测序(WGS),对全基因组进行测序,检测染色体结构变异:包括杂合性缺失

LOH,端粒位点不平衡

TAI和大程度基因组不稳定性

LST来计算HRD score。优点是准确率高;缺点是成本相对较高。

技术实现思路

[0006]为了在保证灵敏度及准确率的情况下降低成本,本申请提供一种基于低深度WGS评估HRD score的方法,该方法以低深度WGS测序所获得数据为基础进行评估HRD score,其降低了成本,更适合于大规模应用于临床。
[0007]本申请是通过以下方案实现的:本申请提供一种基于低深度WGS评估HRD score的方法,包括如下步骤:处理待测样本的低深度WGS下机数据;以及选自以下步骤中的任意一个或多个步骤:步骤一:建立基因组杂合性缺失LOH的计算方法,获得HRD

LOH score;步骤二:建立端粒等位基因不平衡TAI的计算方法,获得HRD

TAI score;和,步骤三:建立大片段迁移LST的计算方法,获得HRD

LST score。
[0008]本申请以低深度WGS下机数据为基础,建立评估HRD score的方法,大大降低了全基因组测序(WGS)的成本,相较于HR基因芯片检测,本申请检测的位点更加灵活,检测待测样本的结果更加准确,符合待测样本真实情况。
[0009]在本申请的一个具体实施方式中,所述处理待测样本的低深度WGS下机数据具体包括:S1

1:将所述下机数据与人类全基因组的参考基因组比对,得到第一比对文件;S1

2:去除所述第一比对文件中重复的reads,得到第二比对文件;S1

3:将人类全基因组划分成100Kbp大小的windows。
[0010]本申请中,将全基因组按照顺序,以100Kbp大小划分为不同的windows,便于后续数据的分析和处理。
[0011]在本申请的一个具体实施方式中,所述处理待测样本的低深度WGS下机数据还包括:S1

4:以所述第二比对文件中的reads为基本单元,统计落在每个window内的reads数,作为该window的reads count,记为RC
i
,i为全基因组中按照排列顺序划分成的window的次序,i为1,2,3....;S1

5:统计每个window的GC碱基含量,将相邻的GC含量相同的windows合并为一组,第j组记为W
j
,第j组含有的window的个数记为M
j
,第j组含有的第k个window记为W
kj
,j、k分别为1,2,3...;S1

6:计算每个W
j
的中位值,记为RC
j
,与该样本整体的平均RC,记为RC
p
,通过以下公式对RC
i
进行矫正:i=M1+M2+M3...+M
(j

1)
+k;S1

7:按照步骤S1

1、S1

2和S1

3处理N个健康样本的低深度WGS下机数据,计算每个window在N个健康样本中的中位值RC,记为RC
y
,作为该window的RC,构建baseline,N≥30,y为1,2,3...;S1

8:对待测样本的windows和健康样本的windows进行遍历,取每个window待测样本的NRCi除以对应baseline中的RC
y
,得到DR;S1

9:基于循环二元分割算法(CBS)对DR进行分段,记为DR片段,同一个DR片段中的DR值比较接近,相邻两个DR片段的平均DR值相差显著,且每个DR片段中至少包含10个windows。
[0012]本申请中,设置每个DR片段中至少包含10个windows,其中10个windows可以保证在每个DR片段中保留长度在1M以上的片段,以最大可能的屏蔽掉干扰信号。
[0013]在本申请的一个具体实施方式中,所述处理待测样本的低深度WGS下机数据还包括:S1

10:统计每个DR片段中DR的中位值,作为该DR片段的DR值,记为DR
q
,计算该DR片段的拷贝数,记为C
q
,计算公式为:。
[0014]本申请中,通过计算Cq值,可以初步了解癌症发生的内在原因,可以在细胞学水平
上对症下药,使得癌症的缓解率大大提高。如果Cq值不等于2,则说明发生了基因拷贝数的变异。Cq值大于2意味着基因增加(gain),小于2则意味着基因缺失(loss)。如果某些负责细胞增殖的基因发生gain或者抑癌基因发生loss,则有可能引发细胞无限增殖,导致癌症的发生。因此,可以根据Cq值初步判断癌症的发生。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种低深度WGS下机数据的处理方法,其特征在于,包括如下步骤:S1

1:将待测样本的低深度WGS下机数据与全基因组的参考基因组比对,得到第一比对文件;S1

2:去除所述第一比对文件中重复的reads,得到第二比对文件;S1

3:将全基因组按照排列顺序划分成100Kbp大小的windows;S1

4:以所述第二比对文件中的reads为基本单元,统计落在每个所述window内的reads数,作为该window的reads count,记为RC
i
,i为全基因组中按照排列顺序划分成的window的次序,i为1,2,3....;S1

5:统计每个window的GC碱基含量,将GC含量相同的相邻的windows合并为一组,第j组记为W
j
,第j组含有的window的个数记为M
j
,第j组含有的第k个window记为W
kj
,j、k分别为1,2,3....;S1

6:计算W
j
的中位值RC,记为RC
j
,与该待测样本整体的平均RC,记为RC
p
,通过以下公式对RC
i
进行矫正:i=M1+M2+M3...+M
(j

1)
+k;S1

7:按照步骤S1

4、S1

5和S1

6处理N个健康样本的低深度WGS下机数据,计算每个window在N个健康样本中的中位值RC,记为RC
y
,作为该window的RC,构建baseline;N≥30,y为1,2,3...;S1

8:取每个window的待测样本的NRC
i
除以对应baseline中的RC
y
,得到DR;S1

9:基于循环二元分割算法对DR进行分段,记为DR片段,同一个DR片段中的DR值比较接近,相邻两个DR片段的平均DR值相差显著,且每个DR片段中至少包含10个windows。2.根据权利要求1所述的低深度WGS下机数据的处理方法,其特征在于,还包括:S1

10:统计每个DR片段中DR的中位值,作为该DR片段的DR值,记为DR
q
,计算该DR片段的拷贝数,记为C
q
,计算公式为:。3.一种基因组杂合性缺失LOH的计算方法,其特征在于,包括权利要求2所述的低深度WGS下机数据的处理方法中的处理步骤,以及如下步骤:S2

1:使用千人基因组计划数据,选择杂合概率较高的SNP位点;S2

2:统计所述SNP位点上的每个位点等位碱基在待测样本上的频率,如果存在多个等位碱基,取频率最高的两个;如果仅有一个等位碱基,第二等位碱基给定默认频率为0;S2

3:统计每个window中所述SNP位点第二等位碱基频率的平均数作为该window的AF,生成新的AF数列;如果AF大于0,则将AF调整成0.5;S2

4:将步骤S2

3中所述AF相同且相邻的window相连,得...

【专利技术属性】
技术研发人员:楼峰刘凯张萌萌郭璟孙宏曹善柏
申请(专利权)人:天津橡鑫生物科技有限公司天津橡鑫医疗器械有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1