一种拷贝数变异检测前的数据矫正方法技术

技术编号:34690689 阅读:121 留言:0更新日期:2022-08-27 16:24
本发明专利技术公开了一种用于拷贝数变异检测的数据矫正方法。所述方法包括以下步骤:(1)获取每个窗口下的GC含量和深度覆盖值DOC,过滤掉GC含量或DOC为0的区域;(2)进行指数平滑处理;(3)使用局部加权回归模型loess对DOC

【技术实现步骤摘要】
一种拷贝数变异检测前的数据矫正方法


[0001]本专利技术属于基因检测
,涉及一种拷贝数变异检测前的数据矫正方法。

技术介绍

[0002]基因的拷贝数变异(Copy Number Variation,CNV)是一类在临床上非常重要的结构变异,小的CNV通常是良性的,但大于250kb的CNV与发育障碍和癌症等病态后果密切相关。鉴定种群内和种群间的CNV对于更好地理解基因组的可塑性和阐明其对疾病或表型特征的可能贡献至关重要。虽然SNP和疾病易感性之间的联系已经得到了很好的研究,但迄今为止发表的CNV全基因组关联研究仍然很少;这可能是因为CNV分析仍比SNP分析稍微复杂,比如在生物信息学工作方面会导致CNV鉴定的高假阳性率和未知假阴性率。
[0003]二代测序技术(NGS)为基因组拷贝数变异鉴定提供了一个快速和廉价的平台,也具有较高的分辨率和灵敏度,但是其产生的数据在后续分析中依然存在挑战。因为在DNA文库构建过程中就开始引入了DNA文库扩增的不平衡,比如引物、文库片段大小的选择、PCR扩增和测序错误概率等。有研究表明PCR在测序前的各个阶段起主导作用(Aird D,Ross M G,Chen W S,et al.Analyzing and minimizing PCR amplification bias in Illumina sequencing libraries[J].Genome Biol,2011,12(2):R18.),其中基因组本身的结构问题如富含GC的基因组区域往往被过度扩增,DNA或染色质的局部结构可能导致测序序列覆盖不均一,多种因素的叠加使得最终获得的测序结果在基因组中的分布是不均一的。因此,CNV鉴定之前必须去除测序序列在基因组上的分布偏差,以降低由于技术导致的噪音,识别出真正的CNV。
[0004]GC含量是目前研究比较明确的影响测序序列分布的因素之一,目前的大多方法针对GC效应进行了矫正,包括通过回归模型如loess(Boeva V,Zinovyev A,Bleakley K,et al.Control

free calling of copy number alterations in deep

sequencing data using GC

content normalization[J].Bioinformatics,2011,27(2):268

9.)进行建模来矫正特定窗口下测序序列的覆盖深度(Depth of Coverage,DOC)的GC效应,此外,有一些研究通过在核苷酸水平而不是基因组窗口水平上对比对到基因组的序列数进行GC偏倚的矫正。但目前的矫正方法得到的序列在基因组上的分布依然存在较大的波动,并没有达到较好的降噪效果。
[0005]综上所述,如何提供一种降噪方法,以降低测序序列在基因组上分布的波动,使得测序数据能更真实的反映样本基因组的覆盖情况,是CNV检测领域亟需解决问题之一。

技术实现思路

[0006]针对现有技术的不足和实际需求,本专利技术提供一种拷贝数变异检测前的数据矫正方法,所述方法能够有效降低测序序列在基因组上分布的波动,使得测序数据能更真实的反映样本基因组的覆盖情况。
[0007]为达上述目的,本专利技术采用以下技术方案:
[0008]第一方面,本专利技术提供一种用于拷贝数变异检测的数据矫正方法,所述方法包括以下步骤:
[0009](1)获取每个窗口下的GC含量和深度覆盖值DOC,过滤掉GC含量或DOC为0的区域;
[0010](2)指数平滑处理:使用Holt线性方法进行DOC值的指数平滑处理;
[0011]或者,使用公式(1)将DOC进行指数平滑处理,得到DOC
ets

[0012]DOC
ets
=ets(DOC)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式(1),
[0013]其中ets为R语言forecast包中的函数;
[0014](3)使用局部加权回归模型loess对DOC
ets
进行GC矫正,获得每个窗口下的矫正权重,以矫正权重的倒数乘以DOC
ets
获得DOC
loess

[0015](4)按公式(2)将DOC
loess
除以所有窗口下的DOC
loess
的中值,获得最终矫正后的每个窗口下的DOC,记为DOC
final

[0016]DOC
final
=DOC
loess
/median(DOC
loess
)
ꢀꢀꢀꢀꢀ
公式(2),
[0017]median(DOC
loess
)表示所有窗口下的DOC
loess
的中值。
[0018]本专利技术中,使用具有乘性误差的Holt线性方法进行DOC值的指数平滑处理,具体公式如下:
[0019]将向前一步训练误差指定为相对误差,可以得到:
[0020]ε
t
=(y
t

(l
t
‑1+b
t
‑1))/(l
t
‑1+b
t
‑1)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3);
[0021]预测方程:y
t
=(l
t
‑1+b
t
‑1)(1+ε
t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4);
[0022]水平方程:l
t
=(l
t
‑1+b
t
‑1)(1+αε
t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5);
[0023]趋势方程:b
t
=b
t
‑1+β(l
t
‑1+b
t
‑1)ε
t
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6);
[0024]其中β=αβ*且ε
t
~NID(0,σ2)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)。
[0025]其中y
t
表示在t时刻该时间序列的预测值,由t

1时刻的水平估计值、趋势估计值和相对误差共同决定;l
t
表示在t时刻该时间序列的水平的估计值,α是水平0≤α≤1的平滑参数;水平方程表明l
t
是由t

1时刻的水平估计值、趋势估计值、相对误差和水平平滑参数共同决定;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于拷贝数变异检测的数据矫正方法,其特征在于,所述方法包括以下步骤:(1)获取每个窗口下的GC含量和深度覆盖值DOC,过滤掉GC含量或DOC为0的区域;(2)指数平滑处理:使用Holt线性方法进行DOC值的指数平滑处理;或者,使用公式(1)将DOC进行指数平滑处理,得到DOC
ets
;DOC
ets
=ets(DOC)
ꢀꢀꢀ
公式(1),其中ets为R语言forecast包中的函数;(3)使用局部加权回归模型loess对DOC
ets
进行GC矫正,获得每个窗口下的矫正权重,以矫正权重的倒数乘以DOC
ets
获得DOC
loess
;(4)按公式(2)将DOC
loess
除以所有窗口下的DOC
loess
的中值,获得最终矫正后的每个窗口下的DOC,记为DOC
final
;DOC
final
=DOC
loess
/median(DOC
loess
)
ꢀꢀꢀ
公式(2),median(DOC
loess
)表示所有窗口下的DOC
loess
的中值。2.根据权利要求1所述的用于拷贝数变异检测的数据矫正方法,其特征在于,步骤(1)前还包括比对序列和划分窗口的步骤。3.根据权利要求2所述的用于拷贝数变异检测的数据矫正方法,其特征在于,所述比对序列包括获取待测样本基因组的测序数据,与参考基因组进行比对,并按照染色体进行排序,对比对的结果进行去重复;优选地,所述划分窗口包括按照给定的窗口大小对参考基因组进行窗口划分,生成各个窗口对应的GC含量,并统计每个窗口下的序列数,记为每个窗口下的深度覆盖值DOC。4.根据权利要求1

3任一项所述的用于拷贝数变异检测的数据矫正方法,其特征在于,所述方法包括以下步骤:(1)获取待测样本基因组的测序数据,与参考基因组进行比对,并按照染色体进行排序,对比对的结果进行去重复;(2)按照给定的窗口大小对参考基因组进行窗口划分,生成各个窗口对应的GC含量,并统计每个窗口下的序列数,记为每个窗口下的深度覆盖值DOC;(3)过滤掉GC含量或DOC为0的区域;(4)使用Holt线性方法进行DOC值的指数平滑处理;或者,使用公式(1)将DOC进行指数平滑处理,得到DOC
ets
;(5)使用局部加权回归模型loess对DOC
ets
进行GC矫正,获得每个窗口下的矫正权重,以矫正权重的倒数乘以DOC
ets
获得DOC
loess
;(6)按公式(2)将DOC
loess
除以所有窗口下的DOC
loess
的中值,获得最终矫正后的每个窗口下的DOC,记为DOC
final
。5.一种以非疾病诊断和/或治疗为目的的拷贝数变异检测方法,其特征在于,所述方法包括:利用权利要求1

4任一项所述的用于拷贝数变异检测的数据矫正方法对样本基因组的测序数据进行矫正,...

【专利技术属性】
技术研发人员:邢彦如张军苏春明蔡举孔令印梁波
申请(专利权)人:苏州贝康医疗器械有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1