【技术实现步骤摘要】
一种拷贝数变异检测前的数据矫正方法
[0001]本专利技术属于基因检测
,涉及一种拷贝数变异检测前的数据矫正方法。
技术介绍
[0002]基因的拷贝数变异(Copy Number Variation,CNV)是一类在临床上非常重要的结构变异,小的CNV通常是良性的,但大于250kb的CNV与发育障碍和癌症等病态后果密切相关。鉴定种群内和种群间的CNV对于更好地理解基因组的可塑性和阐明其对疾病或表型特征的可能贡献至关重要。虽然SNP和疾病易感性之间的联系已经得到了很好的研究,但迄今为止发表的CNV全基因组关联研究仍然很少;这可能是因为CNV分析仍比SNP分析稍微复杂,比如在生物信息学工作方面会导致CNV鉴定的高假阳性率和未知假阴性率。
[0003]二代测序技术(NGS)为基因组拷贝数变异鉴定提供了一个快速和廉价的平台,也具有较高的分辨率和灵敏度,但是其产生的数据在后续分析中依然存在挑战。因为在DNA文库构建过程中就开始引入了DNA文库扩增的不平衡,比如引物、文库片段大小的选择、PCR扩增和测序错误概率等。有研究表明PCR在测序前的各个阶段起主导作用(Aird D,Ross M G,Chen W S,et al.Analyzing and minimizing PCR amplification bias in Illumina sequencing libraries[J].Genome Biol,2011,12(2):R18.),其中基因组本身的结构问题如富含GC的基因组区域往往被过度扩增,DNA或染色 ...
【技术保护点】
【技术特征摘要】
1.一种用于拷贝数变异检测的数据矫正方法,其特征在于,所述方法包括以下步骤:(1)获取每个窗口下的GC含量和深度覆盖值DOC,过滤掉GC含量或DOC为0的区域;(2)指数平滑处理:使用Holt线性方法进行DOC值的指数平滑处理;或者,使用公式(1)将DOC进行指数平滑处理,得到DOC
ets
;DOC
ets
=ets(DOC)
ꢀꢀꢀ
公式(1),其中ets为R语言forecast包中的函数;(3)使用局部加权回归模型loess对DOC
ets
进行GC矫正,获得每个窗口下的矫正权重,以矫正权重的倒数乘以DOC
ets
获得DOC
loess
;(4)按公式(2)将DOC
loess
除以所有窗口下的DOC
loess
的中值,获得最终矫正后的每个窗口下的DOC,记为DOC
final
;DOC
final
=DOC
loess
/median(DOC
loess
)
ꢀꢀꢀ
公式(2),median(DOC
loess
)表示所有窗口下的DOC
loess
的中值。2.根据权利要求1所述的用于拷贝数变异检测的数据矫正方法,其特征在于,步骤(1)前还包括比对序列和划分窗口的步骤。3.根据权利要求2所述的用于拷贝数变异检测的数据矫正方法,其特征在于,所述比对序列包括获取待测样本基因组的测序数据,与参考基因组进行比对,并按照染色体进行排序,对比对的结果进行去重复;优选地,所述划分窗口包括按照给定的窗口大小对参考基因组进行窗口划分,生成各个窗口对应的GC含量,并统计每个窗口下的序列数,记为每个窗口下的深度覆盖值DOC。4.根据权利要求1
‑
3任一项所述的用于拷贝数变异检测的数据矫正方法,其特征在于,所述方法包括以下步骤:(1)获取待测样本基因组的测序数据,与参考基因组进行比对,并按照染色体进行排序,对比对的结果进行去重复;(2)按照给定的窗口大小对参考基因组进行窗口划分,生成各个窗口对应的GC含量,并统计每个窗口下的序列数,记为每个窗口下的深度覆盖值DOC;(3)过滤掉GC含量或DOC为0的区域;(4)使用Holt线性方法进行DOC值的指数平滑处理;或者,使用公式(1)将DOC进行指数平滑处理,得到DOC
ets
;(5)使用局部加权回归模型loess对DOC
ets
进行GC矫正,获得每个窗口下的矫正权重,以矫正权重的倒数乘以DOC
ets
获得DOC
loess
;(6)按公式(2)将DOC
loess
除以所有窗口下的DOC
loess
的中值,获得最终矫正后的每个窗口下的DOC,记为DOC
final
。5.一种以非疾病诊断和/或治疗为目的的拷贝数变异检测方法,其特征在于,所述方法包括:利用权利要求1
‑
4任一项所述的用于拷贝数变异检测的数据矫正方法对样本基因组的测序数据进行矫正,...
【专利技术属性】
技术研发人员:邢彦如,张军,苏春明,蔡举,孔令印,梁波,
申请(专利权)人:苏州贝康医疗器械有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。