一种全基因组复制的分析方法、装置和存储介质制造方法及图纸

技术编号:32833787 阅读:12 留言:0更新日期:2022-03-26 20:50
本申请公开了一种全基因组复制的分析方法、装置和存储介质。本申请方法包括获取待测样本基于低深度全基因组测序数据分析的拷贝数变异信息,根据拷贝数变异信息中的segments片段绘制segments片段密度分布图,对segments片段密度分布图显示的峰进行判断,最后根据segments片段的极差和segments片段密度分布图的峰值个数判断待测样本是否发生全基因组复制。本申请方法,通过对segments片段密度分布图中特殊峰进行处理,及峰值判断规则制定,综合峰值个数与片段极差,能准确有效的实现通过低深度全基因组测序判断全基因组复制情况,填补了目前无法通过低深度全基因组测序判断全基因组复制的空白。全基因组复制的空白。全基因组复制的空白。

【技术实现步骤摘要】
一种全基因组复制的分析方法、装置和存储介质


[0001]本申请涉及全基因组复制判断
,特别是涉及一种全基因组复制的分析方法、装置和存储介质。

技术介绍

[0002]拷贝数变异是指大片段DNA序列拷贝数的增加或者减少,是一种非常重要的基因组结构变异,包含大量的基因遗传信息,在人类遗传病、肿瘤及罕见病等复杂疾病中扮演重要的角色。基于全基因组测序的方法检测DNA拷贝数变异是一种重要途径。新一代测序技术因通量高速度快的特点成为基因组变异的主要分析平台,但其成本随着测序覆盖度的增加而增长。为了控制成本,在全基因组拷贝数变异分析中常使用低覆盖度测序数据。
[0003]全基因组复制(whole genome duplication,WGD),又称多倍体化,是指生物体细胞的整个基因组加倍,从而获得一套或多套额外的染色体的现象。有研究表明,全基因组复制在癌症的进展过程中非常常见,是最常见的事件之一,而该现象会导致染色体不稳定性,与各种癌症类型的不良预后相关。因此在癌症的研究过程中,判断样本是否发生WGD很有必要。
[0004]当前,越来越多的方法和软件针对样本是否发生WGD进行判断,比如有利用目标物种在基因集上的蛋白质序列进行WGD的检测;华大基因的基于密度聚类算法以及迈杰公司的ddNoise算法用于WGD校正。这些技术需要使用蛋白质序列数据,或者是使用全外显子测序数据,以及高深度全基因组测序(Whole Genome Sequencing,WGS)数据。到目前为止,都没有一种方法或者软件适用于人类低深度WGS情况下样本的WGD判断。
[0005]低深度全基因组测序具有成本相对较低的优点,如何利用低深度全基因组测序数据实现全基因组复制判断是目前亟待解决的问题。

技术实现思路

[0006]本申请的目的是提供一种新的全基因组复制的分析方法、装置和存储介质。
[0007]为了实现上述目的,本申请采用了以下技术方案:
[0008]本申请的第一方面公开了一种全基因组复制的分析方法,包括以下步骤:
[0009]拷贝数变异信息获取步骤,包括获取待测样本基于低深度全基因组测序数据分析的拷贝数变异信息;其中,拷贝数变异信息包括样本名、染色体、起始位置、终止位置、拷贝数和segments片段信息;
[0010]过滤步骤,包括过滤去除相同片段小于5个窗口长度的短片段,剩余的染色体片段用于后续分析;
[0011]全基因组复制初步判断步骤,包括计算segments片段的最大值与最小值的差值,作为极差;如果极差小于或等于1,则待测样本没有发生全基因组复制;如果极差大于1,则继续进行后续分析;
[0012]拷贝数片段信息密度分布图绘制步骤,包括根据segments片段绘制segments片段
密度分布图;
[0013]密度分布图峰值个数判断步骤,包括对segments片段密度分布图显示的峰进行判断,判断标准包括,(1)只有大于最大峰值15%的峰才算作峰;(2)初步判断峰值个数大于2时,则按以下规则判断:如果峰与左右两侧波谷的距离均大于最大峰值的4%,则该峰参与峰值个数的计数;如果峰与左右仅一侧波谷的距离小于最大峰值的4%,则该峰不参与峰值个数的计数;如果峰与左右仅一侧波谷的距离小于最大峰值的4%,下一个峰仍是相同情形,则记为一个峰;
[0014]全基因组复制判断步骤,包括根据segments片段的极差和segments片段密度分布图的峰值的个数判断是否发生全基因组复制,具体如下:
[0015]a.当样本segments片段极差大于1,且峰值个数小于3时,待测样本没有发生全基因组复制;
[0016]b.当样本segments片段极差大于1,且峰值个数大于或等于3时,待测样本有发生全基因组复制;
[0017]c.当样本segments片段极差大于9,且峰值个数大于或等于2时,待测样本有发生全基因组复制。
[0018]需要说明的是,本申请的全基因组复制分析方法,采用低深度全基因组测序数据的拷贝数变异信息,根据segments片段的极差和segments片段密度分布图的峰值的个数对待测样本的全基因组复制情况进行判断。并且,本申请的分析方法,通过密度分布图中峰的规则判断与制定,特殊情况峰的判断与处理等,能够准确判断低深度WGS数据的WGD情况。
[0019]本申请的一种实现方式中,过滤步骤的窗口长度为50kb。
[0020]需要说明的是,本申请的一种实现方式中,具体的,待测样本的低深度全基因组测序,其下机数据使用realSeq和fastp软件进行预处理,然后使用BWA

mem2和samtools软件进行基因组比对,得到压缩比对文件BAM;进一步的,使用QDNAseq软件根据BAM文件检测待测样本的拷贝数变异,得到rawTCN.tsv文件;以该rawTCN.tsv文件作为本申请分析方法判断样本是否发生WGD的输入文件。该rawTCN.tsv文件每一行为一个50kb窗口所包含的信息,包括样本名、染色体、起始位置、终止位置、拷贝数与segments片段信息。因此,过滤步骤中提到的窗口长度即50kb。可以理解,根据不同的拷贝数变异检测软件或者参数设置,具体的窗口长度可以相应的改变;但是,过滤步骤的基本原则就是过滤去除较短的染色体数据,无论窗口长度如何变化,该基本思路不变;例如,可以直接理解为过滤去除250kb以下的短片段,或者根据需求调整该过滤长度。
[0021]本申请的一种实现方式中,拷贝数变异信息获取步骤中,获取待测样本基于低深度全基因组测序数据分析的拷贝数变异信息,具体包括,将待测样本的低深度全基因组测序数据比对到参考基因组上,获得比对文件,根据比对文件分析待测样本的拷贝数变异信息。
[0022]本申请的一种实现方式中,低深度全基因组测序的测序深度不超过5。
[0023]需要说明的是,低深度全基因组测序一般是指测序深度不超过5的测序,进一步的,测序深度可以不超过3。
[0024]本申请的第二方面公开了一种全基因组复制的分析装置,包括拷贝数变异信息获取模块、过滤模块、全基因组复制初步判断模块、拷贝数片段信息密度分布图绘制模块、密
度分布图峰值个数判断模块和全基因组复制判断模块;
[0025]拷贝数变异信息获取模块,包括用于获取待测样本基于低深度全基因组测序数据分析的拷贝数变异信息,拷贝数变异信息包括样本名、染色体、起始位置、终止位置、拷贝数和segments片段信息;
[0026]过滤模块,包括用于过滤去除相同片段小于5个窗口长度的短片段,剩余的染色体片段用于后续分析;
[0027]全基因组复制初步判断模块,包括用于计算segments片段的最大值与最小值的差值,作为极差;如果极差小于或等于1,则待测样本没有发生全基因组复制;如果极差大于1,则继续进行后续分析;
[0028]拷贝数片段信息密度分布图绘制模块,包括用于根据segments片段绘制segmen本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种全基因组复制的分析方法,其特征在于:包括以下步骤,拷贝数变异信息获取步骤,包括获取待测样本基于低深度全基因组测序数据分析的拷贝数变异信息,所述拷贝数变异信息包括样本名、染色体、起始位置、终止位置、拷贝数和segments片段信息;过滤步骤,包括过滤去除相同片段小于5个窗口长度的短片段,剩余的染色体片段用于后续分析;全基因组复制初步判断步骤,包括计算segments片段的最大值与最小值的差值,作为极差;如果极差小于或等于1,则待测样本没有发生全基因组复制;如果极差大于1,则继续进行后续分析;拷贝数片段信息密度分布图绘制步骤,包括根据segments片段绘制segments片段密度分布图;密度分布图峰值个数判断步骤,包括对segments片段密度分布图显示的峰进行判断,判断标准包括,(1)只有大于最大峰值15%的峰才算作峰;(2)初步判断峰值个数大于2时,则按以下规则判断:如果峰与左右两侧波谷的距离均大于最大峰值的4%,则该峰参与峰值个数的计数;如果峰与左右仅一侧波谷的距离小于最大峰值的4%,则该峰不参与峰值个数的计数;如果峰与左右仅一侧波谷的距离小于最大峰值的4%,下一个峰仍是相同情形,则记为一个峰;全基因组复制判断步骤,包括根据segments片段的极差和segments片段密度分布图的峰值的个数判断是否发生全基因组复制,具体如下:a.当样本segments片段极差大于1,且峰值个数小于3时,待测样本没有发生全基因组复制;b.当样本segments片段极差大于1,且峰值个数大于或等于3时,待测样本有发生全基因组复制;c.当样本segments片段极差大于9,且峰值个数大于或等于2时,待测样本有发生全基因组复制。2.根据权利要求1所述的分析方法,其特征在于:所述过滤步骤中,窗口长度为50kb。3.根据权利要求1所述的分析方法,其特征在于:所述拷贝数变异信息获取步骤中,获取待测样本基于低深度全基因组测序数据分析的拷贝数变异信息,具体包括,将待测样本的低深度全基因组测序数据比对到参考基因组上,获得比对文件,根据比对文件分析待测样本的拷贝数变异信息。4.根据权利要求1

3任一项所述的分析方法,其特征在于:所述低深度全基因组测序的测序深度不超过5。5.一种全基因组复制的分析装置,其特征在于:包括拷贝数变异信息获取模块、过滤模块、全基因组复制初步判断模块、拷贝数片段信息密度分布图绘制模块、密度分布图峰值个数判断模块和全基因组复制判断模块;所述拷贝数变异信息获取模块,包括用于获取待测样本基于低深度全基因组测序数据分析的拷贝数变异信息,所述拷贝数变异信息包括...

【专利技术属性】
技术研发人员:黄毅陈华东刘久成朱彬彬易鑫杨玲
申请(专利权)人:苏州吉因加医学检验有限公司北京吉因加医学检验实验室有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1