【技术实现步骤摘要】
双重测序的测序深度估计方法、装置、设备及存储介质
[0001]本专利技术涉及生物医学
,尤其涉及一种双重测序的测序深度估计方法、装置、设备及存储介质。
技术介绍
[0002]双重测序技术在ctDNA的低频突变检测领域有着广泛应用。
[0003]双重测序技术利用分子标签(Unique molecule identifier,UMI)技术先将具有相同UMI序列的读段(reads)聚簇并构建单链一致性序列(single strand consensus sequences,SSCSs),然后将拥有互补UMI的SSCSs整合为双链一致性序列(duplex consensus sequences,DCSs)。在DCSs中一致出现的突变被识别为真正的突变,从而实现了与PCR(polymerase chain reaction)错误和测序错误的区分。对于低频突变检测,双重测序仍然存在一个难点:不能保证低频突变在多次实验中被重复和稳定检出。通过提高测序深度能一定程度上解决该问题,而且突变频率(variant allele frequency,VAF)越低的突变被稳定检出所需要的测序深度也越高。因此,确定测序的最低深度要求是保障临床检测正确性所必需的。
[0004]常用的测序深度估计算法是在读段层次或者DNA模板层次上使用简单的二项分布进行估计。将测序深度D(总读段数/总DNA模板数)和突变频率VAF分别作为二项分布(Binomial Distribution)的实验总次数和成功概率,便有突变读段数/突变模板数X ...
【技术保护点】
【技术特征摘要】
1.一种双重测序的测序深度估计方法,其特征在于,包括:根据双链模板、正向单链模板和负向单链模板的占比情况,为DNA模板赋予标签,并为每条所述DNA模板赋予模板ID;其中,所述DNA模板的数量为饱和测序状态下的检出模板数;生成饱和测序数据,其中,基于零截断负二项分布生成每条所述DNA模板对应的读段数,按照所述读段数的数量关系为支持每条所述DNA模板的读段赋予读段ID;生成突变模板和突变支持读段,其中,根据突变频率选取相应数量的所述DNA模板作为突变模板,并为所述突变模板赋予突变模板标签,统计所述突变模板对应的突变读段的数量作为突变支持读段数;设定次降采样后统计突变检出频率,其中,设定次降采样所述读段到指定测序深度后统计突变检出规则下的突变检出频率;多次重复所述生成饱和测序数据、所述生成突变模板和突变支持读段与所述设定次降采样后统计突变检出频率的步骤,对突变检出频率取均值作为指定测序深度下检出概率的估计值,该值达到设定阈值时对应的测序深度即为稳定检出突变所需的测序深度。2.根据权利要求1所述的方法,其特征在于,在所述根据双链模板、正向单链模板和负向单链模板的占比情况,为多条DNA模板按照相同比例赋予标签,并为每条所述DNA模板赋予模板ID之前,还包括:获取预设参数,其中,所述预设参数包括:饱和测序状态下当前位点的测序深度、所述检出模板数、双链模板占比、读段层次的链偏程度和模板层次的链偏程度,所述突变频率和所述突变检出规则;当前位点降采样的靶标深度。3.根据权利要求2所述的方法,其特征在于,所述根据双链模板、正向单链模板和负向单链模板的占比情况,为多条DNA模板按照相同比例赋予标签,并为每条所述DNA模板赋予模板ID,包括:初始化数量为所述检出模板数的所述DNA模板;按双链模板、正向单链模板和负向单链模板的占比,为所述DNA模板中相同比例的所述DNA模板分别赋予代表双链模板、正向单链模板和负向单链模板的标签;给所有所述DNA模板赋予唯一的模板ID。4.根据权利要求3所述的方法,其特征在于,所述基于零截断负二项分布生成每条所述DNA模板对应的读段数,按照所述读段数的数量关系为支持每条所述DNA模板的读段赋予读段ID,包括:使用零截断负二项分布生成每条所述DNA模板对应的读段数;以每条正向DNA模板对应的读段数的期望E1和每条负向DNA模板对应的读段数的期望E2作为零截断负二项分布的期望值来分别生成每条正向模板对应的读段数和每条负向模板对应的读段数;采用负二项分布的期望和离散参数α的表示形式,通过求解零截断负二项分布和标准负二项分布之间的期望关系公式:可获得标准负二项分布的期望和其中标准负二项分布的α参数是通过预先
统计和调参获得的;给双链的正向模板和正向单链模板按标准负二项分布生成T1个随机数;当生成的随机数为0时,继续生成一个非零的随机数,以便得到服从零截断负二项分布的随机数;给双链的负向模板和负向单链模板按标准负二项分布生成T2个随机数;以上随机数代表每条所述DNA模板对应的读段数,按照每条所述DNA模板对应的读段数给支持每条所述DNA模板的读段赋予读段ID。5.根据权利要求4所述的方法,其特征在于,所述根据突变频率选取相应数量的所述DNA模板作为突变模板,并为所述突变模板赋予突变模板标签,统计所述突变模板对应的突变读段的数量作为突变支持读段数,包括:按照确定突变模板选取数量,其中,VAF表示突变频率,T
satu
表示饱和测序状态下的检出模板数,表示突变模板选取数量;从所述DNA模板中随机选择条所述DNA模板作为所述突变模板,并赋予所述突变...
【专利技术属性】
技术研发人员:王科,方欢,程亚迪,武桂英,
申请(专利权)人:成都吉因加医学检验实验室有限公司苏州吉因加医学检验有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。