双重测序的测序深度估计方法、装置、设备及存储介质制造方法及图纸

技术编号:37713486 阅读:15 留言:0更新日期:2023-06-02 00:07
本发明专利技术实施例涉及一种双重测序的测序深度估计方法、装置、设备及存储介质。该方法包括:根据双链模板、正向单链模板和负向单链模板的占比情况,为多条DNA模板按照相同比例赋予标签,并为每条所述DNA模板赋予模板ID;生成饱和测序数据;生成突变模板和突变支持读段;设定次降采样读段到指定测序深度后统计突变检出频率;多次重复所述生成饱和测序数据、所述生成突变模板和突变支持读段与所述设定次降采样后统计突变检出频率的步骤,对突变检出频率取均值作为指定测序深度下检出概率的估计值,该值达到设定阈值时对应的测序深度即为稳定检出突变所需的测序深度。本发明专利技术实施例的技术方案可推荐双重测序时能够保证突变被稳定检出所应使用的测序深度。定检出所应使用的测序深度。

【技术实现步骤摘要】
双重测序的测序深度估计方法、装置、设备及存储介质


[0001]本专利技术涉及生物医学
,尤其涉及一种双重测序的测序深度估计方法、装置、设备及存储介质。

技术介绍

[0002]双重测序技术在ctDNA的低频突变检测领域有着广泛应用。
[0003]双重测序技术利用分子标签(Unique molecule identifier,UMI)技术先将具有相同UMI序列的读段(reads)聚簇并构建单链一致性序列(single strand consensus sequences,SSCSs),然后将拥有互补UMI的SSCSs整合为双链一致性序列(duplex consensus sequences,DCSs)。在DCSs中一致出现的突变被识别为真正的突变,从而实现了与PCR(polymerase chain reaction)错误和测序错误的区分。对于低频突变检测,双重测序仍然存在一个难点:不能保证低频突变在多次实验中被重复和稳定检出。通过提高测序深度能一定程度上解决该问题,而且突变频率(variant allele frequency,VAF)越低的突变被稳定检出所需要的测序深度也越高。因此,确定测序的最低深度要求是保障临床检测正确性所必需的。
[0004]常用的测序深度估计算法是在读段层次或者DNA模板层次上使用简单的二项分布进行估计。将测序深度D(总读段数/总DNA模板数)和突变频率VAF分别作为二项分布(Binomial Distribution)的实验总次数和成功概率,便有突变读段数/突变模板数X服从Binom(D,VAF)分布。如果记检出至少k条突变读段/突变模板时表示该突变被检出,那么对应的突变检出概率为P(X≥k)。反过来,如果已知突变检出概率P(X≥k)为95%,那么对应的实验总次数D便是保证该突变被稳定检出所需要的测序深度。上述使用二项分布的测序深度估计只能单独在读段层次或者单独在DNA模板层次上进行。但是基于双重测序数据判断突变是否被检出时,会同时对突变模板数,以及对每条正向和负向突变模板分别对应的最小突变支持读段数,也就是突变模板链所对应的最小簇规模(family size),进行约束。因此,为了保证低频突变能够被稳定检出,需要设计适用于双重测序技术的测序深度估计方法。
[0005]如何确定测序深度等实验参数来保证低频突变能够被稳定检出仍是一个亟待解决的问题。

技术实现思路

[0006]本专利技术提供一种双重测序的测序深度估计方法、装置、设备及存储介质,目的在于在双重测序技术下,估计检出低频突变的测序深度。
[0007]第一方面,本专利技术实施例提供了一种双重测序的测序深度估计方法,包括:
[0008]根据双链模板、正向单链模板和负向单链模板的占比情况,为多条DNA模板按照相同比例赋予标签,并为每条所述DNA模板赋予模板ID;其中,所述DNA模板的数量为饱和测序状态下的检出模板数;
[0009]生成饱和测序数据,其中,基于零截断负二项分布生成每条所述DNA模板对应的读段数,按照所述读段数的数量关系为支持每条所述DNA模板的读段赋予读段ID;
[0010]生成突变模板和突变支持读段,其中,根据突变频率选取相应数量的所述DNA模板作为突变模板,并为所述突变模板赋予突变模板标签,统计所述突变模板对应的突变读段的数量作为突变支持读段数;
[0011]设定次降采样后统计突变检出频率,其中,设定次降采样所述读段到指定测序深度后统计突变检出规则下的突变检出频率;
[0012]多次重复所述生成饱和测序数据、所述生成突变模板和突变支持读段与所述设定次降采样后统计突变检出频率的步骤,对突变检出频率取均值作为指定测序深度下检出概率的估计值,该值达到设定阈值时对应的测序深度即为稳定检出突变所需的测序深度。
[0013]第二方面,本专利技术实施例提供了一种双重测序的测序深度估计装置,包括:
[0014]模板标记模块,用于根据双链模板、正向单链模板和负向单链模板的占比情况,为多条DNA模板按照相同比例赋予标签,并为每条所述DNA模板赋予模板ID;其中,所述DNA模板的数量为饱和测序状态下的检出模板数;
[0015]生成饱和测序数据模块,用于生成饱和测序数据,其中,基于零截断负二项分布生成每条所述DNA模板对应的读段数,按照所述读段数的数量关系为支持每条所述DNA模板的读段赋予读段ID;
[0016]突变模板读段生成模块,用于生成突变模板和突变支持读段,其中,根据突变频率选取相应数量的所述DNA模板作为突变模板,并为所述突变模板赋予突变模板标签,统计所述突变模板对应的突变读段的数量作为突变支持读段数;
[0017]突变检出频率统计模块,用于设定次降采样后统计突变检出频率,其中,设定次降采样所述读段到指定测序深度后统计突变检出规则下的突变检出频率
[0018]测序深度确定模块,用于多次重复所述生成饱和测序数据、所述生成突变模板和突变支持读段与所述设定次降采样后统计突变检出频率的步骤,对突变检出频率取均值作为指定测序深度下检出概率的估计值,该值达到设定阈值时对应的测序深度即为稳定检出突变所需的测序深度。
[0019]第三方面,本专利技术实施例提供了一种电子设备,包括:
[0020]一个或多个处理器;
[0021]存储器,用于存储一个或多个程序;
[0022]当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本专利技术任意实施例提供的双重测序的测序深度估计方法。
[0023]第四方面,本专利技术实施例提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如本专利技术任意实施例提供的双重测序的测序深度估计方法。
[0024]本专利技术实施例提供的一种双重测序的测序深度估计方法、装置、设备及存储介质,通过DNA模板和读段之间的身份对应关系和数量关系,在已知突变频率和突变检出规则的情况下,推荐双重测序时的测序深度,提出了面向双重测序的低频突变稳定检出的深度估计,不需要生成真实的碱基序列,能够推荐双重测序时能够保证突变被稳定检出所应使用测序深度,在指导双重测序技术的实验参数设置方面具有很大的应用价值。
附图说明
[0025]图1为本专利技术实施例一提供的一种双重测序的测序深度估计方法的流程图;
[0026]图2为本专利技术实施例二提供的一种双重测序的测序深度估计装置的结构示意图;
[0027]图3为本专利技术实施例三提供的一种电子设备的结构示意图;
[0028]图4为本专利技术实施例中的拟合的渐进指数函数曲线的曲线图;
[0029]图5为本专利技术实施例中的双重测序的测序深度估计方法的流程图;
[0030]图6为本专利技术实施例中的测序深度估计的结果线图;
[0031]图7为本专利技术实施例中的测序深度估计的结果热力图。
具体实施方式
[0032]下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种双重测序的测序深度估计方法,其特征在于,包括:根据双链模板、正向单链模板和负向单链模板的占比情况,为DNA模板赋予标签,并为每条所述DNA模板赋予模板ID;其中,所述DNA模板的数量为饱和测序状态下的检出模板数;生成饱和测序数据,其中,基于零截断负二项分布生成每条所述DNA模板对应的读段数,按照所述读段数的数量关系为支持每条所述DNA模板的读段赋予读段ID;生成突变模板和突变支持读段,其中,根据突变频率选取相应数量的所述DNA模板作为突变模板,并为所述突变模板赋予突变模板标签,统计所述突变模板对应的突变读段的数量作为突变支持读段数;设定次降采样后统计突变检出频率,其中,设定次降采样所述读段到指定测序深度后统计突变检出规则下的突变检出频率;多次重复所述生成饱和测序数据、所述生成突变模板和突变支持读段与所述设定次降采样后统计突变检出频率的步骤,对突变检出频率取均值作为指定测序深度下检出概率的估计值,该值达到设定阈值时对应的测序深度即为稳定检出突变所需的测序深度。2.根据权利要求1所述的方法,其特征在于,在所述根据双链模板、正向单链模板和负向单链模板的占比情况,为多条DNA模板按照相同比例赋予标签,并为每条所述DNA模板赋予模板ID之前,还包括:获取预设参数,其中,所述预设参数包括:饱和测序状态下当前位点的测序深度、所述检出模板数、双链模板占比、读段层次的链偏程度和模板层次的链偏程度,所述突变频率和所述突变检出规则;当前位点降采样的靶标深度。3.根据权利要求2所述的方法,其特征在于,所述根据双链模板、正向单链模板和负向单链模板的占比情况,为多条DNA模板按照相同比例赋予标签,并为每条所述DNA模板赋予模板ID,包括:初始化数量为所述检出模板数的所述DNA模板;按双链模板、正向单链模板和负向单链模板的占比,为所述DNA模板中相同比例的所述DNA模板分别赋予代表双链模板、正向单链模板和负向单链模板的标签;给所有所述DNA模板赋予唯一的模板ID。4.根据权利要求3所述的方法,其特征在于,所述基于零截断负二项分布生成每条所述DNA模板对应的读段数,按照所述读段数的数量关系为支持每条所述DNA模板的读段赋予读段ID,包括:使用零截断负二项分布生成每条所述DNA模板对应的读段数;以每条正向DNA模板对应的读段数的期望E1和每条负向DNA模板对应的读段数的期望E2作为零截断负二项分布的期望值来分别生成每条正向模板对应的读段数和每条负向模板对应的读段数;采用负二项分布的期望和离散参数α的表示形式,通过求解零截断负二项分布和标准负二项分布之间的期望关系公式:可获得标准负二项分布的期望和其中标准负二项分布的α参数是通过预先
统计和调参获得的;给双链的正向模板和正向单链模板按标准负二项分布生成T1个随机数;当生成的随机数为0时,继续生成一个非零的随机数,以便得到服从零截断负二项分布的随机数;给双链的负向模板和负向单链模板按标准负二项分布生成T2个随机数;以上随机数代表每条所述DNA模板对应的读段数,按照每条所述DNA模板对应的读段数给支持每条所述DNA模板的读段赋予读段ID。5.根据权利要求4所述的方法,其特征在于,所述根据突变频率选取相应数量的所述DNA模板作为突变模板,并为所述突变模板赋予突变模板标签,统计所述突变模板对应的突变读段的数量作为突变支持读段数,包括:按照确定突变模板选取数量,其中,VAF表示突变频率,T
satu
表示饱和测序状态下的检出模板数,表示突变模板选取数量;从所述DNA模板中随机选择条所述DNA模板作为所述突变模板,并赋予所述突变...

【专利技术属性】
技术研发人员:王科方欢程亚迪武桂英
申请(专利权)人:成都吉因加医学检验实验室有限公司苏州吉因加医学检验有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1