本申请公开了一种校正测序错误的UMI序列设计方法及其应用。本申请的UMI序列设计方法,包括将UMI序列设计为由X个碱基序列为单元进行Y次串联重复的序列,UMI序列如公式一:(N1…
A method of UMI sequence design for correcting sequencing errors and its application
【技术实现步骤摘要】
一种校正测序错误的UMI序列设计方法及其应用
[0001]本申请涉及测序错误校正
,特别是涉及一种校正测序错误的UMI序列设计方法及其应用。
技术介绍
[0002]高通量测序技术(High
‑
throughput sequencing)又称“下一代”测序技术(“Next
‑
generation”sequencing technology),简称“NGS”,以能一次并行对几十万到几百万条DNA分子进行序列测定和一般读长较短等为标志。目前所有二代测序的平台在对DNA序列进行测序前都需要构建一个基因文库,这个基因文库则需要包含通过引伸或者连接自定义的接头序列。接头一般分为几部分序列构成:文库扩增序列,index序列,测序引物结合序列,分子标签序列。
[0003]唯一分子标识符(UMI)是一种分子条形码,可在测序过程中提供纠错和提高准确性。这些分子条形码是用于唯一标记样本库中的每个短序列分子。UMI在给定样本库中的每个分子上都包含一个唯一的条形码。通过在每个原始DNA片段上加入单独的条形码,原始样本中存在的变异等位基因(真正的变异)可以与文库制备、目标富集或测序过程中引入的错误区分开来。使用UMI进行测序可以降低假阳性变异检出率并提高变异检测的灵敏度。由于起始材料中的每个核酸都标有唯一的分子条形码,因此生物信息学软件可以高度准确地过滤掉重复读数和PCR错误并报告独特的读数,从而在最终数据分析之前消除已识别的错误。目前在NGS测序行业中UMI已广泛用于各种测序应用。
[0004]由于现有UMI序列设计都是放在插入片段和测序接头之间,所以通常UMI序列都是位于测序读长的前几bp,而读长前几bp往往是测序质量比较差的位置,因此UMI序列在测序中会有较大的测序错误率。目前,对UMI序列的测序错误校正主要包括生物信息学校正技术和湿实验UMI校正技术;但是,现有的两种校正技术都存在不同的缺陷和不足。
[0005]生物信息学校正技术,主要是从生物信息角度出发开发相应的软件,通过复杂的数理建模方法来提高UMI序列的准确度。然而,现有的从生信算法解决UMI测序错误的问题在于失真,通过已经发生测序错误的结果回归校正无法完全还原原本的UMI序列,并且校正一是会浪费一部分数据,二是可能会带来新的错误。
[0006]UMI
‑
tools总结了2014
‑
2015年一些文章中对于UMI错误的解决方案,设置了一套基于邻接和定向方法来校正UMI错误,例如,从UMI序列和单个位点计数估计UMI的方法。在该方法使用UMI计数的情况下,将显示这些计数,利用不同颜色的碱基标注测序错误、PCR错误。Gencole也参考了UMI
‑
tools中对于UMI错误的校正逻辑。
[0007]但是,在实际使用中发现基于生物信息的校正方案在Raw Data深度低于100000
×
的测序中是有效的,可以解决一些由于UMI序列测序错误导致的数据丢失,对于最终UMI合并后的有效测序深度能有效提高。
[0008]然而,随着对低频突变检出的要求越来越高,测序深度越来越高,以上方案显示出潜在的缺陷:1.难以实现对于频率0.1%以下的突变准确检出;2.在ctDNA样本中,即便不断
加测数据的情况下,最终有效测序深度也很难实现>10000
×
;其原因在于,在测序饱和度越来越高的情况下,基于UMI
‑
tools的容错合并逻辑,会导致一些来自不同原始模板的reads错误合并越来越多。错误的合并会造成突变reads被UMI合并流程消除掉的概率越来越大,同时有效测序深度也会由于错误合并而降低。
[0009]湿实验UMI校正技术,例如专利CN110853709A是通过对UMI序列进行筛选,采用7个核苷酸为一组UMI,双端UMI的组合为268435456种;根据筛选原则,并为了增加UMI复杂度,排除2个以上相同碱基连续出现的序列,从单端16384组UMI中挑选出132组UMI。这样如果测出132种组合以外的序列即可认定为测序错误。分析中会进行回复校正,通过对单个碱基发生错误的UMI分子信息进行生物信息比对,对UMI分子进行回复校正,并在分析前剔除无法校正的错误UMI分子。
[0010]该专利的技术方案可以解决一定的问题,但仍然存在一些短板:
[0011]1.无法校正所有的1
‑
2bp错误,虽然筛选序列规避了所有2bp差异的UMI序列,但如果实际测序得到的错误UMI介于两个UMI之间,则无法校正或导致错误校正;例如:列表中umi_1序列为ACACACA,umi_2序列为ACACGAC,如果测序结果为ACACGCC则无法判断是由于umi_1测错2bp还是umi_2测错1bp,只能基于概率推测为umi_2测错1bp,但实际运用中是可能导致一些错误的,特别是对于测序饱和度越来越高的情况下,这些错误出现概率会越来越大。
[0012]2.同样的逻辑,对于2bp或2bp以上测序错误会更加难以校正,并且>=2bp的错误有更大可能导致被识别为正确的UMI。
[0013]3.测序错误比例会随UMI序列长度而累积,7bp的UMI长度会将总体UMI区域测序错误率放大。
[0014]专利CN112466405A设计了另一种UMI序列进行校正,即分子标签由7个碱基的序列单元(B7序列)按照一定的方式串联制备而成,通过编码数学公式的计算,B7序列的最右边3个碱基是最左边4个碱基的校正码,B7序列中任意一个碱基出现错误,都能够通过解码校正数学公式校正回正确的编码序列。
[0015]该专利采用串联重复的设计:所述分子标签序列由n个(E2+B7+F2)单元组成,其中,E2为0~5个碱基;F2为0~5个碱基;B7是7个碱基的序列,n为1~20中任一整数。
[0016]从实际应用角度来说该专利的技术方案存在如下问题:
[0017]1)UMI的长度,按最短的可能来说,E2=0,F2=0,B7=7,n=1,那么整个UMI长度最短为7bp,但n=1无法依赖串联重复设计进行校正。如果要实现串联重复校正,至少要n=3,那么整个UMI序列长度则至少等于21bp,这个长度在实际应用中会导致大量测序读长浪费,对数据利用率和比对都会有影响。
[0018]2)B7的设计,最左边4个碱基需要最右边3个碱基来校正,但其实最右边3个碱基也是会出现测序错误的。这样校正逻辑就存在问题:如果最右边3个碱基无法校正,那么无法校正最左边4个碱基;如果最右边3个碱基可以校正,那么就不需要最左边4个碱基即可确定UMI序列。
[0019]3)该技术方案设计的UMI序列采用PCR扩增制备,在制备过程中会带来累积的PCR扩增错误,导致更多的不可控因素。
[0020]综上所述,现有技术中没有可以适用于100000
×
以上Rawbase深度测序、且不引入
本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种校正测序错误的UMI序列设计方法,其特征在于:包括将UMI序列设计为由X个碱基序列为单元进行Y次串联重复的序列,UMI序列如公式一所示;公式一(N1...N
X
)
Y
公式一中,N表示A、T、C、G碱基中的任意一种,(N1...N
X
)表示X个碱基序列组成的单元,Y表示单元序列重复的次数;2≤X≤6,Y≥3。2.根据权利要求1所述的方法,其特征在于:X为2或3,Y为3。3.根据权利要求1或2所述的方法,其特征在于:在公式一所示的UMI序列基础上还在5
’
端和/或3
’
端设计有1
‑
3bp的平衡碱基。4.一种校正测序错误的UMI序列,其特征在于:所述UMI序列为X个碱基序列为单元进行Y次串联重复的序列,UMI序列如公式一所示;公式一(N1...N
X
)
Y
公式一中,N表示A、T、C、G碱基中的任意一种,(N1...N
X
)表示X个碱基序列组成的单元,Y表示单元序列重复的次数;2≤X≤6,Y≥3。5.根据权利要求4所述的UMI序列,其特征在于:X为2或3,Y为3。6.根据权利要求4或5所述的UMI序列,其特征在于:在公式一所示的UMI序列基础上还在5
’
端和/或3
’
端具有1
‑
3bp的平衡碱基。7.一种含有权利要求4
‑
6任一项所述的UMI序列的接头序列。8.一种含有权利要求4
‑
6任一项所述的UMI序列或权利要求7所述的接头序列的核酸文库。9.一种校正UMI序列测序错误的方法,其特征在于:包括采用权利要求4
‑
6任一项所述的UMI序列,在进行测序时,X个碱基序列组成的单元中,每一位碱基都进行Y次测序和读取,统计每一位碱基Y次测序和读取的碱基类型,以及各碱基类型在Y次测序和读取中出现的次数;如果某一碱基类型出现的次数最多,且大于或等于(Y+1)
÷
2次,则将其确定为该位置的碱基类型;如果所有碱基类型都无法满足次数大于或等于(Y+1)
÷
2次,则不能确定该位置的碱基类型,无法校正,标记为N;所述碱基类型为A、T、C或...
【专利技术属性】
技术研发人员:于源,叶睿,黎美燕,李暾,廖信辉,李艳,李淼,王光杓,吴东方,高志博,
申请(专利权)人:深圳裕康医学检验实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。