一种校正测序错误的UMI序列设计方法及其应用技术

技术编号：34257271 阅读：72 留言：0更新日期：2022-07-24 12:59

本申请公开了一种校正测序错误的UMI序列设计方法及其应用。本申请的UMI序列设计方法，包括将UMI序列设计为由X个碱基序列为单元进行Y次串联重复的序列，UMI序列如公式一：(N1…

A method of UMI sequence design for correcting sequencing errors and its application

全部详细技术资料下载

【技术实现步骤摘要】
一种校正测序错误的UMI序列设计方法及其应用

[0001]本申请涉及测序错误校正
，特别是涉及一种校正测序错误的UMI序列设计方法及其应用。

技术介绍

[0002]高通量测序技术(High
‑
throughput sequencing)又称“下一代”测序技术(“Next
‑
generation”sequencing technology)，简称“NGS”，以能一次并行对几十万到几百万条DNA分子进行序列测定和一般读长较短等为标志。目前所有二代测序的平台在对DNA序列进行测序前都需要构建一个基因文库，这个基因文库则需要包含通过引伸或者连接自定义的接头序列。接头一般分为几部分序列构成：文库扩增序列，index序列，测序引物结合序列，分子标签序列。
[0003]唯一分子标识符(UMI)是一种分子条形码，可在测序过程中提供纠错和提高准确性。这些分子条形码是用于唯一标记样本库中的每个短序列分子。UMI在给定样本库中的每个分子上都包含一个唯一的条形码。通过在每个原始DNA片段上加入单独的条形码，原始样本中存在的变异等位基因(真正的变异)可以与文库制备、目标富集或测序过程中引入的错误区分开来。使用UMI进行测序可以降低假阳性变异检出率并提高变异检测的灵敏度。由于起始材料中的每个核酸都标有唯一的分子条形码，因此生物信息学软件可以高度准确地过滤掉重复读数和PCR错误并报告独特的读数，从而在最终数据分析之前消除已识别的错误。目前在NGS测序行业中UMI已广泛用于各种测序应用。
[...

【技术保护点】

【技术特征摘要】
1.一种校正测序错误的UMI序列设计方法，其特征在于：包括将UMI序列设计为由X个碱基序列为单元进行Y次串联重复的序列，UMI序列如公式一所示；公式一(N1...N
X
)
Y
公式一中，N表示A、T、C、G碱基中的任意一种，(N1...N
X
)表示X个碱基序列组成的单元，Y表示单元序列重复的次数；2≤X≤6，Y≥3。2.根据权利要求1所述的方法，其特征在于：X为2或3，Y为3。3.根据权利要求1或2所述的方法，其特征在于：在公式一所示的UMI序列基础上还在5
’
端和/或3
’
端设计有1
‑
3bp的平衡碱基。4.一种校正测序错误的UMI序列，其特征在于：所述UMI序列为X个碱基序列为单元进行Y次串联重复的序列，UMI序列如公式一所示；公式一(N1...N
X
)
Y
公式一中，N表示A、T、C、G碱基中的任意一种，(N1...N
X
)表示X个碱基序列组成的单元，Y表示单元序列重复的次数；2≤X≤6，Y≥3。5.根据权利要求4所述的UMI序列，其特征在于：X为2或3，Y为3。6.根据权利要求4或5所述的UMI序列，其特征在于：在公式一所示的UMI序列基础上还在5
’
端和/或3
’
端具有1
‑
3bp的平衡碱基。7.一种含有权利要求4
‑
6任一项所述的UMI序列的接头序列。8.一种含有权利要求4
‑
6任一项所述的UMI序列或权利要求7所述的接头序列的核酸文库。9.一种校正UMI序列测序错误的方法，其特征在于：包括采用权利要求4
‑
6任一项所述的UMI序列，在进行测序时，X个碱基序列组成的单元中，每一位碱基都进行Y次测序和读取，统计每一位碱基Y次测序和读取的碱基类型，以及各碱基类型在Y次测序和读取中出现的次数；如果某一碱基类型出现的次数最多，且大于或等于(Y+1)
÷
2次，则将其确定为该位置的碱基类型；如果所有碱基类型都无法满足次数大于或等于(Y+1)
÷
2次，则不能确定该位置的碱基类型，无法校正，标记为N；所述碱基类型为A、T、C或...

【专利技术属性】
技术研发人员：于源，叶睿，黎美燕，李暾，廖信辉，李艳，李淼，王光杓，吴东方，高志博，
申请(专利权)人：深圳裕康医学检验实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人