本发明专利技术公开了一种用于监控及纠正测序污染的分子编码检测体系及其应用。所述分子编码检测体系包括至少一条插入式编码核酸序列,所述插入式编码核酸序列包括序列已知的骨架序列区和至少一个可变编码区,所述可变编码区为由A、T、C或G中任意一种或至少两种组成的随机序列,所述可变编码区随机分布于所述骨架序列区内,所述插入式编码核酸序列为单链或双链。本发明专利技术设计特定结构的插入式编码核酸序列,利用所述插入式编码核酸序列对待测样本进行标记,基于高通量测序原始数据进行分析,即可快速有效、识别短期内批内样本间交叉污染和由于长期批次检测造成的历史环境污染。长期批次检测造成的历史环境污染。长期批次检测造成的历史环境污染。
【技术实现步骤摘要】
一种用于监控及纠正测序污染的分子编码检测体系及其应用
[0001]本专利技术属于基因测序
,涉及一种用于监控及纠正测序污染的分子编码检测体系及其应用。
技术介绍
[0002]二代测序技术(NGS)因其超大的信息通量,样本容量和超高的灵敏度以及同时检测多分析目标的能力及单样本分析成本低的优势,成为了现代生物学研究和医学诊断的新兴技术。基于NGS技术的诊断产品越来越多的获得医药监管部门的批准,实现了商业化和技术标准化、工业化,但因为NGS技术流程长、过程复杂、批量建库、集中检测带来的样本间污染问题也造成了工业化诊断的隐患。
[0003]NGS检测污染一般有三个来源:(1)样本处理污染,包括样本信息错误,样本采集过程及核酸提取过程中出现的交叉污染;(2)检测过程污染,一般为复杂的建库过程中出现的试剂如接头index污染或者建库中间产物间的携带或者交叉污染,在同批次大量样本同步建库过程中尤为常见;(3)检测环境污染,由检测环境中的高浓度气溶胶污染分子导致。
[0004]现有的集中上机测序的pooling方法是用分子标签进行文库标记,即用带有额外文库识别序列信息的接头或者引物进行独立建库,通过下机后数据的标签信息回溯分离样本数据,这种做法只是多样本库同时测序信息再分离的解决方案,并不能识别对样本在样本后处理和建库过程的误操作和交叉污染或者残留污染。任何在pooling过程中的污染都会被携带进入测序流程,而这种污染本身也无法通过从下机后数据质控识别和预处理,只能在数据结果分析后才能察觉某个样本是否出现了操作过程污染。样本标签试剂本身在建库过程中的交叉污染甚至会造成人工假污染,即数据污染。现有的样本污染识别、监控的方法主要是通过被动的分析病人样本的性别、对照样本和检测样本的遗传SNP一致度、杂和度等方式实行,必须要等到分析结束后才能得到是否污染的信息,污染后也无法回溯污染来源。对于无对照样本,或者小的靶向测序panel则无法实施。NGS工业化检测急需一种全新的体系来解决上述的样本污染问题。
[0005]综上所述,如何提供一种能够用于监控、识别及纠正高通量测序样本污染的方法,对于基因测序
具有重要意义。
技术实现思路
[0006]针对现有技术的不足和实际需求,本专利技术提供一种用于监控及纠正测序污染的分子编码检测体系及其应用,本专利技术设计插入式分子内标记及其回收系统,对待测样本进行标记,通过对下机数据进行分析前特定的编码序列分析,能够及时有效的识别短期内批内样本间交叉污染和由于长期批次检测造成的历史环境污染。
[0007]为达上述目的,本专利技术采用以下技术方案:
[0008]第一方面,本专利技术提供一种用于监控及纠正测序污染的分子编码检测体系,所述分子编码检测体系包括至少一条插入式编码核酸序列,所述插入式编码核酸序列包括序列
已知的骨架序列区和至少一个可变编码区,所述可变编码区为由A、T、C或G中任意一种或至少两种组成的随机序列,所述可变编码区随机分布于所述骨架序列区内,所述插入式编码核酸序列为单链或双链。
[0009]本专利技术中,设计特定结构的插入式编码核酸序列,一部分为固定的已知参考骨架序列,用于信息回收时的序列回帖比对,另一部分为可变编码区,用于特定的样本信息编码,以进行污染识别。利用所述插入式编码核酸序列对待测样本进行标记,基于高通量测序原始数据进行分析,即可快速有效、识别短期内批内样本间交叉污染和由于长期批次检测造成的历史环境污染,可以作为一套标准的NGS试剂就进行检测实验室质量评估和无复检样本污染检测结果的清洗矫正补救。
[0010]本专利技术中,选择序列已知的序列为骨架序列区,保证与待测样本无同源性。
[0011]优选地,所述插入式编码核酸序列的长度为100~2000bp,包括但不限于101bp、102bp、103bp、104bp、105bp、120bp、200bp、220bp、240bp、260bp、280bp、300bp、500bp、800bp、1000bp、1200bp、1300bp、1400bp、1600bp、1700bp、1800bp、1900bp、1950bp、1980bp、1990bp、1995bp、1998bp或1999bp,优选为200~300bp。
[0012]优选地,所述可变编码区的长度为1~20bp,包括但不限于2bp、3bp、4bp、5bp、6bp、7bp、8bp、10bp、12bp、15bp、16bp、17bp、18bp或19bp,个数为1~4个。
[0013]优选地,所述插入式编码核酸序列根据所述可变编码区不同分为用于识别批间污染的插入式编码核酸序列或用于识别批内污染的插入式编码核酸序列。
[0014]优选地,所述用于识别批间污染的插入式编码核酸序列中可变编码区的长度与所述用于识别批内污染的插入式编码核酸序列中可变编码区的长度不同。
[0015]本专利技术中,所述用于识别批内污染的插入式编码核酸序列的长度可根据需求设计。可以为100到2000个碱基,优选的为200~300个碱基,进一步优选的为240个碱基,每一个可变编码区的总长度一般为1到4个碱基。分布于1到4个位置,优选的每个编码区长度为1个碱基,分布于核酸序列的4个位置。
[0016]本专利技术中,所述用于识别批间污染的插入式编码核酸序列的可变编码区长度可以为1~20个碱基,优选为5个碱基,优选的,用于识别批间污染的分子编码与用于识别批内样本污染的编码区域和方式不同,如批间识别序列的可变编码为连续碱基区,进一步优选的,为防止测序错误或者测序深度不均一造成的信号噪音或者信息损失,批间识别序列的可变编码区可以为两个独立但编码完全相同的连续碱基区在编码信息提取时增加过滤条件提高信息可信度。
[0017]优选地,所述用于识别批间污染的插入式编码核酸序列中可变编码区的长度为1bp,个数为4个。
[0018]优选地,所述用于识别批内污染的插入式编码核酸序列中可变编码区的长度为5bp,个数为2个。
[0019]优选地,所述用于识别批间污染的插入式编码核酸序列包括SEQ ID NO.1所示的序列。
[0020]优选地,所述用于识别批内污染的插入式编码核酸序列包括SEQ ID NO.2所示的序列。
[0021]SEQ ID NO.1:
[0022]CTAAATCGGGGGCTCCCTTTAGGGTTCCGATTTAGTGCTTTACGGCACCTCGACTCCNNNNACTTGATTAGGGTGATGGTTCACGTAGTGGGCCATCGCCCTGATAGACGGTTTTTCGCCCTTTGACGTTGGAGTCCACGTTCTTTAATAGTGGACTCTTGTTCCAAACTGGAACAACNNNNAACCCTATCTCGGTCTATTCTTTTGATTTATAAGGGATTTTGCCGATTTCGGCCTATT。
[0023]SEQ ID NO.2:
[0024]CGTGGCTGGCCACGACGGGCG本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种用于监控及纠正测序污染的分子编码检测体系,其特征在于,所述分子编码检测体系包括至少一条插入式编码核酸序列;所述插入式编码核酸序列包括序列已知的骨架序列区和至少一个可变编码区;所述可变编码区为由A、T、C或G中任意一种或至少两种组成的随机序列;所述可变编码区随机分布于所述骨架序列区内;所述插入式编码核酸序列为单链或双链。2.根据权利要求1所述的用于监控及纠正测序污染的分子编码检测体系,其特征在于,所述插入式编码核酸序列的长度为100~2000bp;所述可变编码区的长度为1~20bp,个数为1~4个。3.根据权利要求1所述的用于监控及纠正测序污染的分子编码检测体系,其特征在于,所述插入式编码核酸序列根据所述可变编码区不同分为用于识别批间污染的插入式编码核酸序列或用于识别批内污染的插入式编码核酸序列;所述用于识别批间污染的插入式编码核酸序列中可变编码区的长度与所述用于识别批内污染的插入式编码核酸序列中可变编码区的长度不同。4.根据权利要求3所述的用于监控及纠正测序污染的分子编码检测体系,其特征在于,所述用于识别批内污染的插入式编码核酸序列中可变编码区的长度为1bp,个数为4个;所述用于识别批间污染的插入式编码核酸序列中可变编码区的长度为5bp,个数为2个;所述用于识别批间污染的插入式编码核酸序列包括SEQ ID NO.1所示的序列;所述用于识别批内污染的插入式编码核酸序列包括SEQ ID NO.2所示的序列。5.根据权利要求1所述的用于监控及纠正测序污染的分子编码检测体系,其特征在于,所述分子编码检测体系中还包括编码信息回收体系;所述编码信息回收体系包括与所述插入式编码核酸序列互补的探针或引物。6.根据权利要求5所述的用于监控及纠正测序污染...
【专利技术属性】
技术研发人员:庞震国,李丽莎,朱振刚,王霞,刘萍萍,汤郡,张亚飞,
申请(专利权)人:迈杰转化医学研究苏州有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。