用于衡量基因组不稳定性的试剂盒、探针及其应用制造技术

技术编号:28120384 阅读:31 留言:0更新日期:2021-04-19 11:26
本发明专利技术提出用于衡量基因组不稳定性的试剂盒及其应用,试剂盒含有的探针集合是通过下列步骤确定的:将参考基因组序列划分为多个一级区域,一级区域含有至少一个已知的SNP位点;针对多个一级区域的每一个,进行SNP过滤;选择缺口区域;基于预期间隔,将缺口区域划分为至少一个二级区域;针对至少一个二级区域的每一个,分别进行二级高频SNP搜寻:由二级区域的中心点向两侧至少一次延伸处理;和在至少一次延伸预定长度之后,在所得到的区域中寻找频率最高的SNP,基于一级高频SNP和二级高频SNP汇总作为起始点SNP,确定三级区域;和基于三级区域,构建特异性识别三级区域的探针。利用该方法,能够有效地获得能够有效地用于分析基因组不稳定性的探针组合。不稳定性的探针组合。

【技术实现步骤摘要】
用于衡量基因组不稳定性的试剂盒、探针及其应用


[0001]本专利技术涉及用于衡量基因组不稳定性的试剂盒、探针及其应用。

技术介绍

[0002]大多数癌细胞都具有基因组不稳定的特征,这是细胞分裂过程中基因组改变的趋势。 癌症通常是由多个控制细胞分裂的基因和抑癌基因的失活导致的。研究显示,基因组的 完整性受到多种监测机制的密切监测,包括DNA损伤检查点、DNA修复机制和有丝分裂 检查点等。这些机制中任何一种调控上的缺陷都常常导致基因组不稳定,从而使细胞易 于发生恶性转化。例如,组蛋白尾部的翻译后修饰与细胞周期和染色质结构的调控密切 相关,DNA甲基化状态与基因组完整性有关。基因组的不稳定性为个体提供了更短的细 胞周期和/或绕过细胞内和免疫控制系统的优势,从而使癌细胞具有生长优势并被选为 恶性转化细胞。基因组不稳定性包括碱基对突变频率增加、微卫星不稳定性(MSI)等小 的结构变异,以及染色体数目或结构改变等显著的结构变异。目前,关于基因组不稳定 起源的机制尚未明确。
[0003]基因组不稳定导致的染色体结构异常是癌细胞的一个关键特征。癌基因或抑癌基因 的单核苷酸多态性或拷贝数变异,是肿瘤发生与恶化的直接驱动因素。基因组不稳定可 引起基因组范围的遗传变异,这些变异会赋予肿瘤细胞克隆性生长与遗传进化的优势, 最终导致肿瘤的耐药以及肿瘤的复发。因此,在细胞内存在多个进化上保守的通路,它 们通过启动DNA修复过程或启动细胞凋亡来响应这些错误。目前,已知有几种DNA修复 途径在DNA损伤后被激活,一般可分为核苷酸切除修复(NER)、碱基切除修复(BER)、错 配修复(MMR)、DNA双链断裂修复(DSBR)。
[0004]然而,目前分析基因组不稳定性的手段仍有待改进。

技术实现思路

[0005]本专利技术旨在至少在一定程度上解决相关技术的技术问题至少之一。有鉴于此,本发 明提出了一种能够以便捷方式寻找有效的探针组合以进行基因组不稳定性分析的方法。 该方法能够快速、低成本地或有效的探针组合,该探针组合,能够提供充足的SNP测序 数据以分析核酸样本中的基因组不稳定性信息。
[0006]在本专利技术的一个方面,本专利技术提出了一种构建探针集合的方法。根据本专利技术的实施 例,该方法包括:(1)基于预先确定的预期区间数目和预期间隔的至少之一,将参考 基因组序列划分为多个一级区域,所述一级区域含有至少一个已知的SNP位点;(2) 针对所述多个一级区域的每一个,进行SNP过滤,以便获得一级高频SNP,并将所述一 级区域划分为含有所述一级高频SNP的一级区域和不含所述一级高频SNP的一级区域, 所述一级高频SNP为所述一级区域中的频率最高SNP并且所述一级高频SNP的频率不低 于预定频率;(3)选择相邻所述一级高频SNP之间的距离超过预定阈值的区域作为缺 口区域,所述预定阈值不低于所述预期间隔的1.5倍;(4)基于所述预期间隔,将所 述缺口区域划分为至少一个二级区
域;(5)针对所述至少一个二级区域的每一个,分 别进行二级高频SNP搜寻,所述二级高频SNP的频率不低于所述预定频率:(a)由所 述二级区域的中心点向两侧至少一次延伸处理,所述延伸处理由所述中心点两侧延伸预 定长度;和(b)在所述至少一次延伸预定长度之后,在所得到的区域中寻找频率最高 的SNP,如果该SNP的频率不低于10%,则选择该SNP作为所述二级高频SNP,其中,在 获得所述二级高频SNP时停止所述延伸处理,或者在经过所述延伸处理后的区域长度超 过所述预定阈值时停止所述延伸处理,(6)基于所述一级高频SNP和所述二级高频SNP 汇总作为起始点SNP,确定三级区域,所述三级区域是在所述起始点SNP的两侧延伸预 定长度而确定的;和(7)基于所述三级区域,构建特异性识别所述三级区域的探针, 所述探针适于确定基因组不稳定性。
[0007]利用该方法,能够有效地获得能够有效地用于分析基因组不稳定性的探针组合,首 先,利用本专利技术的方法得到的SNP区域具有一定的密度,能够有效地对基因组的测序结 果进行分析,同时,又无需过多的冗余探针,从而能够节省生产、分析的成本。
[0008]在本专利技术的第二方面,本专利技术提出了一组探针,所述探针是通过前面任一项所述的 方法构建的。
[0009]由此,利用该探针组合,能够有效地对核酸样本进行筛选,从而有效地降低测序成 本和分析成本,同时,又能够有效地分析核酸样本中可能存在的基因组不稳定性信息, 尤其是采用本专利技术的分析方法能够进一步提高分析核酸样本中可能存在的基因组不稳 定性信息的效率。
[0010]在本专利技术的第三方面,本专利技术提出了一种筛选芯片,其携带前面所述的一组探针。 由此,利用该芯片,能够有效地对核酸样本进行筛选,从而有效地降低测序成本和分析 成本,同时,又能够有效地分析核酸样本中可能存在的基因组不稳定性信息。
[0011]在本专利技术的第四方面,本专利技术提出了一种一种测序方法,其包括:基于核酸样本, 构建测序文库;和对所述测序文库进行测序,其中,在所述构建测序文库的过程中,采 用前面所述的探针或者前面所述的筛选芯片进行筛选,以便获得来自所述三级区域的测 序文库。
[0012]在本专利技术的第四方面,本专利技术提出了一种确定基因组不稳定性的方法,其特征在于, 包括:(i)根据前面所述的方法对目标生物核酸样本进行测序;(ii)基于所述测序 结果,确定所所述核酸样本中存在的所述基因组不稳定性,可选的,步骤(ii)进一步 包括:(1)针对待测样本,获取来自多个捕获区域的测序数据,所述多个捕获区域的每一 个均含有至少一个SNP位点;(2)针对所述多个捕获区域的每一个,确定所述捕获区域的 BAF数值和LRR数值,所述BAF数值表征所述捕获区域中中位SNP位点突变基因型频率,所 述LRR数值是通过公式Log2(待测样本的测序深度/对照样本的测序深度)确定的;(3) 基于所述捕获区域的BAF数值和所述LRR数值,对所述多个捕获区域进行离群点去除,以便 获得经过过滤处理的所述多个捕获区域;(4)基于所述捕获区域的所述BAF数值和所述LRR 数值,对至少一条染色体进行至少一轮分段处理,以便分别获得BAF一级分选片段和LRR一 级分选片段;(5)针对所述BAF一级分选片段和LRR一级分选片段,进行断点集合合并, 并基于所述断点的组合,确定二级分选片段;(6)基于预定的合并阈值,对所述二级分选 片段进行迭代式合并处理,以便获得三级分选片段;(7)基于预定片段长度阈值对所述三 级分选片段进行过滤和切割处理,以便获得多个四级分选片段,所述四级分选片段的长度为 3~11Mb,可选
的,所述四级分选片段的长度为4.5~5.5Mb;(8)基于所述四级分选片段中 所包含捕获区域的BAF数值,将所述四级分选片段与对照样本中相应区域的BAF数值进行同 分布检验,并基于预定的检验阈值和各所述四级分选片段中BAF离群点去除前后的密度比 值,将各所述四级分选片段归类为平衡片段、非平衡片段、纯合片段或者非纯合片段,其中, 所述四级分选片段中BAF离群点去除前后的密度比本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于衡量基因组不稳定性的试剂盒,所述试剂盒含有探针集合,其特征在于,所述探针集合是通过下列步骤确定的:(1)基于预先确定的预期区间数目和预期间隔的至少之一,将参考基因组序列划分为多个一级区域,所述一级区域含有至少一个已知的SNP位点;(2)针对所述多个一级区域的每一个,进行SNP过滤,以便获得一级高频SNP,并将所述一级区域划分为含有所述一级高频SNP的一级区域和不含所述一级高频SNP的一级区域,所述一级高频SNP为所述一级区域中的频率最高SNP并且所述一级高频SNP的频率不低于预定频率;(3)选择相邻所述一级高频SNP之间的距离超过预定阈值的区域作为缺口区域,所述预定阈值不低于所述预期间隔的1.5倍;(4)基于所述预期间隔,将所述缺口区域划分为至少一个二级区域;(5)针对所述至少一个二级区域的每一个,分别进行二级高频SNP搜寻,所述二级高频SNP的频率不低于所述预定频率:(a)由所述二级区域的中心点向两侧至少一次延伸处理,所述延伸处理由所述中心点两侧延伸预定长度;和(b)在所述至少一次延伸预定长度之后,在所得到的区域中寻找频率最高的SNP,如果该SNP的频率不低于10%,则选择该SNP作为所述二级高频SNP,其中,在获得所述二级高频SNP时停止所述延伸处理,或者在经过所述延伸处理后的区域长度超过所述预定阈值时停止所述延伸处理,(6)基于所述一级高频SNP和所述二级高频SNP汇总作为起始点SNP,确定三级区域,所述三级区域是在所述起始点SNP的两侧延伸预定长度而确定的;和(7)基于所述三级区域,构建特异性识别所述三级区域的探针,所述探针适于确定基因组不稳定性。2.根据权利要求1所述的试剂盒,其特征在于,针对人类基因组序列,所述预定区间数目为不小于10万。3.根据权利要求1所述的试剂盒,其特征在于,所述预期间隔与所述预期区间数目的乘积为参考基因组序列的总长度。4.根据权利要求1所述的试剂盒,其特征在于,步骤(2)中所述预定频率不低于5%,优选不低于10%,优选的,在步骤(2)采用东亚人群SNP频率。5.根据权利要求1所述的试剂盒,其特征在于,所述二级区域与所述一级区域的长度相同,并且等于所述预期间隔。6.根据权利要求1所述的试剂盒,其特征在于,在步骤(a)中,所述预定长度为不低于500bp,优选1000bp。7.根据权利要求1所述的试剂盒,其特征在于,步骤(6)中,所述三级区域是基于所述起始点SNP向左延伸60bp,向右延伸59bp而确定的。8.根据权利要求1所述的试剂盒,其特征在于,进一步包括:在异常区域中,选择补充SNP,所述补充SNP适于提高所述起始点SNP在所述参考基因组上分布的均一性;和将所述补充SNP输入至步骤(6)中作为所述起始点SNP,
其中,所述异常区域包括选自下列的至少之一:所述不含所述一级高频SNP的一级区域;难以合成探针的区域;和在步骤(5)中无法获取所述二级高频SNP的二级区域。9.一组探针,所述探针是通过权利要求1~8任一项所述的方法构建的。10.一种筛选芯片,其特征在于,携带权利要求9所述的一组探针。11.一种测序方法,其特征在于,包括:基于核酸样本,构建测序文库;和对所述测序文库进行测序,其中,在所述构建测序文库的过程中,采用权利要求9所述的探针或者权利要求10所述的筛选芯片进行筛选,以便获得来自所述三级区域的测序文库。12.一种确定基因组不稳定性的方法,其特征在于,包括:(i)根据权利要求11所述的方法对目标生物核酸样本进行测序;(ii)基于所述测序结果,确定所所述核酸样本中存在的所述基因组不稳定性,可选的,步骤(ii)进一步包括:(1)针对待测样本,获取来自多个捕获区域的测序数据,所述多个捕获区域的每一个均含有至少一个SNP位点;(2)针对所述多个捕获区域的每一个,确定所述捕获区域的BAF数值和LRR数值,所述BAF数值表征所述捕获区域中中位SNP位点突变基因型频率,所述LRR数值是通过公式Log2(待测样本的测序深度/对照样本的测序深度)确定的;(3)基于所述捕获区域的BAF数值和所述LRR数值,对所述多个捕获区域进行离群点去除,以便获得经过过滤处理的所述多个捕获区域;(4)基于所述捕获区域的所述BAF数值和所述LRR数值,对至少一条染色体进行至少一轮分段处理,以便分别获得BAF一级分选片段和LRR一级分选片段;(5)针对所述BAF一级分选片段和LRR一级分选片段,进行断点集合...

【专利技术属性】
技术研发人员:焦阳陈冬菊宋程程蔡宇航李红梅孟培王春丽邵明辉石太平
申请(专利权)人:天津华大医学检验所有限公司华大生物科技武汉有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1