用于检测异常核型的方法和系统技术方案

技术编号:35450944 阅读:17 留言:0更新日期:2022-11-03 12:05
公开了用于检测异常核型的方法和系统。示例方法可包括测定读段覆盖度数据,杂合SNP的等位基因平衡分布,以及未观测到杂合性的染色体区段。然后所述方法和系统可以测定可以指示一个或多个异常核型的一个或多个度量。一个或多个异常核型的一个或多个度量。一个或多个异常核型的一个或多个度量。

【技术实现步骤摘要】
用于检测异常核型的方法和系统
[0001]本申请是申请日为2017年2月13日,申请号为201780021833.8(国际申请号PCT/US2017/017734),专利技术名称为“用于检测异常核型的方法和系统”的专利技术专利申请的分案申请。

技术介绍

[0002]对人类基因组样本的准确医学解释需要了解潜在核型。用于鉴定异常核型,例如拷贝数变体(CNV)的方法,包括在比较基因组杂交(CGH)中使用DNA微阵列,例如使用荧光原位杂交(FISH)、克隆和PCR产物测定、寡核苷酸阵列、基因分型阵列(Carter NP,Nature Genetics 2007;39S16

21))。然而,阵列技术的缺点是可能难以定义(调用)推定的CNV。
[0003]用于由下一代测序数据检测染色体异常的方法很少。已经使用了某些下一代测序全基因组拷贝数变体方法,例如基于读对、分解读段、读段深度和组装的方法(Pirooznia等,Front.Genet.2015;6;138)。然而,现有应用集中于分析来自母体血浆样本的非常轻的脱脂全基因组测序(WGS)数据,以检测非整倍体胎儿游离DNA的部分以进行非侵入性产前检测(NIPT)。在癌症基因组学中已经在一定程度上探索了新一代测序,但考虑到准确测量体细胞染色体异常中克隆镶嵌(mosaicism)程度所必需的覆盖深度,这些分析通常基于SNP阵列。
[0004]已开发的现有方法不能用于由群体规模的全外显子组测序(WES)数据检测异常核型。这些和其他缺点在本公开中得以解决。
专利技术内容
[0005]应理解,下面的概述和下面的详述都仅为示例性和说明性而非限制性的。公开了用于检测异常核型的方法和系统。示例方法可以包括测定多个样本中每条染色体的读段覆盖度数据、杂合SNP的等位基因平衡分布和未观测到杂合性的染色体区段,其中每条染色体包含多个基因组区域;测定所述多个样本中每条染色体的期望读段覆盖度数据;测定所述多个样本中至少一条染色体的读段覆盖度数据与期望读段覆盖度数据之间的偏差;测定对于多个样本中至少一条染色体的多个双等位基因SNP而言,等位基因平衡分布与1:1的期望比的偏差;确定所述偏差是出现在整条染色体上还是仅出现在鉴定的染色体的一部分上;使用补体中的读段覆盖度和等位基因平衡数据进一步细化和验证多个样本中至少一条染色体的鉴定偏差,并将所述至少一条染色体鉴定为异常核型。
[0006]其他优点将在下面的描述中进行部分阐述或者可以通过实践来了解。所述优点将借助于所附权利要求中特别指出的要素和组合来实现和获得。
附图说明
[0007]并入本说明书中并构成其一部分的附图说明了实施方案,并与说明书一起用于解释所述方法和系统的原理:
[0008]图1是说明异常核型检测示例方法的流程图;
[0009]图2是说明示例线性回归模型的图表;
[0010]图3是说明表现出大残差的异常核型的图表;
[0011]图4是说明异常核型检测示例方法的另一流程图;
[0012]图5显示了说明GC含量和覆盖度的关系的图表;
[0013]图6是说明鉴定的异常核型和异常值的图表;
[0014]图7A、7B、7C、7D、7E和7F是等位基因平衡图,其显示了样本的9、13和20号染色体上的异常。子图编号为染色体编号。阴影条(701)表示杂合SNP等位基因平衡为0.5的期望正常变异范围。实线(702)表示全染色体中值等位基因平衡。虚线(703)表示约20SNP滚动窗口中的局部中值等位基因平衡。线(704)表示连续性纯合片段(runs

of

homozygosity);
[0015]图8是与图7A

F中相同的样本的读段覆盖度图;
[0016]图9A、9B、9C、9D、9E和9F是等位基因平衡图,其显示了样本中21号染色体上的异常和涵盖整个X染色体的连续性纯合片段,暗示核型正常的雄性样本仅有一条X染色体。阴影条(901)表示杂合SNP等位基因平衡为0.5的期望正常变异范围。实线(902)表示全染色体中值等位基因平衡。虚线(903)表示约20SNP滚动窗口中的局部中值等位基因平衡。线(904)表示连续性纯合片段;
[0017]图10是与图9A

F中相同的样本的读段覆盖度图;
[0018]图11是说明异常核型检测示例方法的流程图;
[0019]图12是样本4号染色体上的示例等位基因平衡图,其中检测到大的连续性纯合片段(1202),其由于异常区域中纯合SNP间有少量非零等位基因平衡而具有重叠LocalHetAB事件(1204);
[0020]图13A是所有样本的X染色体相对于Y染色体覆盖度比率的图和实线1306所示用于测定雄性(1302)和雌性(1304)样本的阈值。另外,可以使用Y染色体覆盖度比率阈值(虚线1308)鉴定有Y染色体重复的雄性样本;
[0021]图13B是21号染色体的示例图,证明期望的全染色体中值杂合SNP等位基因平衡(ChromHetAB)相对于在特定读段深度阈值下或高于特定读段深度阈值(例如,50X覆盖度,“PCTTARGETBASES50X”QC度量)的覆盖碱基分率增加;可以基于覆盖度度量,基于观测到的相对于期望的ChromHetAB的偏差显著性来分配“层级”评级;
[0022]图14是所有雄性样本X染色体上的ChromHetAB值(x轴)相对于ChromHetAB值的计算中所包括的SNP数量(推定的杂合SNP;y轴)的图。线表示用于基于由大量SNP所支持的高的非零ChromHetAB值来区分X染色体上具有重复的雄性样本的阈值;
[0023]图15是所有LocalHetAB事件(黑色和灰色点)(面积大于示例阈值即垂直线)相对于事件中包括的杂合SNP的数量(y轴)的图,其中对角线表示示例层级评级阈值。灰色点表示具有重叠ROH事件的事件;以及
[0024]图16是说明用于执行所公开的方法的示例性操作环境的方框图。
具体实施方式
[0025]在公开和描述本方法和系统之前,应理解所述方法和系统不限于特定方法、特定部件或特定实施方式。还应理解,本文使用的术语仅仅是为了描述特定实施方案的目的,而非旨在为限制性。
[0026]如说明书和所附权利要求书中所用,除非上下文另外明确指出,否则单数形式“一”、“一种(个)”和“所述(该)”包括复数指示物。本文可以将范围表述为“约”一个特定值,和/或至“约”另一个特定值。在表述此类范围时,另一个实施方案包括从所述一个特定值和/或至另一个特定值。类似地,通过使用先行词“约”将数值表述为近似值时,应该理解该特定值形成了另一个实施方案。应该进一步理解的是,每个范围的端点对于另一个端点很重要并且独立于另一个端点。
[0027]“任选的”或“任选地”意指随后描述的事件或情形可能发生或可能不发生,并且该描述包括所述事件或情形发生的情况和不发生的情况。
[002本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种方法,其包括:测定多个样本中每条染色体的读段覆盖度数据,其中每条染色体包含多个基因组区域;测定所述多个样本中每条染色体的期望读段覆盖度数据;测定所述多个样本中至少一条染色体的所述读段覆盖度数据和所述期望读段覆盖度数据之间的偏差;并且将所述至少一条染色体鉴定为异常核型。2.根据权利要求1所述的方法,其中测定多个样本中每条染色体的读段覆盖度数据包括测定外显子组区域上GC含量在一定范围内并且可映射性分数高于阈值的读段深度的总和,其中每条染色体包含多个基因组区域。3.根据权利要求1所述的方法,其还包括过滤所述读段覆盖度数据。4.根据权利要求3所述的方法,其中过滤所述读段覆盖度数据包括基于所述多个基因组区域中一个或多个基因组区域内的鸟嘌呤

胞嘧啶(GC)含量水平过滤所述读段覆盖度数据。5.根据权利要求4所述的方法,其中基于所述多个基因组区域中一个或多个基因组区域内的鸟嘌呤

胞嘧啶(GC)含量水平过滤所述读段覆盖度数据包括:测定所述多个基因组区域中每一个的GC含量水平;并且排除所述多个基因组区域中GC含量水平在一定范围之外的一个或多个基因组区域。6.根据权利要求3所述的方法,其中过滤所述读段覆盖度数据包括基于所述多个基因组区域中一个或多个基因组区域的可映射性分数来过滤所述多个基因组区域中的所述一个或多个基因组区域。7.根据权利要求6所述的方法,其中基于所述多个基因组区域中一个或多个基因组区域的可映射性分数来过滤所述多个基因组区域中的所述一个或多个基因组区域包括:测定所述多个基因组区域中每个基因组区域的可映射性分数;并且如果所述多个基因组区域中一个或多个基因组区域的可映射性分数低于预定阈值,则排除所述多个基因组中的所述一个或多个基因组区域。8.根据权利要求1所述的方法,其还包括归一化所述读段覆盖度数据。9.根据权利要求8所述的方法,其中归一化所述读段覆盖度数据包括测定每条染色体相对于其他常染色体的全外显子组读段覆盖度比率。10.根据权利要求9所述的方法,其中通过以下方式测定每条染...

【专利技术属性】
技术研发人员:E
申请(专利权)人:瑞泽恩制药公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1