使用孕妇体内的长游离片段进行的分子分析制造技术

技术编号:34944137 阅读:72 留言:0更新日期:2022-09-17 12:19
本文所描述的方法和系统涉及使用长游离DNA片段分析来自怀孕个体的生物样本。常常使用甲基化CpG位点和单核苷酸多型性(SNP)的状态分析生物样本的DNA片段。CpG位点和SNP通常与最近的CpG位点或SNP间隔数百个或数千个碱基对。在大部分游离DNA片段上找到两个或更多个连续CpG位点或SNP是不大可能或不可能的。长于600bp的游离DNA片段可包含多个CpG位点和/或SNP。与单独短游离DNA片段相比,在长游离DNA片段上存在多个CpG位点和/或SNP可允许进行分析。长游离DNA片段可用于识别起源组织和/或用于提供关于怀孕女性体内胎儿的信息。于提供关于怀孕女性体内胎儿的信息。于提供关于怀孕女性体内胎儿的信息。

【技术实现步骤摘要】
【国外来华专利技术】使用孕妇体内的长游离片段进行的分子分析
[0001]相关申请的交叉引用
[0002]本申请要求2020年2月5日提交的美国临时申请第62/970,634号和2021年1月8日提交的美国临时申请第63/135,486号的优先权,所述两案的全部内容出于所有目的并入本文中。

技术介绍

[0003]已报告孕妇体内的循环游离DNA的模态尺寸为约166bp(Lo等人《科学转化医学(Sci Transl Med.)》2010;2:61ra91)。存在极少关于大于600bp的片段的公布数据。一个实例为报告使用PCR进行的来自母体血浆的Y染色体的碱性蛋白Y2基因(BPY2)的8kb片段扩增的Amicucci等人的作品(Amicucci等人《临床化学(Clin Chem)》2000;40:301

2)。尚不知晓所述数据是否可在整个基因组中通用。实际上,使用大规模平行短读段测序技术,例如使用Illumina平台检测例如大于600bp的所述长DNA片段存在许多挑战(Lo等人《科学转化医学》2010;2:61ra91;Fan等人,《临床化学》2010;56:1278

86)。这些挑战包含:(1)Illumina测序平台的推荐尺寸范围跨度通常为100

300bp(De Maio等人《微生物基因组学(Micob Genom.)》2019;5(9));(2)DNA扩增应参与在流量槽上的测序文库制备(经由PCR)或测序集群生成(经由桥式扩增)。此类扩增过程可促进扩增较短DNA片段,此部分归因于以下事实:长DNA模板(例如>600bp)应需要相较于短DNA模板(例如<200bp)而言相对长的时间来完成子股合成。因此,在于Illumina平台上测序之前或期间的这些PCR过程的固定时间框内,子股未能在PCR过程期间完全生成的那些长DNA分子将在下游分析中不可用;(3)长DNA分子将具有更大概率形成妨碍扩增的二级结构;(4)使用Illumina测序技术,长DNA分子将相较于短DNA分子而言更可能产生含有超过一个克隆DNA分子的集群,这是因为文库被变性、稀释且扩散在二维表面上,接着进行桥式扩增(Head等人《生物技术(Biotechniques.)》2014;56:61

4)。

技术实现思路

[0004]本文所描述的方法和系统涉及使用长游离DNA片段分析生物样本。使用这些长游离DNA片段允许进行未考虑的分析或用较短游离DNA片段不可能进行的分析。常常使用甲基化CpG位点和单核苷酸多型性(SNP)的状态分析生物样本的DNA片段。CpG位点和SNP通常与最近的CpG位点或SNP间隔数百个或数千个碱基对。生物样本中的大部分游离DNA片段的长度通常小于200bp。因此,在大部分游离DNA片段上找到两个或更多个连续CpG位点或SNP是不大可能或不可能的。包含长于600bp或1kb的游离DNA片段的长于200bp的游离DNA片段可包含多个CpG位点和/或SNP。与单独短游离DNA片段相比,在长游离DNA片段上存在多个CpG位点和/或SNP可允许进行更高效和/或更准确的分析。长游离DNA片段可用于识别起源组织且/或用于提供关于怀孕女性体内胎儿的信息。另外,使用长游离DNA片段准确地分析来自孕妇的样本是出乎意料的,这是因为我们预期所述长游离DNA片段主要是母体起源。我们不预期胎儿起源的长游离DNA片段以足以提供关于胎儿的信息的量存在。
[0005]存在有SNP的长游离DNA片段可用于确定胎儿遗传的单倍型。长游离DNA片段通过具有多个CpG位点而可具有指示起源组织的甲基化模式。另外,三核苷酸重复序列和其它重复序列可存在于长游离DNA片段上。这些重复序列可用于确定胎儿的遗传病症的可能性或胎儿亲缘。长游离DNA片段的量可用于确定胎龄。类似地,在长游离DNA片段的末端处的基序也可用于确定胎龄。长游离DNA片段(包含例如所述片段的量、长度分布、基因组位置、甲基化状态等)可用于确定怀孕相关病症。
[0006]本公开的这些和其它实施例详细描述于下文中。举例来说,其它实施例涉及与本文所描述的方法相关的系统、装置和计算机可读媒体。
[0007]可参考以下具体实施方式和附图来获得对本公开的实施例的性质和优点的更好理解。
附图说明
[0008]图1A和图1B显示根据本专利技术实施例的确定的游离DNA的尺寸分布。(A)在线性尺度上的0

20kb,(B)在对数尺度上的0

20kb。
[0009]图2A和图2B显示根据本专利技术实施例的确定的游离DNA的尺寸分布。(A)y轴的在线性尺度上的0

5kb。(B)y轴的在对数尺度上的0

5kb。
[0010]图3A和图3B显示根据本专利技术实施例的确定的游离DNA的尺寸分布。(A)y轴的在线性尺度上的0

400bp。(B)y轴的在对数尺度上的0

400bp。
[0011]图4A和图4B显示根据本专利技术实施例的确定的于携带共享等位基因的片段(共享)与携带胎儿特异性等位基因的片段(胎儿特异性)之间的游离DNA的尺寸分布。(A)y轴的在线性尺度上的0

20kb bp。(B)y轴的在对数尺度上的0

20kb。蓝线指示携带共享等位基因的片段(主要是母体起源)且红线指示携带胎儿特异性等位基因的片段(是胎盘起源)。
[0012]图5A和图5B显示根据本专利技术实施例的确定的于携带共享等位基因的片段(共享)与携带胎儿特异性等位基因的片段(胎儿特异性)之间的游离DNA的尺寸分布。(A)y轴的在线性尺度上的0

5kb bp。(B)y轴的在对数尺度上的0

5kb。蓝线指示携带共享等位基因的片段(主要是母体起源)且红线指示携带胎儿特异性等位基因的片段(是胎盘起源)。
[0013]图6A和图6B显示根据本专利技术实施例的确定的于携带共享等位基因的片段(共享)与携带胎儿特异性等位基因的片段(胎儿特异性)之间的游离DNA的尺寸分布。(A)y轴的在线性尺度上的0

1kb。(B)y轴的在对数尺度上的0

1kb。蓝线指示携带共享等位基因的片段(主要是母体起源)且红线指示携带胎儿特异性等位基因的片段(是胎盘起源)。
[0014]图7A和图7B显示根据本专利技术实施例的确定的于携带共享等位基因的片段(共享)与携带胎儿特异性等位基因的片段(胎儿特异性)之间的游离DNA的尺寸分布。(A)y轴的在线性尺度上的0

400bp。(B)y轴的在对数尺度上的0

400bp。蓝线指示携带共享等位基因的片段(主要是母体起源)且红线指示携带胎儿特异性等位基因的片段(是胎盘起源)。
[0015]图8显示根据本专利技术实施例的于携带母体特异性等位基因的片段与携带胎儿特异性等位基因的片段之间的单分子双股D本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种分析获自怀有胎儿的女性的生物样本的方法,所述女性在第一染色体区中具有第一单倍型和第二单倍型,所述生物样本包含来自所述胎儿和所述女性的多个游离DNA分子,所述方法包括:接收对应于所述多个游离DNA分子的读段;测量所述多个游离DNA分子的尺寸;识别来自所述多个游离DNA分子的第一组游离DNA分子为具有大于或等于截止值的尺寸;由对应于所述第一组游离DNA分子的读段确定所述第一单倍型的序列和所述第二单倍型的序列;将来自所述多个游离DNA分子的第二组游离DNA分子与所述第一单倍型的所述序列进行比对,所述第二组游离DNA分子具有小于所述截止值的尺寸;将来自所述多个游离DNA分子的第三组游离DNA分子与所述第二单倍型的所述序列进行比对,所述第三组游离DNA分子具有小于所述截止值的尺寸;使用所述第二组游离DNA分子测量参数的第一值;使用所述第三组游离DNA分子测量所述参数的第二值;比较所述第一值与所述第二值;和基于所述第一值与所述第二值的所述比较确定所述胎儿遗传所述第一单倍型的可能性。2.根据权利要求1所述的方法,其中所述截止值为600nt。3.根据权利要求1所述的方法,其中所述截止值为1knt。4.根据权利要求1至3中任一项所述的方法,其中由对应于所述第一组游离DNA分子的所述读段确定所述第一单倍型的所述序列和所述第二单倍型的所述序列包括:将对应于所述第一组游离DNA分子的读段与参考基因组进行比对。5.根据权利要求1所述的方法,其中由对应于所述第一组游离DNA分子的所述读段确定所述第一单倍型的所述序列和所述第二单倍型的所述序列包括:将所述读段的第一子组与所述读段的第二子组进行比对以识别所述读段中的基因座处的不同等位基因,确定所述读段的所述第一子组在所述基因座处具有第一等位基因,确定所述读段的所述第二子组在所述基因座处具有第二等位基因,确定所述读段的所述第一子组对应于所述第一单倍型,和确定所述读段的所述第二子组对应于所述第二单倍型。6.根据权利要求1至5中任一项所述的方法,其中所述参数为游离DNA分子计数、游离DNA分子尺寸概况或游离DNA分子甲基化程度。7.根据权利要求6所述的方法,其中:所述参数为所述游离DNA分子计数,且所述方法进一步包括:当所述第一值大于所述第二值时,确定所述胎儿遗传所述第一单倍型的可能性高于遗传所述第二单倍型的可能性。8.根据权利要求6所述的方法,其中:
所述参数为所述游离DNA分子尺寸概况,且所述方法进一步包括:当所述第一值小于所述第二值时,确定所述胎儿遗传所述第一单倍型的可能性高于遗传所述第二单倍型的可能性,指示所述第二组游离DNA分子的特征在于小于所述第三组游离DNA分子的尺寸概况。9.根据权利要求6所述的方法,其中:所述参数为所述游离DNA分子甲基化程度,且所述方法进一步包括:当所述第一值小于所述第二值时,确定所述胎儿遗传所述第一单倍型的可能性高于遗传所述第二单倍型的可能性。10.根据权利要求1至9中任一项所述的方法,其进一步包括:使用所述第一值和所述第二值计算分离值;比较所述分离值与截止值;和基于所述分离值与所述截止值的所述比较确定胎儿非整倍体的可能性。11.根据权利要求10所述的方法,其中:从来自怀有整倍体胎儿的怀孕女性的参考样本确定所述截止值,从来自怀有非整倍体胎儿的怀孕女性的参考样本确定所述截止值,或假定为非整倍体胎儿,计算所述截止值。12.根据权利要求1至11中任一项所述的方法,其进一步包括:识别对应于所述第一组游离DNA分子的所述读段中的一读段中的子序列的重复序列的数目,其中:确定所述第一单倍型的所述序列包括确定所述第一单倍型的所述序列包括所述子序列的重复序列的数目。13.根据权利要求12所述的方法,其中:所述子序列的所述重复序列与重复序列相关疾病相关,且所述方法进一步包括确定所述胎儿遗传所述重复序列相关疾病的可能性。14.一种分析获自怀有胎儿的女性的生物样本的方法,所述生物样本包含来自所述胎儿和所述女性的多个游离DNA分子,所述方法包括:接收对应于所述多个游离DNA分子的序列读段;测量所述多个游离DNA分子的尺寸;识别来自所述多个游离DNA分子的一组游离DNA分子为具有大于或等于截止值的尺寸;且对于所述组游离DNA分子中的一个游离DNA分子:确定多个位点中的各位点处的甲基化状态,确定甲基化模式,其中:所述甲基化模式使用对应于所述游离DNA分子的一个或多个序列读段指示所述多个位点中的各位点处的甲基化状态,比较所述甲基化模式与一个或多个参考模式,其中所述一个或多个参考模式中的各者
针对特定组织类型加以确定;和使用所述甲基化模式确定所述游离DNA分子的起源组织。15.根据权利要求14所述的方法,其中所述截止值为600nt。16.根据权利要求14所述的方法,其中所述截止值为1knt。17.根据权利要求14至16中任一项所述的方法,其进一步包括通过以下确定所述组游离DNA分子中的各游离DNA分子的所述起源组织:确定多个对应位点中的各位点处的甲基化状态,其中所述多个对应位点对应于所述游离DNA分子,确定所述甲基化模式,和比较所述甲基化模式与所述一个或多个参考模式中的至少一个参考模式。18.根据权利要求17所述的方法,其进一步包括:测定对应于各起源组织的游离DNA分子的量,和使用对应于各起源组织的游离DNA分子的所述测量定所述生物样本中的所述起源组织的贡献分率。19.根据权利要求14至18中任一项所述的方法,其中测量所述多个游离DNA分子的所述尺寸包括:将所述序列读段与参考基因组进行比对。20.根据权利要求14至18中任一项所述的方法,其中测量所述多个游离DNA分子的尺寸包括:对所述多个游离DNA分子进行全长测序,和计数所述多个游离DNA分子中的各游离DNA分子中的核苷酸的数目。21.根据权利要求14或17所述的方法,其中测量所述多个游离DNA分子的所述尺寸包括:将来自所述生物样本的所述多个游离DNA分子与所述生物样本中的其它游离DNA分子以物理方式分离,其中所述其它游离DNA分子具有小于所述截止值的尺寸。22.根据权利要求14至21中任一项所述的方法,其中所述一个或多个参考模式中的一个参考模式通过以下确定:使用来自参考组织的DNA分子测量多个参考位点中的各参考位点处的甲基化密度,比较所述多个参考位点中的各参考位点处的所述甲基化密度与一个或多个阈值甲基化密度,和基于比较所述甲基化密度与所述一个或多个阈值甲基化密度来识别所述多个参考位点中的各参考位点为甲基化、未甲基化或非信息性的,其中所述多个位点为经识别为甲基化或未甲基化的所述多个参考位点。23.根据权利要求14至22中任一项所述的方法,其中所述起源组织为胎盘。24.根据权利要求14至22中任一项所述的方法,其中所述起源组织为胎儿或母体的。25.根据权利要求24所述的方法,其中:所述起源组织为胎儿的,所述方法进一步包括:将所述序列读段中的一序列读段与参考基因组的第一区进行比对,所述第一区包括对
应于等位基因的多个位点,所述多个位点包含阈值数目个位点,使用所述多个位点中的各位点处存在的对应等位基因确定第一单倍型,比较所述第一单倍型与对应于男性个体的第二单倍型,和使用所述比较确定所述男性个体为所述胎儿的父亲的可能性的分类。26.根据权利要求24所述的方法,其中:所述起源组织为胎儿的,所述方法进一步包括:将所述序列读段中的一序列读段与参考基因组的第一区进行比对,所述第一区包括对应于等位基因的第一多个位点,所述多个位点包含阈值数目个位点,比较所述多个位点中的各位点处的等位基因与男性个体的基因组中对应位点处的等位基因,和使用所述比较确定所述男性个体为所述胎儿的父亲的可能性的分类。27.根据权利要求24所述的方法,其进一步包括:对于所述组游离DNA分子中的各游离DNA分子:将对应于所述游离DNA分子的序列读段与参考基因组进行比对,识别所述序列读段为对应于所述女性中所存在的单倍型,使用所述甲基化模式确定所述起源组织为胎儿的,和确定所述单倍型为母体遗传胎儿单倍型。28.根据权利要求27所述的方法,其进一步包括:识别所述单倍型为携带致病遗传突变或变异,和对所述胎儿可能患有由所述遗传突变或变异造成的疾病进行分类。29.根据权利要求28所述的方法,其中识别所述单倍型为携带所述致病遗传突变包括:识别第一序列读段中的所述遗传突变或变异,测量对应于在所述第一序列读段的第一距离内的第一基因组位置的第二序列读段中的第一甲基化程度,和测量对应于在所述第一序列读段的第二距离内的第二基因组位置的第三序列读段中的第二甲基化程度,其中:所述第一甲基化程度和所述第二甲基化程度与所述遗传突变相关。30.根据权利要求24所述的方法,其进一步包括:对于所述组游离DNA分子中的各游离DNA分子:将对应于所述游离DNA分子的序列读段与参考基因组进行比对,识别所述序列读段为对应于一区,其中所述区通过以下确定:接收对应于来自胎儿组织的多个胎儿DNA分子的多个胎儿序列读段,接收对应于多个母体DNA分子的多个母体序列读段,针对所述多个胎儿序列读段中的各胎儿序列读段确定在所述区内的多个甲基化位点中的各甲基化位点处的胎儿甲基化状态,针对所述多个母体序列读段中的各母体序列读段确定所述多个甲基化位点中的各甲基化位点处的母体甲基化状态,测定表征其中所述胎儿甲基化状态不同于所述母体甲基化状态的位点的量的参数的
值,比较所述参数的所述值与阈值,和确定所述参数的所述值超过所述阈值。31.根据权利要求14至28中任一项所述的方法,其中所述截止值为至少500nt。32.根据权利要求14至31中任一项所述的方法,其中确定所述游离DNA分子的所述起源组织包括将所述甲基化模式输入机器学习模型中,所述模型通过以下加以训练:接收多个训练甲基化模式,各训练甲基化模式在所述多个位点中的一个或多个位点处具有甲基化状态,各训练甲基化模式由来自已知组织的DNA分子确定,储存多个训练样本,各训练样本包含所述多个训练甲基化模式中的一者和指示对应于所述训练甲基化模式的所述已知组织的标签,和当将所述多个训练甲基化模式输入所述模型中时使用所述多个训练样本基于匹配或不匹配对应标签的所述模型的多个输出来最佳化所述模型的参数,其中所述模型的一个输出指明对应于输入甲基化模式的组织。33.根据权利要求32所述的方法,其中所述机器学习模型包括卷积类神经网络(CNN)、线性回归、逻辑回归、深度递归神经网络、贝氏分类器(Bayes's classifier)、隐藏马可夫模型(hidden Markov model,HMM)、线性鉴别分析(LDA)、k平均集群、具有噪音的应用的基于密度的空间集群(DBSCAN)、随机森林算法或支持向量机(SVM)。34.根据权利要求32所述的方法,其中来自所述已知组织的各DNA分子为细胞DNA。35.根据权利要求32或34所述的方法,其中所述模型的所述参数包括指示所述多个位点中的一个位点是否具有与所述多个位点中的另一位点相同的甲基化状态的第一参数。36.根据权利要求32至35中任一项所述的方法,其中所述模型的所述参数包括指示所述多个位点中的各位点之间的距离的第二参数。37.根据权利要求14至31中任一项所述的方法,其中所述一个或多个参考模式中的一个参考模式对应于参考组织,所述方法进一步包括当所述甲基化模式匹配所述参考模式时,确定所述起源组织为所述参考组织。38.根据权利要求14至37中任一项所述的方法,其中所述多个位点包括至少5个CpG位点。39.根据权利要求14至31中任一项所述的方法,其中使用所述甲基化模式确定所述起源组织包括:通过比较所述甲基化模式与来自多个参考组织中的第一参考组织的第一参考甲基化模式来确定类似性分数;比较所述类似性分数与阈值;和当所述类似性分数超过所述阈值时,确定所述起源组织为所述第一参考组织。40.根据权利要求39所述的方法,其中:所述类似性分数为第一类似性分数,所述方法进一步包括:通过以下计算所述阈值:通过比较所述甲基化模式与来自所述多个参考组织中的第二参考组织的第二参考甲
基化模式来确定第二类似性分数,所述第一参考组织与所述第二参考组织为不同组织,所述阈值为所述第二类似性分数。41.根据权利要求39或40所述的方法,其中:所述第一参考甲基化模式包括对于所述第一参考组织而言具有至少第一甲基化机率的第一子组位点,所述第一参考甲基化模式包括对于所述第一参考组织而言具有至多第二甲基化机率的第二子组位点,且确定所述类似性分数包括:当所述多个位点中的一个位点为甲基化的且所述多个位点中的所述位点处于所述第一子组位点中时增加所述类似性分数,和当所述多个位点中的一个位点为甲基化的且所述多个位点中的所述位点处于所述第二子组位点中时降低所述类似性分数。42.根据权利要求39或40所述的方法,其中:所述第一参考甲基化模式包括所述多个位点,其中所述多个位点中的各位点的特征在于对于所述第一参考组织而言的甲基化机率和未甲基化机率,通过以下确定所述类似性分数:对于所述多个位点中的各位点:确定对应于所述游离DNA分子中的所述位点的所述甲基化状态的所述参考组织中的机率,计算多个机率的乘积,所述乘积为所述类似性分数。43.根据权利要求42所述的方法,其中所述机率使用贝他(β)分布来确定。44.根据权利要求14至43中任一项所述的方法,其进一步包括:对所述多个游离DNA分子进行测序以获得序列读段,和通过测量对应于所述位点的核苷酸和邻近所述位点的核苷酸的特征来确定所述位点的甲基化状态。45.根据权利要求14至44中任一项所述的方法,其中所述多个游离DNA分子的尺寸包括CpG位点的数目。46.根据权利要求14至45中任一项所述的方法,其中所述多个位点中的至少一个位点为甲基化的。47.根据权利要求14至46中任一项所述的方法,其中所述多个位点中的两个位点间隔至少160nt。48.一种分析获自怀有胎儿的女性的生物样本的方法,所述生物样本包含来自所述胎儿和所述女性的游离DNA分子,所述方法包括:接收对应于所述游离DNA分子中的一个游离DNA分子的第一序列读段;将所述第一序列读段与参考基因组的区进行比对,已知所述区潜在地包含子序列的重复序列;识别对应于所述游离DNA分子的所述第一序列读段中的所述子序列的重复序列的数目;比较所述子序列的重复序列的数目与阈值数目;和
使用所述重复序列的数目与所述阈值数目的所述比较确定所述胎儿患有遗传病症的可能性的分类。49.根据权利要求48所述的方法,其中确定所述胎儿患有所述遗传病症的所述可能性的所...

【专利技术属性】
技术研发人员:卢煜明赵慧君陈君赐江培勇郑淑恒余烁妍张尔庭彭文磊
申请(专利权)人:香港中文大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1