基于DNA甲基化水平确定样本类型的系统、可读介质及其应用技术方案

技术编号:33641286 阅读:24 留言:0更新日期:2022-06-02 20:16
本发明专利技术公开了一种基于DNA甲基化水平确定样本类型的系统、可读介质及其应用。所述系统包括数据分析模块、特征提取模块和打分分型模块,具体内容见本发明专利技术正文。本发明专利技术能够基于输入的信息对已知样本类型的甲基化信息进行分析,对待测样本所属的样本类型进行判断;并且具有高灵敏度(可达100%),结果可靠,能有效解决当前已有产品(如CT)检出率低的问题,现有技术中需要有创地取得组织样本才能提供的肿瘤甲基化变异信息通过本发明专利技术可无创获得。甲基化变异信息通过本发明专利技术可无创获得。甲基化变异信息通过本发明专利技术可无创获得。

【技术实现步骤摘要】
基于DNA甲基化水平确定样本类型的系统、可读介质及其应用


[0001]本专利技术涉及生物信息学、体外诊断与检测领域,具体是一种基于DNA甲基化水平确定样本类型的系统、可读介质及其应用。

技术介绍

[0002]DNA甲基化是生物调节基因组生理活性的重要方式。通过对基因启动子区域甲基化,可调节该基因的表达能力,从而实现在不改变DNA结构的前提下,使同样的DNA在不同细胞内表达不同蛋白质,进而使细胞行使不同的功能。目前已有大量研究报道在肿瘤组织内观察到的癌症相关基因特异性甲基化的现象,理论上通过对此类现象进行统计归纳,可判断/预测个体患有某种癌症的风险。但在实际操作中,由于无法在普通的筛查中取得组织样本加以分析,癌症筛查需要使用可无创取得的外周液(血液、唾液、尿液及汗液等)样本。尽管已有明确的证据表明肿瘤细胞在凋亡时会将带有癌症特异性标记的DNA片段释放到外周液中,并能被检测到,但如何准确地在外周液复杂多变的环境中检测到其微弱的目标信号,在生物工程上仍然是巨大的挑战。
[0003]本申请人于2017年5月19日申请的专利(申请号PCT/CN2017/085150),公开了基于二代测序技术测序过程中产生的reads(reads即在测序过程中被打断的DNA片段,即测序读段)在参考基因组上的分布规律来识别样本的方法,本质上是基于DNA结构的变异信息来识别样本。然而,对于某些疾病而言,DNA结构变异并非是必然的,因此,该申请的技术不适用检测此类疾病的信号。相对而言,基因甲基化的变化要更普遍,在健康的组织间即具有显著差异,理论上更适合进行疾病的组织溯源。
[0004]生物的基因组上存在着一个个基于碱基C的甲基化位点,这些位点往往位于基因的启动子区域,影响着细胞生化乃至肿瘤的发生发展。对甲基化位点的甲基化率进行测量是分析甲基化信息的基础。然而,一方面由于外周液环境复杂多变,且游离的肿瘤DNA稀少(特别对早期肿瘤而言),准确获得每一个位点的甲基化率非常困难,这为在位点层面分析肿瘤信号带来很大的不确定性。
[0005]另一方面,大多数基于甲基化变异的检测方法往往倾向于将一个基因的启动子区域作为一个整体,分析整体指标,导致细节丢失过多,灵敏度下降。例如,Louise K.L等人发表的综述“DNA

Methylation

Based Detection of Urological Cancer in Urine:Overview of Biomarkers and Considerations on Biomarker Design,Source of DNA,and Detection Technologies”中列举了截至2019涉及通过尿液甲基化数据检测癌症的系列研究,在原发性膀胱癌的DNA甲基化生物标记物中,采用焦磷酸测序法,当且仅当SOX1、TJP2、MYOD、HOXA9_1、HOXA9_2、VAMP8、CASP8、SPP1、IFNG、CAPG、HLADPA1和RIPK3中至少六种为阳性时,检测的灵敏度和特异性均为100%。
[0006]因此,本领域缺乏一种能够基于甲基化信息确定样本类型、高灵敏度的检测系统。

技术实现思路

[0007]针对现有技术中存在的缺乏能够基于甲基化信息分析样本类型、高灵敏度的DNA甲基化水平的检测系统的技术问题,本专利技术提出一种基于DNA甲基化水平确定样本类型的系统、可读介质及其应用,结合肿瘤生物学知识和数学统计分析方法,对同一类型的样本的甲基化信息依次进行位点层面和窗口层面的分析,辅助对样本所属类型的判断,获得能够基于甲基化信息分析样本类型的高灵敏度检测系统。
[0008]专利技术人试图基于已申请的专利(申请号PCT/CN2017/085150)对DNA甲基化水平进行分析,发现难点在于,前述专利所依赖的reads(测序读段)分布规律属于区域性结构变异,即reads在某一区域异常增多或减少,此时可以通过在基因组上划分窗口,并在窗口的层面上统计reads数量来获得相关信息,但甲基化变异属于位点变异,不能直接获得窗口层面的信息。一方面,为了能够在窗口层面上分析甲基化变异信息,专利技术人基于位点的甲基化率对划分的窗口进行分析,构建窗口甲基化率,筛选出与肿瘤相关的特征,根据未知类型的样本与所述特征的吻合程度推断样本的类型;另一方面,专利技术人采用S折交叉验证方法以选择判别模型,进一步提高了灵敏度和准确率。
[0009]本专利技术通过以下技术方案实现:
[0010]本专利技术的第一方面提供一种基于DNA甲基化水平确定样本类型的系统,包括:数据分析模块、特征提取模块和打分分型模块,其中:
[0011]所述数据分析模块用于对参考基因组进行窗口划分,基于待测样本与属于至少两种已知样本类型的各样本的甲基化测序文库的测序读段,分别计算各样本的窗口甲基化率,并根据获得的窗口甲基化率对窗口进行编号排序,由此获得各样本的窗口序列;
[0012]所述特征提取模块用于根据获得的已知样本类型的各样本的窗口序列,筛选各样本的同序子序列并过滤已知样本类型之间共同的高频同序子序列,得到各已知样本类型的特征序列;
[0013]所述打分分型模块用于对特征提取模块中得到的特征序列进行权重赋值,将待测样本的窗口序列对应各已知样本类型的特征序列进行加权,得到待测样本相对于已知样本类型的得分,并由此判断待测样本所属的样本类型。
[0014]所述窗口划分为:对参考基因组进行窗口划分,其中每个窗口为包含固定数量的甲基化位点的区域。
[0015]所述参考基因组可为本领域常规,优选hg39或hg38。
[0016]在本专利技术一较佳实施方案中,所述划分窗口以启动子区域为单位依次对参考基因组进行窗口划分。
[0017]所述固定数量的甲基化位点的数目可为5~500,优选为10~350,更优选为30~150。
[0018]在本专利技术一较佳实施方案中,所述的固定数量甲基化位点的数目为50。
[0019]所述根据窗口的甲基化率对窗口进行编号排序是指:对窗口编号,并根据窗口的甲基化率按升序或降序对已编号的窗口进行排序。
[0020]所述窗口的甲基化率的计算公式为:窗口内任一甲基化位点碱基被甲基化的测序读段数目/比对到窗口内任一甲基化位点的全部测序读段数目
×
100%。
[0021]所述特征提取模块中,所述高频同序子序列是指:在同一样本类型的样本中以高
于设定的比例阈值出现的同序子序列。
[0022]所述的比例阈值为30~70%,优选为50%。
[0023]所述同序子序列是指在两个或两个以上的窗口序列中,由顺序相同的窗口的编号组成的序列。所述同序子序列是结合每个窗口的先后顺序信息,连接得到的序列片段。如果一个窗口序列包含了一个同序子序列的全部窗口,且这些窗口的编号顺序与其同序子序列中的一致,则称该同序子序列在该窗口序列中出现,或者称该窗口序列出现了该同序子序列。
[0024]所述的过滤是指除去在本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于DNA甲基化水平确定样本类型的系统,其特征在于,其包括:数据分析模块、特征提取模块和打分分型模块,其中:所述数据分析模块用于对参考基因组进行窗口划分,基于待测样本与属于至少两种已知样本类型的各样本的甲基化测序文库的测序读段,分别计算各样本的窗口甲基化率,并根据获得的窗口甲基化率对窗口进行编号排序,由此获得各样本的窗口序列;所述特征提取模块用于根据获得的已知样本类型的各样本的窗口序列,筛选各样本的同序子序列并过滤已知样本类型之间共同的高频同序子序列,得到各已知样本类型的特征序列;所述打分分型模块用于对特征提取模块中得到的特征序列进行权重赋值,将待测样本的窗口序列对应各已知样本类型的特征序列进行加权,得到待测样本相对于已知样本类型的得分,并由此判断待测样本所属的样本类型。2.如权利要求1所述的系统,其特征在于,所述数据分析模块中,所述窗口划分为:对参考基因组优选hg39或hg38进行窗口划分,优选以启动子区域为单位依次对参考基因组进行窗口划分,其中每个窗口为包含固定数量例如5~500,优选为10~350,更优选为30~150,例如为50个甲基化位点的区域;所述根据窗口的甲基化率对窗口进行编号排序是指:对窗口优选顺次编号,并根据窗口的甲基化率按升序或降序对已编号的窗口进行排序;所述窗口的甲基化率的计算公式为:窗口内任一甲基化位点碱基被甲基化的测序读段数目/比对到窗口内任一甲基化位点的全部测序读段数目
×
100%。3.如权利要求1所述的系统,其特征在于,所述特征提取模块中,所述高频同序子序列是指:在同一样本类型的样本中以高于设定的比例阈值出现的同序子序列;所述的比例阈值为30~70%,优选为50%;其中:所述同序子序列是指在两个或两个以上的窗口序列中,由顺序相同的窗口的编号组成的序列;所述的过滤是指除去在至少两个不同样本类型中均出现的高频同序子序列。4.如权利要求1所述的系统,其特征在于,所述打分分型模块中,所述权重赋值包括:(1)根据所述特征序列在所属样本类型的样本中出现的样本数P1及未出现的样本数P2,以及在除所属样本类型以外的另一样本类型的样本中出现的样本数P3及未出现的样本...

【专利技术属性】
技术研发人员:梁瀚李南南吴逵赵鑫李甫强林从罗甜
申请(专利权)人:深圳华大生命科学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1