一种简洁全面的拷贝数变异模式识别方法及其应用技术

技术编号:30544223 阅读:25 留言:0更新日期:2021-10-30 13:22
本发明专利技术涉及一种简洁全面的拷贝数变异模式识别方法及其应用,属于生物医学技术领域。本发明专利技术通过将获得的肿瘤样本的绝对拷贝数信息进行分类;并依据每种拷贝数片段在泛癌数据中的实际分布情况,形成一个176列数据信息的矩阵;计算每个肿瘤样本的拷贝数变异特征模式;利用非负矩阵分解算法计算每个肿瘤的具体拷贝数变异特征模式;量化每个肿瘤中拷贝数变异特征模式的活性;依据拷贝数变异特征模式对肿瘤进行分型;依据拷贝数变异特征模式的活性对肿瘤病人进行预后预测。从而实现对肿瘤病人预后的精准预测。预后的精准预测。预后的精准预测。

【技术实现步骤摘要】
一种简洁全面的拷贝数变异模式识别方法及其应用


[0001]本专利技术涉及一种简洁全面的拷贝数变异模式识别方法及其应用,属于生物医学


技术介绍

[0002]恶性肿瘤的分型以及预后的精准预测目前依然是未解决的医学难题。癌症主要是由体细胞基因组DNA的变异引起的。根据基因组变异的大小和特征,这些与癌症相关的DNA变异可分为以下四种类型:单碱基取代(single base substitution,SBS),小片段插入和缺失(insertion/deletion,INDEL),结构改变(包括易位/倒位)以及拷贝数变异(copy number alteration)。体细胞DNA的拷贝数变异在癌症中极为普遍,并且据报道是多种类型癌症进展的重要驱动力(1,2)。基因组DNA变异的特征模式是重复出现的基因组模式,是癌细胞发展过程中积累的诱变过程的印记(3,4)。拷贝数变异特征模式反映了,在癌症发展过程中特异性内源或外源性突变事件引起的重复拷贝数变异模式。单碱基变异的特征模式已在不同类型的癌症中有着广泛的研究(3,4)。拷贝数变异是多种癌症发生发展的重要驱动力。但是,系统研究拷贝数变异特征模式的实用工具,尤其是全面的适用于泛癌肿的分析工具依然缺乏。
[0003]参考文献
[0004]1.Beroukhim,R.et al.The landscape of somatic copy

number alteration across human cancers.Nature 463,899<br/>‑
905,doi:10.1038/nature08822(2010).
[0005]2.Zack,T.I.et al.Pan

cancer patterns of somatic copy number alteration.Nat Genet 45,1134

1140,doi:10.1038/ng.2760(2013).
[0006]3.Alexandrov,L.B.et al.Signatures of mutational processes in human cancer.Nature 500,415

421,doi:10.1038/nature12477(2013).
[0007]4.Alexandrov,L.B.et al.The repertoire of mutational signatures in human cancer.Nature 578,94

101,doi:10.1038/s41586

020

1943

3(2020)。

技术实现思路

[0008]本专利技术的目的是为解决如何系统研究拷贝数变异特征模式,获得全面的适用于泛癌肿的分析工具的技术问题。
[0009]为达到解决上述问题的目的,本专利技术所采取的技术方案是提供一种拷贝数变异模式识别方法,包括以下步骤:
[0010]步骤1:提取肿瘤样本以及正常对照组织的基因组DNA,进行高通量全外显子组测序(Whole Exome Sequencing,WES),全基因组测序(Whole genome sequencing,WGS)或SNP(单核苷酸多态性标记技术单核苷酸多态性single nucleotide polymorphism,SNP)芯片分析;
[0011]步骤2:利用常规分析方法,从原始WES,WGS或SNP芯片数据获得肿瘤样本的绝对拷
贝数信息;
[0012]步骤3:对拷贝数片段(copy number segment)进行分类;分类时参考每个具体拷贝数片段的前后拷贝数变化方向,共有三种类型,分别为高



高、低



低和梯度;分类时参考前后拷贝数变化大小,设为两类,分别为任何一端>2和两边均≤2;分类时参考绝对拷贝数数值,绝对拷贝数数值设为七类,分别为0、1、2、3、4、5

8和≥9;分类时参考杂合性缺失(Loss of heterozygosity,LOH)状态,设为两类,分别为有LOH和无LOH;分类时参考片段长度信息,设为四类,分别为S其长度&lt;50kb、M其长度为50kb≤M长度&lt;500kb、L其长度为500kb≤L长度&lt;5Mb和E其长度为5Mb≤E长度;然后依据每种拷贝数片段在泛癌(Pan

cancer)数据中的实际分布情况,最终总共形成176个拷贝数片段类型;形成一个有176列数据信息的矩阵,每一行代表一个具体肿瘤样本中具有某种拷贝数变异片段特征的拷贝数片段数目;
[0013]步骤4:计算每个肿瘤样本的拷贝数变异特征模式;利用非负矩阵分解(non

negative matrix factorization,NMF)算法计算每个肿瘤的具体拷贝数变异特征模式;
[0014]步骤5:量化每个肿瘤中拷贝数变异特征模式的活性;包括拷贝数变异特征模式的相对活性,以及绝对活性数值;相对活性表示具体拷贝数变异特征模式相对其他变异模式在肿瘤中的贡献比例,可以在NMF之后直接获得;绝对活性表示与每个拷贝数变异特征模式关联的拷贝数变异记录的数量;
[0015]步骤6:依据拷贝数变异特征模式对肿瘤进行分型;利用聚类分析,将每个肿瘤依据拷贝数变异特征模式的活性进行分型;
[0016]步骤7:依据拷贝数变异特征模式的活性对肿瘤病人进行预后预测。
[0017]优选地,所述步骤2中利用常规分析方法包括利用FACET,Sequenza软件。
[0018]本专利技术提供的一种拷贝数变异模式识别方法在对肿瘤病人进行预后预测评估中的应用。
[0019]本专利技术提供的一种拷贝数变异模式识别方法在对肿瘤病人进行精准的分型中的应用。
[0020]本专利技术提供的一种拷贝数变异模式识别方法在制备对肿瘤病人进行预后预测的检测试剂盒中的应用。
[0021]本专利技术提供的一种拷贝数变异模式识别方法在制备对肿瘤病人进行精准的分型的检测试剂盒中的应用。
[0022]相比现有技术,本专利技术具有如下有益效果:
[0023]本专利技术从识别肿瘤病人基因组的拷贝数变异(copy number alteration)特征模式入手,对肿瘤病人进行精准的分型,从而实现对肿瘤病人预后的精准预测。本专利技术提供了一种肿瘤精准诊断分型的基因组学标志物,该标志物通过识别肿瘤病人基因组的拷贝数变异(copy number alteration)特征模式而实现。本专利技术所开发的肿瘤基因组拷贝数变异模式识别方法具有设计简洁,包含拷贝数变异类型全面的特点。本专利技术所开发的生物标志物能够应用于泛癌种的精准预后预测。
附图说明
[0024]图1为本专利技术本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种拷贝数变异模式识别方法,其特征在于:包括以下步骤:步骤1:提取肿瘤样本以及正常对照组织的基因组DNA,进行高通量全外显子组测序,全基因组测序或SNP芯片分析;步骤2:利用常规分析方法,从原始WES,WGS或SNP芯片数据获得肿瘤样本的绝对拷贝数信息;步骤3:对拷贝数片段进行分类;分类时参考每个具体拷贝数片段的前后拷贝数变化方向,共有三种类型,分别为高



高、低



低和梯度;分类时参考前后拷贝数变化大小,设为两类,分别为任何一端>2和两边均≤2;分类时参考绝对拷贝数数值,绝对拷贝数数值设为七类,分别为0、1、2、3、4、5

8和≥9;分类时参考杂合性缺失状态,设为两类,分别为有LOH和无LOH;分类时参考片段长度信息,设为四类,分别为S其长度&lt;50kb、M其长度为50kb≤M长度&lt;500kb、L其长度为500kb≤L长度&lt;5Mb和E其长度为5Mb≤E长度;然后依据每种拷贝数片段在泛癌数据中的实际分布情况,最终总共形成176个拷贝数片段类型;形成一个有176列数据信息的矩阵,每一行代表一个具体肿瘤样本中具有某种拷贝数变异片段特征的拷贝数片段数目;步骤4:计算每个肿瘤样本的拷...

【专利技术属性】
技术研发人员:刘雪松陶紫玉吴宸旭
申请(专利权)人:上海科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1