一种肿瘤外显子测序数据分析方法技术

技术编号:24358119 阅读:78 留言:0更新日期:2020-06-03 03:00
本发明专利技术提供一种肿瘤外显子测序数据分析方法,具体步骤如下:S1:体细胞变异检测;S2:突变全局展示;S3:突变特异性分析;S4驱动基因分析;S5:寻找肿瘤高频突变;S6:高频Somatic CNV分析;S7:计算基因组肿瘤的纯度和倍性;S8:进行肿瘤异质性、克隆以及进化树分析等。本发明专利技术的分析方法分析的内容更全面:在市面上常规分析的基础上,增加更全面、系统的体细胞突变分析;比对数据库更全面:本发明专利技术采用多个国际认可的外显子数据库进行变异注释,能够筛选低频、新生突变;同时,使用SIFT、Polyphen等主流突变危害性软件对突变危害进行评估,保证样本中变异信息的全面挖掘。

A data analysis method of tumor exon sequencing

【技术实现步骤摘要】
一种肿瘤外显子测序数据分析方法
本专利技术涉及生物信息分析领域,特别是涉及一种肿瘤外显子测序数据分析方法。
技术介绍
外显子虽然只占约1%人类基因组大小,但多数疾病都是由编码基因的低频或罕见突变引起,同时外显子测序容易实现>100x的深度测序,是一种高效的发现人类疾病信息的研究手段。目前,一般都是通过探针杂交富集外显子,然后利用二代测序获得其序列信息,最后结合公共数据库的外显子数据,解释变异与疾病之间的关联。肿瘤发病机制十分复杂,传统的病理组织学分型并不能完全满足治疗需要,外显子测序技术由于相于全基因组测序和基因分型芯片,具有极佳的检测功效和性价比,可以从基因水平对肿瘤进行精确的研究,在肿瘤分子分型中的应用有助于对肿瘤的认识、肿瘤患者治疗和预后判断等。基于以上所述,对肿瘤进行外显子测序,而后进行生物信息分析有这重要的生物学意义和临床价值。但目前外显子测序数据分析方法杂多且单一,未形成统一、全面丰富的方法。相对于国内专利技术专利201610316928.X(肿瘤外显子组测序分析系统及方法),本专利技术公开的方法,具有更全面的分析内容包括对体细胞突变更全面系统的分析、比对数据库更全面的优点。
技术实现思路
本专利技术的目的在于克服上述现有技术的不足之处而提供一种肿瘤外显子测序数据分析方法。为实现上述目的,本专利技术采取的技术方案为:一种肿瘤外显子测序数据分析方法,具体步骤如下:S1:体细胞变异检测,并对SomaticSNV/InDel进行整体统计和注释,以及SomaticCNV分析;S2:突变全局展示,针对覆盖深度、SomaticSNV、InDel以及CNV,进行全面分析;S3:对突变特异性的频谱和特征进行分析;S4:筛选出肿瘤样本中的已知驱动基因,并构建背景突变率模型,预测和寻找可能的驱动突变;S5:寻找肿瘤高频突变,并采用卷积检验方法对各个高频突变类型进行统计检验。S6:分析高频SomaticCNV在样本中的分布热图、高频CNV染色体分布峰图、高频CNV染色体分布峰图。S7:计算基因组肿瘤样本的纯度和倍性;S8:进行肿瘤异质性、克隆以及进化树分析,展示克隆突变,进行PCA主成分分析。优选地,所述对SomaticSNV/InDel进行整体统计使用MuTect软件,使用MuTect软件来寻找SomaticSNV和InDel位点;所述对SomaticSNV/InDel进行注释使用ANNOVAR软件,利用ANNOVAR软件将所检测到SNP以及InDel等基因组变异与外部数据库进行注释分析,以确定与人类疾病高度相关变异的基因组位置、变异频率、蛋白有害性、基因型杂合性以及所在的功能通路等信息;所述SomaticCNV分析是使用VarScan2对tumor及normal成对样本检测SomaticCNV,获得somaticCNV集合。优选地,外部数据库包括Hapmap、cosmic70、esp6500、ExAC;优选地,可采用SIFT、Polyphen突变危害性软件进行分析。优选地,所述体细胞变异全局图共分为6圈,第一圈为染色体的外框、第二圈为肿瘤样本的测序覆盖度图、第三圈为正常样本的测序覆盖度图、第四圈为圆点表示SNPInDel的密度、第五圈为CNV结果展示拷贝数增加、第六圈为CNV结果展示拷贝数缺失。优选地,所述对突变特异性的特征进行分析采用以下方法实现:1)以6种碱基突变类型为中心,各取5’和3’各一个碱基形成多种组合,该组合有96种类型;2)以这96种突变类型为基础,确定肿瘤基因组的突变特征;3)通过NMF算法对肿瘤样本发生的96种突变类型进行聚类,得到对应的突变特征,统计各突变特征在每个样本中的分布情况;4)计算新发现的突变特征与COSMIC中已知的突变特征之间的相关性,确定这些新特征的生物学意义。优选地,所述使用的已知驱动基因的数据库包括但不限于CGC、MDG125、SMG127、CDG291。优选地,所述各个高频突变类型进行统计检验包括高频基因统计、突变基因GO和KEGG富集分析。优选地,所述肿瘤异质性、克隆分析通过以下方法实现:利用软件工具基于样本的SNV数据,计算每个样本中的克隆数目情况,同时统计每个肿瘤细胞的突变占比,将肿瘤组织内遗传突变信息相似的肿瘤细胞进行聚类,按以下参数进行cluster过滤:1)只保留包含突变数>=5的cluster;2)只保留meancellularprevalence值大于0.05的cluster(大于5%的细胞比例)。优选地,所述进化树分析通过以下方法实现:获得所有肿瘤样本的突变数据后,采用MEGA7的“branchandbound”模式绘制肿瘤进化树。优选地,所述展示克隆突变是使用热图展示每个克隆的聚类情况,每个分支中包含基因列表;所述主成分分析是采用PCA进行主成分分析。与现有技术相比本专利技术具有以下的有益效果:(1)分析内容更全面:在市面上常规分析的基础上,增加更全面、系统的体细胞突变分析,对研究肿瘤的形成、耐药性、复发性等各项复杂机制有重要的意义;特别是其中,突变特异性、高频SomaticCNV分析、肿瘤纯度和倍性、肿瘤异质性及进化分析,与研究肿瘤的复发、转移、治疗和预后有密切相关性。(2)比对数据库更全面:突变检测是外显子检测的核心步骤,数据库质量的好坏能够保证突变检测结果的完整性、可靠性。本专利技术采用多个国际认可的外显子数据库进行变异注释,能够筛选低频、新生突变;同时,使用SIFT、Polyphen等主流突变危害性软件对突变危害进行评估,保证样本中变异信息的全面挖掘。附图说明图1是本专利技术实施例提供的一种肿瘤外显子测序数据分析方法的流程图。图2是基本专利技术的全局展示图。图3是本专利技术实施例中的癌症样本突变特征图;左侧纵坐标从上到下为染色体,右侧为显著候选驱动基因,下横坐标为GISTIC计算的每个峰的q值对应的-log值,绿色线为阈值线(q=0.25)。图4是本专利技术实施例中的高频CNV(扩增,gain)染色体分布峰图;左侧纵坐标从上到下为染色体,右侧为显著候选驱动基因,下横坐标为GISTIC计算的每个峰的q值对应的-log值,绿色线为阈值线(q=0.25)。图5是本专利技术实施例中的样本肿瘤细胞突变比例展示图。图6是本专利技术实施例中的肿瘤进化树示意图。具体实施方式为了更加简洁明了的展示本专利技术的技术方案、目的和优点,下面结合具体实施例及其附图对本专利技术做进一步的详细描述。本专利技术提供一种肿瘤外显子测序数据分析方法,具体步骤如下:S1:体细胞变异检测S1.1SomaticSNV/InDel整体统计体细胞单核苷酸变异(SNV)、插入缺失(InDel)是肿瘤基因组的重点研究对象,通过对肿瘤样本somaticSNV与InDel信息的挖掘,可以进一步了解其形成机制、肿瘤异质性等信本文档来自技高网...

【技术保护点】
1.一种肿瘤外显子测序数据分析方法,其特征在于,具体步骤如下:/nS1:体细胞变异检测,并对Somatic SNV/InDel进行整体统计和注释,以及Somatic CNV分析;/nS2:突变全局展示,针对覆盖深度、Somatic SNV、InDel以及CNV,进行全面分析;/nS3:对突变特异性的频谱和特征进行分析;/nS4:筛选出肿瘤样本中的已知驱动基因,并构建背景突变率模型,预测和寻找可能的驱动突变;/nS5:寻找肿瘤高频突变,并采用卷积检验方法对各个高频突变类型进行统计检验。/nS6:分析高频Somatic CNV在样本中的分布热图、高频CNV染色体分布峰图、高频CNV染色体分布峰图。/nS7:计算基因组肿瘤样本的纯度和倍性;/nS8:进行肿瘤异质性、克隆以及进化树分析,展示克隆突变,进行PCA主成分分析。/n

【技术特征摘要】
1.一种肿瘤外显子测序数据分析方法,其特征在于,具体步骤如下:
S1:体细胞变异检测,并对SomaticSNV/InDel进行整体统计和注释,以及SomaticCNV分析;
S2:突变全局展示,针对覆盖深度、SomaticSNV、InDel以及CNV,进行全面分析;
S3:对突变特异性的频谱和特征进行分析;
S4:筛选出肿瘤样本中的已知驱动基因,并构建背景突变率模型,预测和寻找可能的驱动突变;
S5:寻找肿瘤高频突变,并采用卷积检验方法对各个高频突变类型进行统计检验。
S6:分析高频SomaticCNV在样本中的分布热图、高频CNV染色体分布峰图、高频CNV染色体分布峰图。
S7:计算基因组肿瘤样本的纯度和倍性;
S8:进行肿瘤异质性、克隆以及进化树分析,展示克隆突变,进行PCA主成分分析。


2.如权利要求1所述的肿瘤外显子测序数据分析方法,其特征在于,所述对SomaticSNV/InDel进行整体统计使用MuTect软件,使用MuTect软件来寻找SomaticSNV和InDel位点;所述对SomaticSNV/InDel进行注释使用ANNOVAR软件,利用ANNOVAR软件将所检测到SNP以及InDel等基因组变异与外部数据库进行注释分析,以确定与人类疾病高度相关变异的基因组位置、变异频率、蛋白有害性、基因型杂合性以及所在的功能通路等信息;所述SomaticCNV分析是使...

【专利技术属性】
技术研发人员:夏昊强周煌凯高川陶勇罗玥邢燕张秋雪
申请(专利权)人:广州基迪奥生物科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1