一种用于检测肿瘤患者血液ctDNA中的超低频突变位点的生物信息方法技术

技术编号:21134168 阅读:82 留言:0更新日期:2019-05-18 03:12
本发明专利技术公开了一种用于检测肿瘤患者血液ctDNA的超低频突变位点的生物信息方法,包括以下步骤:提取cfDNA,加入随机序列标签,建立文库并测序;对测序数据进行拆分、质控、过滤和整合;从拆分后的数据中提取随机标签序列,把双端的随机序列整合在一起,并对这些序列进行校正;把整合的序列与人类参考基因组进行比对序列比对,根据随机序列标签纠正测序数据;获取可信的测序数据集合,测序基因突变检测。本发明专利技术适用于所有具有随机序列标签的ctDNA双端测序数据,这种通过处理此数据来检测ctDNA超低频基因突变的方法具有重大的应用推广价值。

A Bioinformatics Method for Detecting Ultra-Low Frequency Mutation Sites in Blood ctDNA of Tumor Patients

The invention discloses a bioinformatics method for detecting ultra-low frequency mutation sites of ctDNA in blood of cancer patients, which includes the following steps: extracting cfDNA, adding random sequence tags, establishing a library and sequencing; separating, quality control, filtering and integration of sequencing data; extracting random tag sequences from the separated data, integrating random sequences at both ends, and These sequences are corrected; the integrated sequences are aligned with the human reference genome, and the sequencing data are corrected according to random sequence tags; reliable sequencing data sets are obtained and sequencing gene mutation detection is carried out. The invention is applicable to all ctDNA double-ended sequencing data with random sequence tags, and the method of detecting ctDNA ultra-low frequency gene mutation by processing this data has great application and popularization value.

【技术实现步骤摘要】
一种用于检测肿瘤患者血液ctDNA中的超低频突变位点的生物信息方法
本专利技术属于生物信息
,具体涉及一种用于肿瘤患者血液ctDNA中的超低频突变位点的生物信息方法。
技术介绍
据统计,我国每年新发肿瘤病例约为312万例,每天约为8500例,每分钟有6人被诊断为拥有癌症,人们一生患癌概率为22%。由于肿瘤异质性和种群个体化差异,不同种群、不同性别甚至不同生活环境下不同个体间同一组织的肿瘤样本都会呈现不同的遗传背景,如果简单的对所有个体都采用同一个用药和治疗方案,就很容易产生治疗过度或治疗不当的问题,因此获得个体遗传信息就显得尤为重要。虽然现在能从肿瘤组织中获取肿瘤患者的遗传信息并制定个体化治疗方案,但同一个肿瘤患者的不同治疗阶段、同一肿瘤组织的不同区域,肿瘤的生物学特征均存在一定的差异。同时组织活检具有其局限性,首先其不容易获取,甚至对于一些无法进行手术或穿刺,又或者肿瘤位置导致取样困难的患者而言,是无法进行组织活检的,还有就是其不方便长期检测。因此,通过ctDNA检测肿瘤基因突变技术备受关注,有着广阔的应用前景。循环肿瘤DNA(circulatingtumorDNA,ctDNA)是肿瘤细胞在坏死、凋亡后释放到外周血的一种DNA小片段,其携带有与原发肿瘤组织一致的遗传信息。因此我们可以从ctDNA中获取原发肿瘤的遗传信息,更有价值的是,无论是原发部位肿瘤还是转移部位肿瘤都会持续地向血液释放ctDNA,所以ctDNA中基因的突变更能体现患者整体的肿瘤突变情况。因此ctDNA检测既可以克服组织检测的异质性和弥补组织检测局限性,又具有简便、安全、无创、实时等特点。近年来在肿瘤靶向治疗、耐药监测的实时评估等方面发挥着重要的作用。但是,人体正常细胞死亡或凋亡后也会向血液释放一些游离的DNA(cellfreeDNA,cfDNA),因为肿瘤患者体内的肿瘤细胞数量远远低于正常细胞,cfDNA原本在血浆中的含量就很低,而ctDNA仅占cfDNA的0.1%-5%,且不同癌种,不同病程的肿瘤患者ctDNA在血浆中含量差异较大,因此相比于组织检测,ctDNA的检测需要更高的灵敏度和特异性。虽然现在二代测序是目前应用最广的测序技术,具有通量高、覆盖度好、性价比高、准确率高和灵敏度好等优点,但是二代测序用于ctDNA超低频突变位点检测还存在难点,首先测序文库构建过程不可避免的要进行PCR扩增,而一般使用高保真酶进行的PCR扩增也会存在10-6左右的复制错误率,并且会随着PCR循环数增多而增大,然后二代测序不可避免的会存在测序误差,单碱基的错误率一般在0.1%-1%之间。虽然这些错误率很低但在后续的ctDNA超低频突变位点分析中会存在较大的背景噪音,很难分清楚0.1%-1%的基因突变是否为ctDNA中的真实突变还是因为测序错误或者PCR错误导致的假阳性突变。因此,通过加入随机序列标签来确认下机数据中的reads是否来自同一个原始的DNA模板,来源于同一DNA模板的reads将会根据每一条突变情况来确定DNA模板的真实突变情况,这样可以最大限度去除PCR扩增以及碱基读取时的错误,降低假阳性。还有,由于ctDNA断裂方式不够随机,所以会导致完全相同的两条序列,因此加入随机序列标签可以对它们进行区分,去除假冗余,减少数据流失。虽然目前在理论上加入随机序列标签能消除扩增或测序的误差,减少假阳性,但现在还没比较好的通过随机序列标签来筛除扩增或测序误差的生物信息方法。
技术实现思路
本专利技术采用的生物学信息方法是通过随机序列标签来筛除扩增或测序误差,准确地检测出ctDNA中的超低频突变位点。为了解决上述问题,本专利技术采用以下技术方案:一种用于检测肿瘤患者血液ctDNA的超低频突变位点的生物信息方法,包括以下步骤:(1)提取cfDNA,加入随机序列标签,建立ctDNA低频突变文库并测序;(2)对所述步骤(1)的测序数据进行拆分、质控、过滤和整合;(3)从所述步骤(2)拆分后的数据中提取随机标签序列,把双端的随机序列整合在一起,并对这些序列进行校正;(4)把所述步骤(3)整合的序列与人类参考基因组进行序列比对,根据随机序列标签纠正测序数据;(5)获取可信的测序数据集合,测序基因突变检测。优选地,所述步骤(1)加入随机序列标签采用以下方法:将cfDNA随机打断,再加入末端修复酶,进行末端修复,同时3,端添加A碱基和加入随机序列标签的接头的多重PCR引物,进行PCR,对扩增PCR产物进行纯化。优选地,所述步骤(1)建立ctDNA低频突变文库并测序采用以下方法:去除掉PCR引物二聚体和未非特异性扩增的小片段DNA同时引入index序列,建立ctDNA低频突变文库,利用二代测序仪对建立好的文库进行测序。优选地,所述步骤(2)中对过滤的序列包括:测序序列中N较多的序列、平均测序质量低于30的序列或测序片段太短或太长的序列。优选地,所述步骤(2)中对所述步骤(1)的测序数据进行整合采用以下方法:识别Read1序列和Read2序列的重叠区域,并对比两序列的重叠区域,差异不大于2bp,根据重叠区域整合两条read。优选地,所述步骤(4)中序列比对采用以下方法:把所述步骤(3)整合的序列与人类参考基因组进行比对,把比对结果中测序序列的随机序列标签注释出来;除去两端26bp长度序列,再重新比对,根据随机序列标签比对具有相同标签的比对位置一致的测序序列,对这些序列进行筛查,纠正因为PCR扩增有错误的序列。优选地,所述步骤(4)中根据随机序列标签纠正PCR扩增错误序列的方法如下:根据随机序列标签纠正测序数据,聚类具有相同的随机序列标签且比对位置相同的测序数据;聚类的测序数据中,有且仅有一条序列,此序列直接作为可信数据;聚类的测序数据中,有两条测序序列,则比对两条序列各个碱基,如果存在碱基不一致的情况,则保留测序质量较高的碱基;聚类的测序数据中,有多条测序序列,则比对所有序列的各个碱基,如果存在不一致的情况,则计算该位置最高碱基的比例,如果最高碱基比例大于90%,则认为该碱基为正确碱基,校正错误碱基,最终保留整体碱基质量值最高的序列,如果最高碱基比例不大于90%,则去除该随机序列标签相关的序列。优选地,所述步骤(5)中基因突变检测采用以下方法:对所述步骤(4)纠正过的测序数据进行基因突变检测,对检测结果进行修正,对于插入缺失突变,软件会和参考基因组进行比对,查看是否确实为突变;校正比对错误所导致的插入、缺失突变,最后获得ctDNA超低频基因突变的信息。优选地,所述步骤(1)中的二代测序仪为illuminaNextSeqCN500测序仪。优选地,所述步骤(1)中的测序方式为双端测序,捕获方式为扩增子捕获。优选地,所述步骤(2)中使用bbmap软件对数据进行过滤和整合;所述步骤(3)中使用bbamp对随机序列标签进行整合。优选地,所述步骤(4)中将整合序列与人类参考基因组进行比对采用的软件是BWAmen;把比对结果中测序序列的随机序列标签注释出来采用的软件是fgbio;除去两端26bp长度序列,再重新比对采用的是bamUtil软件;纠正PCR扩增错误的软件为picard。优选地,所述步骤(5)突变检测所使用的软件为freebayes;校正插入缺失突变的软件为bcfto本文档来自技高网
...

【技术保护点】
1.一种用于检测肿瘤患者血液ctDNA的超低频突变位点的生物信息方法,其特征在于,包括以下步骤:(1)提取cfDNA,加入随机序列标签,建立ctDNA低频突变文库并测序;(2)对所述步骤(1)的测序数据进行拆分、质控、过滤和整合;(3)从所述步骤(2)拆分后的数据中提取随机标签序列,把双端的随机序列整合在一起,并对这些序列进行校正;(4)把所述步骤(3)整合的序列与人类参考基因组进行序列比对,根据随机序列标签纠正测序数据;(5)获取可信的测序数据集合,测序基因突变检测。

【技术特征摘要】
1.一种用于检测肿瘤患者血液ctDNA的超低频突变位点的生物信息方法,其特征在于,包括以下步骤:(1)提取cfDNA,加入随机序列标签,建立ctDNA低频突变文库并测序;(2)对所述步骤(1)的测序数据进行拆分、质控、过滤和整合;(3)从所述步骤(2)拆分后的数据中提取随机标签序列,把双端的随机序列整合在一起,并对这些序列进行校正;(4)把所述步骤(3)整合的序列与人类参考基因组进行序列比对,根据随机序列标签纠正测序数据;(5)获取可信的测序数据集合,测序基因突变检测。2.如权利要求1所述的用于检测肿瘤患者血液ctDNA的超低频突变位点的生物信息方法,其特征在于,所述步骤(1)加入随机序列标签采用以下方法:将cfDNA随机打断,加入末端修复酶,在3’端添加A碱基以及含有随机序列标签接头的多重PCR引物,进行PCR,对扩增PCR产物进行纯化。3.如权利要求1所述的用于检测肿瘤患者血液ctDNA的超低频突变位点的生物信息方法,其特征在于,所述步骤(1)建立ctDNA低频突变文库并测序采用以下方法:去除掉PCR引物二聚体和未非特异性扩增的小片段DNA同时引入index序列,建立ctDNA低频突变文库,利用二代测序仪对建立好的文库进行测序。4.如权利要求1所述的用于检测肿瘤患者血液ctDNA的超低频突变位点的生物信息方法,其特征在于,所述步骤(2)中对过滤的序列包括:测序序列中N较多的序列、平均测序质量低于30的序列或测序片段太短或太长的序列。5.如权利要求1所述的用于检测肿瘤患者血液ctDNA的超低频突变位点的生物信息方法,其特征在于,所述步骤(2)中对所述步骤(1)的测序数据进行整合采用以下方法:识别Read1序列和Read2序列的重叠区域,并对比两序列的重叠区域,差异不大于2bp,根据重叠区域整合两条read。6.如权利要求1所述的用于检测肿瘤患者血液ctDNA的超低频突变位点的生物信息方法,其特征在于,所述步骤(4)中序列比对采用以下方法:把所述步骤(3)整合的序列与人类参...

【专利技术属性】
技术研发人员:邝健宇周天亮文
申请(专利权)人:中山拓普基因科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1