System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于二代测序数据的肿瘤新抗原识别方法及系统技术方案_技高网

一种基于二代测序数据的肿瘤新抗原识别方法及系统技术方案

技术编号:42061116 阅读:8 留言:0更新日期:2024-07-19 16:46
本发明专利技术提出一种基于二代测序数据的肿瘤新抗原识别方法及系统,所述方法包括:获取患者的肿瘤样本和外周血样本,构建测序文库并且进行靶向捕获RNA、DNA;对二代测序数据进行质控;质控后的DNA数据和RNA数据进行序列对比,检出外周血SNV、InDel突变、肿瘤组织的SNV、InDel变异,注释以及计算血液组织、肿瘤组织的SNV、InDel突变频率,同时计算基因表达丰度,进而筛选出能产生变异蛋白的突变;检出肿瘤组织的基因融合、异常剪切事件;对HLA‑I类及HLA‑Ⅱ类等位基因进行分型,预测患者HLA的基因型;确认候选新抗原多肽序列;预测新抗原‑MHC复合物的结合亲和力、稳定性指标,同时进行新抗原的评估优化。本发明专利技术一个新抗原预测的方法和系统优化新抗原的检测时间,降低运行成本。

【技术实现步骤摘要】

本专利技术属于生物医药,尤其涉及一种基于二代测序数据的肿瘤新抗原识别方法及系统


技术介绍

1、最近的肿瘤免疫疗法研究表明,利用患者自身的免疫系统是消灭癌细胞的先进策略。在肿瘤发生过程中,体细胞的遗传物质会发生很多的变异(体细胞突变),其中部分变异会导致异常蛋白的出现,从而推动癌症的进展,并影响诊断、治疗。肿瘤细胞遗传物质变异产生的一些突变肽可通过人类白细胞抗原(hla)呈递到细胞表面,hla是人类的主要组织相容性复合体(mhc)。突变肽可与hla结合,在细胞表面形成pmhc复合物,其中一些pmhc复合物可被t细胞受体(tcr)识别,从而引起免疫反应杀死癌细胞。这些可由hlas呈递并进一步被tcrs识别以引起免疫反应的突变肽被命名为新抗原。大量的研究表明,新抗原可用于开发个性化的癌症疫苗,基于新抗原的免疫疗法是一种很有前景的癌症治疗方法。

2、不同癌症和不同患者的体细胞遗传变异在很大程度上是异质的。因此,必须在个性化水平上识别和评估新抗原。一般来说,基于新一代测序(ngs)数据的新抗原预测包括三个步骤:(1)从基因组的测序数据中获取能产生变异蛋白的遗传变异位点,并将其转化为适当长度的含有突变的新抗原;(2)预测mhc分子与新抗原的结合亲和力;(3)评估优化候选新抗原。能产生变异蛋白的遗传突变主要有四类:单核苷酸变异(snv)、插入缺失突变(indel)、基因融合、异常剪切。目前的新抗原预测工艺中大部分还是基于单核苷酸变异和插入缺失。最近的许多研究也强调了基因融合和异常剪接在新抗原预测中的关键作用。因此有必要增加检查变异位点的类型,更加全面地发现新抗原。新抗原与mhc分子的结合亲和力、结合的稳定性、新抗原的疏水性等因素是判断新抗原是否具有免疫原性的重要参考依据。如何根据这些因素优化候选新抗原是一个非常重要的步骤。

3、基于高通量测序数据的肿瘤新抗原预测是一个非常复杂流程,主要有三个部分:(1)检测出能产生变异蛋白的突变(snv、indel、基因融合、异常剪切),转化出含有突变的新抗原;(2)新抗原-mhc结合预测;(3)候选新抗原的排序。当前的技术在每一部分都存在需要改进的地方,具体如下:

4、针对遗传变异检测,当前的技术存在两个问题:

5、1、只考虑snv、indel的检出;2、使用检测工具单一,缩小了新抗原的筛选范围。

6、hla基因型的种类预测不全,当前的技术大都只预测i型的hla基因型,减少了有效新抗原的数量。当前的新抗原-mhc结合预测只考虑结合亲和力,没有考虑结合稳定性等其他指标,会造成假阳性高。新抗原预测流程分析模块众多,运行速度慢,时间消耗长。


技术实现思路

1、本专利技术的目的是提出一种基于二代测序数据的肿瘤新抗原识别方法及系统,能够有效解决现有技术中存在的上述技术问题。

2、为了达到上述目的,本专利技术实施例提供一种基于二代测序数据的肿瘤新抗原识别方法,所述方法包括步骤:

3、s1、获取患者的肿瘤样本和外周血样本,分别提取肿瘤样本的dna和rna以及外周血样本的dna,构建测序文库并且进行靶向捕获rna、dna,获取肿瘤组织和血液组织的dna外显子测序数据,以及肿瘤组织的rna转录组测序数据;

4、s2、对二代测序数据进行质控;

5、s3、以参考基因组作为对照组与质控后的dna数据和rna数据进行序列对比,检出外周血snv、indel突变、肿瘤组织的snv、indel变异,注释以及计算血液组织、肿瘤组织的snv、indel突变频率,同时计算基因表达丰度,进而筛选出能产生变异蛋白的突变;

6、s4、根据s3中得到的肿瘤组织rna测序数据的序列比对结果、基因表达丰度,检出肿瘤组织的基因融合、异常剪切事件;

7、s5、根据s2中得到的质控的血液样本dna数据,对hla-i类及hla-ⅱ类等位基因进行分型,预测患者hla的基因型;

8、s6、确认候选新抗原多肽序列;

9、s7、预测新抗原-mhc复合物的结合亲和力、稳定性指标,同时进行新抗原的评估优化,包括:

10、s7.1、估算每种多肽与每种hla i型和每种hlaⅱ型等位基因之间的结合亲和力,估算每种多肽与mhc之间的结合稳定性;

11、s7.2、设计筛选新抗原的条件,包括:

12、a、结合亲和力小于500um,得到rank_bf;

13、b、将新抗原的预测结合得分与一组随机天然肽的预测结合得分进行比较,获得新抗原的预测结合得分在背景中的百分比排名,筛选出百分比排名小于2%的新抗原,得到rank_pr;

14、c、结合稳定性大于1h的新抗原,得到rank_bs;

15、s7.3、筛选新抗原的条件相加得到得分公式,并计算新抗原的得分score_neo,表示如下:score_neo=rank_bf*0.5+rank_pr*0.3+rank_bs*0.2。

16、较佳地,测序数据量的标准为dna为30g碱基量,rna为10g碱基量。

17、较佳地,所述步骤s2具体包括:

18、对血液组织的dna数据、肿瘤组织dna数据和肿瘤组织rna转录组数据使用flexbar软件去除接头序列、去除质量分数小于15的碱基占比大于40%的序列及含n碱基大于等于5的序列,碱基gc的含量在45%—55%,碱基质量值大于30的比例要超过85%。

19、较佳地,在所述s3中,所述以参考基因组作为对照组与质控后的dna数据和rna数据进行序列对比,具体为:将质控后的dna序列使用bwa软件men算法比对至人类参考基因组,获得比对并排序比对结果,并建立index文件,再使用sambamba软件标记或去除重复序列;将质控后的rna序列使用star比对至人类参考基因组;

20、所述外周血snv、indel突变、肿瘤组织的snv、indel变异的检出包括:

21、使用strelka和mutect2将血液样本的序列对比结果比对至人类参考基因组,得到血液样本的基因变异结果;

22、将基本变异结果作为对照组,使用strelka和mutect2软件对肿瘤组织的序列对比结果进行肿瘤组织的变异检出;

23、所述筛选出能产生变异蛋白的突变的筛选条件包括:

24、(1)snv/indel所在转录本的基因表达丰度大于1;

25、(2)肿瘤样本的变异等位基因频率大于或等于0.1;

26、(3)正常样本的变异等位基因频率小于或等于0.05;

27、(4)肿瘤样本中覆盖变异位点的测序读数大于或等于5。

28、较佳地,使用vep软件和默认参数,注释检出的肿瘤组织的dna变异结果。

29、较佳地,在所述步骤s4,具体包括:

30、s4.1、使用star-fusion软件检出基因融合,只考虑合并亲代基因编码区的融合事件;其中,用本文档来自技高网...

【技术保护点】

1.一种基于二代测序数据的肿瘤新抗原识别方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的一种基于二代测序数据的肿瘤新抗原识别方法,其特征在于,测序数据量的标准为DNA为30G碱基量,RNA为10G碱基量。

3.根据权利要求1所述的一种基于二代测序数据的肿瘤新抗原识别方法,其特征在于,所述步骤S2具体包括:

4.根据权利要求1所述的一种基于二代测序数据的肿瘤新抗原识别方法,其特征在于,在所述S3中,所述以参考基因组作为对照组与质控后的DNA数据和RNA数据进行序列对比,具体为:将质控后的DNA序列使用BWA软件MEN算法比对至人类参考基因组,获得比对并排序比对结果,并建立Index文件,再使用Sambamba软件标记或去除重复序列;将质控后的RNA序列使用STAR软件比对至人类参考基因组;

5.根据权利要求4所述的一种基于二代测序数据的肿瘤新抗原识别方法,其特征在于,使用VEP软件和默认参数,注释检出的肿瘤组织的DNA变异结果。

6.根据权利要求1所述的一种基于二代测序数据的肿瘤新抗原识别方法,其特征在于,在所述步骤S4,具体包括:

7.根据权利要求1所述的一种基于二代测序数据的肿瘤新抗原识别方法,其特征在于,所述候选新抗原多肽序列的标准为:

8.一种基于二代测序数据的肿瘤新抗原识别系统,其特征在于,包括:运行单元、状态查看单元、错误查找单元、重新执行分析单元、暂停单元、展示任务单元和初始化单元;其中状态查看单元、错误查找单元、重新执行分析单元、暂停单元、展示任务单元和初始化单元都分别与运行单元连接。

9.一种电子设备,其特征在于,包括处理器、存储器,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-7任一项所述的基于二代测序数据的肿瘤新抗原识别方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的基于二代测序数据的肿瘤新抗原识别方法。

...

【技术特征摘要】

1.一种基于二代测序数据的肿瘤新抗原识别方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的一种基于二代测序数据的肿瘤新抗原识别方法,其特征在于,测序数据量的标准为dna为30g碱基量,rna为10g碱基量。

3.根据权利要求1所述的一种基于二代测序数据的肿瘤新抗原识别方法,其特征在于,所述步骤s2具体包括:

4.根据权利要求1所述的一种基于二代测序数据的肿瘤新抗原识别方法,其特征在于,在所述s3中,所述以参考基因组作为对照组与质控后的dna数据和rna数据进行序列对比,具体为:将质控后的dna序列使用bwa软件men算法比对至人类参考基因组,获得比对并排序比对结果,并建立index文件,再使用sambamba软件标记或去除重复序列;将质控后的rna序列使用star软件比对至人类参考基因组;

5.根据权利要求4所述的一种基于二代测序数据的肿瘤新抗原识别方法,其特征在于,使用vep软件和默认参数,注释检出的肿瘤组织的dna变异结果。

6.根据权利要求1所述的一种...

【专利技术属性】
技术研发人员:朱木春张博越阮润生
申请(专利权)人:广州润生细胞医药科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1