System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于生物信息学,具体涉及一种知识图谱致癌性表示预测方法。
技术介绍
1、原发性肺癌根据病理及治疗分类,大体分为非小细胞肺癌(nsclc)和小细胞肺癌(sclc)。中国肿瘤登记中心2015年的数据更进一步揭示了肺癌的高发病和死亡率,强调了肺癌预防、诊断和治疗的重要性。
2、近年来,dna测序技术取得了显著进步,使得大规模收集肺癌基因组数据成为可能,为致癌性因子的发现提供了巨大的机会。尽管当前的研究已经在肺癌致癌因子的识别上取得了一些进展,但多数研究侧重于确定某一基因是否与肺癌相关,而忽略了亚型特异性信息的重要性。指明致癌因子的亚型特异性在精准医学中具有不可忽视的重要性,对于个体化的治疗策略制定尤为关键。
3、因此,随着肺癌病例的不断增加,针对肺癌的致癌性进行深入研究,尤其是从基因组学的角度,成为当下的迫切需求。
4、现有技术中,对于癌症的预测主要有以下方法:
5、基于dna异常的方法:大多数癌症驱动因子的最相关基础是癌症样本中的dna异常。现有的计算驱动检测方法主要关注dna测序数据,并利用诸如单核苷酸变异、拷贝数变异和结构变异等异常信息。
6、基于基因互作的方法:鉴于基因与其他基因之间存在功能性相互作用,一些最新的驱动发现方法还将基因组信息从基因突变扩展到基因相互作用。例如,hotnet2将基因相互作用视为带有基因节点的网络,并在基因网络中传播突变以整合基因的突变和相互作用信息。此外,为了减少不受限制的传播导致的假阳性,还提出了许多网络传播的修订方法,这些方法
7、基于rna异常的方法:由于癌症驱动事件可能不仅仅是由dna异常引起的,还可能是由rna异常引起的,因此pcawg transcriptome core group对数千名捐献者的样本的肿瘤转录组进行了系统性的表征,并全面分析了与癌症相关的基因的rna异常的目录。他们还观察到rna和dna异常的共同出现和驱动基因中的复发性rna异常。然而,很少有癌症驱动因子鉴定的计算工具考虑到rna异常。由pcawg transcriptome core group展示的dna和rna异常之间也存在关联,这些关联可以连接这两种类型的异常数据,实现dna和rna异常的集成。不幸的是,大多数现有的癌症驱动检测方法低估了rna异常中的信息,只利用来自基因组异常或基因相互作用的信息。对于从dna和rna的多种类型的异常进行集成分析的癌症驱动发现方法仍然是一个缺失。
8、总之,尽管当前有很多关于癌症驱动发现的方法,但大部分方法主要侧重于dna异常和基因相互作用的信息。rna异常的信息在很多方法中被忽视或低估,这使得对癌症驱动因子的全面理解仍然有限。
技术实现思路
1、为了克服现有技术的不足,本专利技术提供了一种肺癌基因组多类型变异的知识图谱致癌性表示预测方法,首先进行全基因组高通量测序;再进行数据比对与校正;将基因相互作用数据整合;接下来转化异常数据并构建初步知识图谱,纳入附加信息并完善知识图谱;最后完成肺癌基因组知识图谱致癌性表示。本专利技术可以使特异亚型癌症驱动基因的发现任务具有更为丰富的内涵。
2、本专利技术解决其技术问题所采用的技术方案包括如下步骤:
3、步骤1:全基因组高通量测序;
4、选取肺癌样本,采用高通量测序技术,进行dna和rna的全基因组测序;
5、对于dna,使用捕获技术捕获包括外显子、内含子关键区域的序列;
6、对于rna,采用rna-seq方法,进行全长的转录组分析,捕获所有可能的转录变体和表达差异;
7、本步骤输出:完整的肺癌样本dna和rna测序数据;
8、步骤2:数据比对与校正;
9、将测序得到的dna和rna测序数据与人类参考基因组grch38进行比对,确保dna和rna测序数据准确性;
10、采用genome analysis toolkit-gatk工具集进行数据校正;
11、使用gatk内置的baserecalibrator进行碱基质量重新校准;
12、利用gatk的haplotypecaller或mutect2工具进行变异检测,鉴定出单核苷酸多态性snps、插入缺失indels基因组变异;
13、利用gatk的cnv的工作流程,检测出基因组的拷贝数变异cnvs;
14、对rna数据进行分析,结合正常对照组,通过读深信号和转录组组成,鉴定出与正常组相比的差异表达基因;
15、本步骤输出:完整鉴定的肺癌样本的dna变异数据和rna表达异常数据;
16、步骤3:基因相互作用数据整合;
17、访问string数据库,收集相关的基因或蛋白质之间的已知和预测的相互作用数据;
18、访问irefindex数据库,收集肺癌相关基因间的相互作用信息;
19、采用cytoscape网络分析工具将收集到的基因或蛋白质相互作用数据整合成一个交互网络;在交互网络中,每个节点代表一个基因或蛋白质,邻边代表它们之间的已知或预测相互作用;通过包括网络中心性和聚类系数在内的网络参数,分析基因或蛋白质在网络中的重要性和功能聚类;
20、本步骤输出:构建并优化的肺癌样本中基因相互作用的详细网络模型,用于识别关键基因和潜在的生物标志物;
21、步骤4:转化异常数据并构建初步知识图谱;
22、针对dna和rna的多类型异常,将每种异常数据转化为三元组事实格式;具体地,当样本t中的基因g出现t类型的异常时,构建三元组(样本p,异常类型t,基因g);
23、将上述三元组中的主体视为实体,将宾语看作是与主体有关的异常基因,并将主体和宾语之间的异常类型视为关系;
24、收集所有的实体,作为图的节点,并将关系作为图的边,将这些节点和边连接形成一个图结构,即为初步的知识图谱;
25、本步骤输出:一个完全覆盖来自dna和rna的所有异常的知识图谱,该图谱表示不同的异常数据关系,解决数据不兼容性问题;
26、步骤5:纳入附加信息并完善知识图谱;
27、将基因间的交互关系纳入知识图谱中,当基因g1与g2之间存在交互时,构建并加入三元组事实(基因g1,交互i,基因g2);
28、对于存在同义词关系的基因g1和g2,构建并加入三元组事实(基因g1,同义词s,基因g2);
29、添加肺癌的亚型信息,当肺癌样本p属于亚型s时,构建并加入三元组事实(样本p,属于b,亚型s);
30、对于已经验证的肺癌驱动基因g,构建并加入三元组事实(基因g,是is,致癌基因d);
31本文档来自技高网...
【技术保护点】
1.一种肺癌基因组多类型变异的知识图谱致癌性表示预测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种肺癌基因组多类型变异的知识图谱致癌性表示预测方法,其特征在于,所述捕获技术为外显子捕获或目标区域测序。
3.根据权利要求1所述的一种肺癌基因组多类型变异的知识图谱致癌性表示预测方法,其特征在于,所述将测序得到的DNA和RNA测序数据与人类参考基因组GRCh38进行比对,比对过程使用BWA-MEM比对工具完成。
4.根据权利要求1所述的一种肺癌基因组多类型变异的知识图谱致癌性表示预测方法,其特征在于,所述对RNA数据进行分析使用DESeq2工具。
【技术特征摘要】
1.一种肺癌基因组多类型变异的知识图谱致癌性表示预测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种肺癌基因组多类型变异的知识图谱致癌性表示预测方法,其特征在于,所述捕获技术为外显子捕获或目标区域测序。
3.根据权利要求1所述的一种肺癌基因组多类型变异的知识图谱...
【专利技术属性】
技术研发人员:习佳宁,施雯,陈鑫,曾恒枢,刘子瑜,
申请(专利权)人:广州医科大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。