本发明专利技术公开了一种基于高通量转录组测序的儿童急性白血病分型系统及方法,所述分型系统基于高通量转录组测序数据进行低质量处理后,与参考基因组对应比对获得各基因的序列条数,再基于各个基因上的序列条数以及总测序序列数和基因长度,计算FPKM表达量;最后将FPKM表达矩阵输入随机森林预测模型,得到分型结果。所述分型系统解决了儿童急性白血病患者在进行分子生物学诊断时缺少患者分型信息,进而导致关键变异漏检的问题,为儿童急性白血病分型提供新的方向。型提供新的方向。型提供新的方向。
【技术实现步骤摘要】
一种基于高通量转录组测序的儿童急性白血病分型系统及方法
[0001]本专利技术涉及白血病分型
,具体为一种基于高通量转录组测序的儿童急性白血病分型系统及方法。
技术介绍
[0002]白血病是儿童及青少年时期占首位的恶性疾病,儿童及青少年白血病90%以上为急性白血病,其中急性淋巴白血病(ALL)约占75%,急性髓系白血病(AML)约占25%。白血病的治疗是以化疗为主的整体综合治疗模式,确诊后应根据危险程度分组进行分层治疗以取得最佳治疗效果,而白血病的危险度分组又和白血病具体分型息息相关,同时,不同分型推荐的治疗方案也存在差异,比如高危组II级推荐用药,B
‑
ALL为贝林妥欧、CAR
‑
T、硼替佐米、单抗等,T
‑
ALL为奈拉宾、硼替佐米。因此,确认患者分型对患者的诊断治疗都有很大的必要性。
[0003]转录组测序是一种用高通量测序技术对样本中基因的转录水平进行全面检测和分析的方法,是白血病患者初诊时常用的分子生物学诊断方法。利用转录组测序可以检测患者体内白血病相关的突变、基因融合等,含有不同基因变异患者的治疗和预后存在较大差异。使用转录组测序检测患者分析变异时,由于各患者基因表达量差异较大,部分关键基因的变异信号非常弱,需要根据白血病患者的分型人工核查原始比对数据中的细微信号,依此判定是否存在某些关键变异。
[0004]现在临床诊断中一般使用WHO 2016诊断标准,采用骨髓细胞形态学
‑
免疫分型
‑
细胞遗传学
‑
分子生物学的综合检查分析患者分型,其中第一阶段骨髓细胞形态学通过骨髓穿刺或骨髓活检,对骨髓中的各种白血病细胞进行染色,然后进行显微镜下形态学的观察,需要肉眼划分原始、早、中、晚各个时期的细胞数量,并通过观察细胞形态判断AML/T
‑
ALL/B
‑
ALL分型,存在很大的主观性,很多时候也很难确定具体分型。在做转录组测序时很多时候临床只有骨髓细胞形态学结果,无法提供准确分型信息,因而难以检测低频信号的变异。故而基于转录组确定分型对儿童急性白血病患者意义重大。
技术实现思路
[0005]本专利技术提供了一种基于高通量转录组测序的儿童急性白血病分型系统及方法,用于解决现有技术分子生物学分析时缺少患者分型信息的问题。
[0006]为实现上述目的,本专利技术的方案如下:
[0007]一种基于高通量转录组测序的儿童急性白血病分型系统,包括:
[0008]预处理模块,用于去除高通量转录组测序数据中的低质量数据,然后将序列与参考基因组对应比对,获得各基因的序列条数;
[0009]FPKM计算模块,用于基于各个基因上的序列条数以及总测序序列数和基因长度,计算FPKM表达量;
[0010]分型预测模块,用于将FPKM表达矩阵输入随机森林预测模型,得到分型结果。
[0011]进一步地,所述随机森林预测模型通过自定义随机森林分类器,然后调参获得。
[0012]进一步地,所述随机森林预测模型将FPKM表达矩阵划为训练集和测试集,使用python的sklearn包进行随机森林模型的训练。
[0013]进一步地,所述预处理模块将测序数据拆分成fastq格式,然后使用软件fastp进行低质量数据处理。
[0014]进一步地,所述低质量数据包括接头序列、连续的低质量碱基序列、低质量序列及过短的序列。
[0015]进一步地,所述参考基因组为人类参考基因组hg19。
[0016]进一步地,所述分型结果包括AML、TALL及BALL三种类型的比例。
[0017]所述的,分型系统基于高通量转录组测序数据的处理和计算得到分型结论,分型结果包括存在或不存在儿童急性白血病的一种或多种类型。
[0018]本专利技术的另一个目的在于,提出一种非诊断为目的基于高通量转录组测序的儿童急性白血病分型方法,包括以下步骤:
[0019]去除高通量转录组测序数据中的低质量数据,然后将序列与参考基因组对应比对,获得各基因的序列条数;
[0020]基于各个基因上的序列条数以及总测序序列数和基因长度,计算FPKM表达量;
[0021]将FPKM表达矩阵输入随机森林预测模型,得到分型结果。
[0022]所述的,非诊断为目的是指仅对高通量转录组测序样本进行分型得到客观的数据结果,该分型方法得到的结果不直接以指导用药或诊断作为目的。
[0023]本专利技术的还有一个目的在于,提出一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行以上所述的分型方法。
[0024]本专利技术再一个目的为,提出一种存储有计算机指令的计算机可读存储介质,所述计算机指令用于使所述计算机执行以上所述的分型方法。
[0025]相比现有技术,本专利技术的有益效果包括但不限于:
[0026]1.本专利技术提供的基于高通量转录组测序的儿童急性白血病分型系统解决了儿童急性白血病患者在进行分子生物学诊断时缺少患者分型信息,进而导致关键变异漏检的问题。
[0027]2.本专利技术提供的基于高通量转录组测序的儿童急性白血病分型系统可以在进行分子生物学诊断(转录组)时预测患者的分型,准确性高达99.14%,弥补现有技术未提出使用转录组测序数据对AML/TALL/BALL进行准确的分型的空缺,为儿童急性白血病分型提供新的方向。
附图说明
[0028]图1为本专利技术提供的分型系统所使用的检测模型AUC曲线。
[0029]图2为本专利技术提供的分型系统执行的步骤流程示意图。
具体实施方式
[0030]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0031]在以下的实施例中,相关术语解释如下:
[0032]FPKM:是基因表达量的一种度量单位,全称为“Fragments Per Kilobase of transcript per Million mapped reads”,即每百万个映射到转录本的碎片的碱基数。FPKM是一种归一化的方法,可以将不同样本中的RNA测序数据进行比较。在计算FPKM时,首先需要将RNA序列数据进行拼接和组装,形成一组转录本集合。然后,对于每个转录本,根据该转录本的长度和RNA测序数据中与该转录本匹配的碎片数,计算出FPKM值。FPKM值可以反映一个基因的表达水平,即在一个样本中,该基因的转录本数量的相对大小。由于FPKM是归一化的,因此可以将不同样本中的FPKM值进行比较,以便在样本之间比较基因表达量的变化。
...
【技术保护点】
【技术特征摘要】
1.一种基于高通量转录组测序的儿童急性白血病分型系统,其特征在于,包括:预处理模块,用于去除高通量转录组测序数据中的低质量数据,然后将序列与参考基因组对应比对,获得各基因的序列条数;FPKM计算模块,用于基于各个基因上的序列条数以及总测序序列数和基因长度,计算FPKM表达量;分型预测模块,用于将FPKM表达矩阵输入随机森林预测模型,得到分型结果。2.根据权利要求1所述的分型系统,其特征在于,所述随机森林预测模型通过自定义随机森林分类器,然后调参获得。3.根据权利要求1所述的分型系统,其特征在于,所述随机森林预测模型将FPKM表达矩阵划为训练集和测试集,使用python的sklearn包进行随机森林模型的训练。4.根据权利要求1所述的分型系统,其特征在于,所述预处理模块将测序数据拆分成fastq格式,然后使用软件fastp进行低质量数据处理。5.根据权利要求1所述的分型系统,其特征在于,所述低质量数据包括接头序列、连续的低质量碱基序列、低质量序列及过短的序列。6...
【专利技术属性】
技术研发人员:柳佳琦,陈莉,李金旺,
申请(专利权)人:上海信诺佰世医学检验有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。