基于PDX的单细胞转录组数据分析方法、系统、设备和介质技术方案

技术编号:37664652 阅读:25 留言:0更新日期:2023-05-26 04:22
本发明专利技术公开了一种基于PDX的单细胞转录组数据分析方法、系统、设备和介质,属于生物数据处理技术领域。所述分析方法包括:将PDX模型的单细胞转录组测序数据与混合基因组库进行比对,获得细胞

【技术实现步骤摘要】
基于PDX的单细胞转录组数据分析方法、系统、设备和介质


[0001]本专利技术属于生物数据处理
,具体地,涉及基于PDX的单细胞转录组数据分析方法、系统、设备和介质。

技术介绍

[0002]PDX(病人来源肿瘤异种移植,Patient

derived tumor xenograft)模型是将来源于患者的肿瘤组织或原代细胞移植到NSG(免疫缺陷)小鼠的体内而构建的肿瘤模型。该模型是将肿瘤组织直接移植到NSG小鼠体内,未经过任何人工培养,所以在组织病理学、分子生物学和基因水平上保留了大部分原代肿瘤的特点,与临床的相似度更高。PDX模型是目前为止最接近临床样本的肿瘤模型,这种模型对于临床肿瘤评估治疗和预后具有重要的意义。
[0003]使用PDX模型进行单细胞转录组测序,可以深入分析肿瘤各个阶段在不同阶段下细胞类型以及基因表达特征,从而为肿瘤的治疗提供指导。目前,10
×
官方分析软件cellranger虽然可以针对PDX模型的多个物种混合库进行数据分析,并得到相应的表达谱矩阵和聚类结果。但是由于人和小鼠物种间存在大量的同源基因,即使来自人的细胞通过人和小鼠的混合基因组分析后,也会有部分reads可以比对上小鼠的基因组,直接基于该表达谱得到的细胞聚类结果以及下游数据分析挖掘得到的结果都会不准确。且由于人和小鼠基因组存在同源序列,也不能直接用比对上人基因组的序列进行分析,会导致部分来自小鼠的细胞最终被错误识别成人的细胞。
[0004]另外,在PDX模型研究中,除了需要研究人相关的肿瘤细胞在不同治疗方案下基因表达变化的差异以寻找相应的药物治疗靶点等,还需要研究小鼠体内的细胞与导入的人细胞如何进行相互作用的。因此,如何从PDX模型得到的细胞测序数据中分离单个物种的细胞基因表达谱以及如何获得多个物种的细胞基因表达谱都是至关重要的。然而,目前还没有系统分析基于PDX模型的单细胞转录组的方法。

技术实现思路

[0005]为了解决上述技术问题中的至少一个,本专利技术采用的技术方案如下:本专利技术第一方面提供一种基于PDX的单细胞转录组数据分析方法,包括以下步骤:S1,将获得的PDX模型的单细胞转录组测序数据与人和小鼠的混合基因组库进行比对,获得基于所述混合基因组库的细胞

基因表达谱矩阵,其中,所述混合基因组库是将人和小鼠的参考基因组文件和基因注释文件进行合并得到的;S2,根据细胞中表达人基因的比例或表达小鼠基因的比例是否大于等于第一预设阈值P1,识别细胞为人细胞、小鼠细胞或双细胞;S3,基于细胞的barcode,从所述单细胞转录组测序数据中提取识别为人细胞的序列和识别为小鼠细胞的序列;S4,将获得的人细胞的序列与人的参考基因组进行对比,并将获得的小鼠细胞的
序列与小鼠的参考基因组进行比对,获得相应的细胞

基因表达谱,其中,P1的设置使得双细胞率与多细胞率的一半相差不超过5%,由下面公式计算双细胞率和多细胞率:双细胞率=(双细胞数目/(人细胞数目+小鼠细胞数目+双细胞数目))
×
100%;多细胞率=(捕获的细胞数目
×
7.589
×
10
‑6+5.272
×
10
‑4)
×
100%。
[0006]由于多细胞率除双细胞(人和小鼠细胞混合)外,还包括人和人细胞、小鼠和小鼠细胞的混合,因此,理论上,双细胞率等于多细胞率的1/2。在本专利技术中,所述双细胞率与多细胞率的一半相差不超过5%,是指:|(双细胞率

多细胞率/2)|/(多细胞率/2)
×
100%≤5%。如果P1设置过高,会导致过多的细胞被判断为双细胞,与实际情况不符。
[0007]在本专利技术的一些具体实施方案中,P1=70%。
[0008]在本专利技术的一些实施方案中,步骤S1中,将人和小鼠的基因组文件和基因注释文件进行合并时,为了避免基因和染色体重复,分别在基因ID、基因名、染色体前加上特异性标签进行区分。例如在人的基因ID、基因名、染色体前加上“human”,在小鼠的基因ID、基因名、染色体前加上“mouse”。进一步地,基于合并的基因组文件和基因注释文件生成可用于比对的库文件。
[0009]在本专利技术的一些实施方案中,步骤S2具体包括:S21,统计细胞中表达人基因的数目Nh以及表达小鼠基因的数目Nm;S22,计算细胞中表达的人基因的比例Ph以及表达的小鼠基因的比例Pm,其中Ph=Nh/(Nh+Nm),Pm=Nm/(Nh+Nm);S23,若Ph大于等于第一预设阈值P1,则细胞识别为人细胞,若Pm大于等于第一预设阈值P1,则细胞识别为小鼠细胞。
[0010]在本专利技术的一些实施方案中,对于既不满足Ph大于等于第一预设阈值P1也不满足Pm大于等于第一预设阈值P1的细胞,判定为双细胞,即既具有人基因表达又具有小鼠基因表达的细胞。
[0011]barcode也叫index,即条形码或称标签,在测序技术中通常用于区分序列的不同来源。在本专利技术中,barcode用于区别不同的细胞,即测序结果中具有相同的barcode的测序序列意味着来自同一细胞,从而不同的barcode可以代表不同的细胞。在本专利技术的一些描述中,barcode和细胞具有相同的含义。
[0012]在本专利技术的一些实施方案中,步骤S3中,所述提取识别为人细胞的序列和识别为小鼠细胞的序列具体包括:S31,识别测序序列的barcode,与细胞的barcode进行对比,获得碱基匹配系数Mi,Mi=Lm/Lb,其中,Lm为测序序列的barcode与细胞的barcode匹配的碱基数目,Lb为细胞的barcode的碱基数目;S32,根据Mi与第二预设阈值P2进行序列提取:若Mi=100%,则直接提取对应的序列;若P2≤Mi<100%时,并且未完全匹配上的测序reads对应碱基的测序质量值<10,则将测序reads校正为正确的碱基后提取序列;若Mi<P2,则不提取,其中,P2≥80%。
[0013]利用步骤S2识别出人细胞和小鼠细胞后,虽然也可以根据步骤S1的比对结果获得
人细胞或小鼠细胞相应的细胞

基因表达谱。然而,步骤S1的比对是基于所述混合基因组库进行比对的,受同源基因的影响,每个细胞的基因表达谱可能并不准确。因此,基于步骤S3提取来自人和小鼠细胞原始测序数据,可进一步分别各自与人和小鼠的参考基因组进行比对,获得正确的人或小鼠的细胞

基因表达谱矩阵。
[0014]不同测序平台通常具有不同的barcode长度,例如Illumina 10
×
单细胞测序平台,barcode长度为16,墨卓平台的barcode长度为28。根据不同的barcode长度选择不同的P2值,通常选择的标准是仅接受1~2个碱基错配。在本专利技术的一些实施方案中,barcode长度为16,P2设为90%,仅本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于PDX的单细胞转录组数据分析方法,其特征在于,包括以下步骤:S1,将获得的PDX模型的单细胞转录组测序数据与人和小鼠的混合基因组库进行比对,获得基于所述混合基因组库的细胞

基因表达谱矩阵,其中,所述混合基因组库是将人和小鼠的参考基因组文件和基因注释文件进行合并得到的;S2,根据细胞中表达人基因的比例或表达小鼠基因的比例是否大于等于第一预设阈值P1,识别细胞为人细胞、小鼠细胞或双细胞;S3,基于细胞的barcode,从所述单细胞转录组测序数据中提取识别为人细胞的序列和识别为小鼠细胞的序列;S4,将获得的人细胞的序列与人的参考基因组进行对比,并将获得的小鼠细胞的序列与小鼠的参考基因组进行比对,获得相应的细胞

基因表达谱,其中,P1的设置使得双细胞率与多细胞率的一半相差不超过5%,由下面公式计算双细胞率和多细胞率:双细胞率=(双细胞数目/(人细胞数目+小鼠细胞数目+双细胞数目))
×
100%;多细胞率=(捕获的细胞数目
×
7.589
×
10
‑6+5.272
×
10
‑4)
×
100%。2.根据权利要求1所述的一种基于PDX的单细胞转录组数据分析方法,其特征在于,步骤S2具体包括:S21,统计细胞中表达人基因的数目Nh以及表达小鼠基因的数目Nm;S22,计算细胞中表达的人基因的比例Ph以及表达的小鼠基因的比例Pm,其中Ph=Nh/(Nh+Nm),Pm=Nm/(Nh+Nm);S23,若Ph大于等于第一预设阈值P1,则细胞识别为人细胞,若Pm大于等于第一预设阈值P1,则细胞识别为小鼠细胞,其余为双细胞。3.根据权利要求1所述的一种基于PDX的单细胞转录组数据分析方法,其特征在于,步骤S3中,所述提取识别为人细胞的序列和识别为小鼠细胞的序列具体包括:S31,识别测序序列的barcode,与细胞的barcode进行对比,获得碱基匹配系数Mi,Mi=Lm/Lb,其中,Lm为测序序列的barcode与细胞的barcode匹配的碱基数目,Lb为细胞的barcode的碱基数目;S32,根据Mi与第二预设阈值P2进行序列提取:若Mi=100%,则直接提取对应的序列;若P2≤Mi<100%时,并且未完全匹配上的测序reads对应碱基的测序质量值<10,则将测序reads校正为正确的碱基后提取序列;若Mi<P2,则不提取,其中,P2≥80%。4.根据权利要求3所述的一种基于PDX的单细胞转录组数据分析方法,其特征在于,所述将测序reads校正为正确的碱基是指将测序序列的barcode中测序质量值<10的碱基校正为匹配的细胞的barcode对应位置的碱基。5.根据权利要求1所述的一种基于PDX的单细胞转录组数据分析方法,其特征在于,在步骤S2之后,进行如下步骤:S3

,将所述单细胞转录组测序数据与人和小鼠同源基因的整合基因序列集进行比对,获得与整合基因的比对结果;S4

,基于步骤S2识别的人细胞和小鼠细胞barcode,从步骤S3

得到的比对结果中获得
细胞

整合基因表达谱,其中,所述同源基因的整合基因序列集基于以下步骤得到:(1)将人和小鼠的每个同源基因的序列进行拼接,...

【专利技术属性】
技术研发人员:葛长利韩斐然郎秋蕾
申请(专利权)人:杭州链康医学检验实验室有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1