本发明专利技术提出单细胞分类和筛选的方法,以及用于所述方法的装置。将样本测序得到的reads与参考基因组进行比对,并将比对结果进行数据过滤;根据过滤后的数据确定每个单细胞样本的一致基因型,并将所有单细胞样本的一致基因型保存为SNP数据集;从已保存的SNP数据集提取与参考基因组SNP数据集位置对应的位点的基因型文件;挑选细胞突变SNP位点,并根据细胞突变SNP位点的基因型文件,对细胞进行分类及功能基因筛选。本发明专利技术避免对细胞进行标记的操作,解决了传统的单细胞分类方法中某些细胞亚群无对应的特异性标记物而无法分类的问题;另一方面,全面完整地分析单细胞基因组的遗传变异信息,大大提高了细胞亚群分类的准确性。
【技术实现步骤摘要】
本专利技术涉及生物信息学,尤其涉及单细胞分类和筛选方法以及用于所述方法的装置。
技术介绍
不同个体之间,个体的不同组织之间,甚至同一组织的不同部位在基因表达、拷贝数变异、表观遗传等方面都存在显著差异。细胞之间也存在异质性,即使是体外培养遗传背景完全相同的细胞群体。对于干细胞或前体细胞,因为任何状态改变都是可遗传的,细胞异质性尤为明显。为了更好地研究细胞生物学,揭示细胞异质性的规律,非常需要开发应用于单个细胞研究的技术方法,因此有学者提出“单细胞分析(SCA) ”概念,从“组学(Omics)I度进行阐述。单细胞分类和筛选为单细胞分析提供了重要基础。·单细胞分类可以有效应用于各种干细胞分化过程的研究中,如肿瘤干细胞、胚胎干细胞的定向分化、造血干细胞的研究中,需要筛选不同分化阶段的干细胞,进行各种干细胞的检测。在耐药性研究中,需要对给药不同时期的细胞进行精确分类,从而进一步分析该细胞亚群的耐药性和耐药基因,例如可进行癌症病人的多药耐药性及多药耐药基因与药物滥用、药物耐受、药物依赖的关系的研究。同样地,在药物靶点基因的筛选中,由于药物与细胞,特别是敏感细胞相互作用,将引起细胞外部形态及内部正常代谢过程的一系列变化,因此筛选出敏感细胞是关键的第一步,为后期精确定位药物靶点基因提供重要基础。单细胞分类和筛选应用于建立药效筛选模型,为药物设计、靶点的选择和用药方案的确定提供理论依据,同时使药物筛选有了更高的特异性。目前,常用的筛选单细胞方法多为物理机械、化学或生物的方法,如流式细胞仪、磁性细胞分选仪等方法。一方面,这些技术采用表面活性剂、荧光染料、抗原抗体,细胞毒性大,只能对特异标记的或非特异标记的单细胞悬液进行分选,前期样本制备过程繁琐,且目前对众多荧光探针、单抗(包括细胞表面CD分子)的特异性争论较多,许多细胞亚群并无对应的特异性标记物/特异性抗原;另一方面,这些技术采用生物学、免疫学、化学方法,通过表型测定(包括细胞大小、细胞粒度、细胞表面积、核浆比例等),进行统计学分析,对于亚群分类、筛选和检测的灵敏度低,缺乏有效的准确性评估。
技术实现思路
在本专利技术中,除另有说明,否则本文中使用的科学和技术术语具有本领域技术人员所通常理解的含义。同时,为了更好地理解本专利技术,下面提供相关术语的定义和解释。术语“基因型的可能性文件”,是指利用SNP检测软件,设置先验概率参数利用贝叶斯公式计算出的样本目标区域可能的基因型的后验概率的数值集合;当利用的SNP检测软件是SOAPsnp时,生成的“基因型的可能性文件”即为CNS文件。如本文使用的,“基因型文件”是指选择上述“基因型的可能性文件”中概率最大的基因型作为每个细胞的一致基因型后,根据参考基因组SNP数据集位置信息,提取每个细胞基因型的相应位点,获得的群体SNP在各细胞相应位点的基因型集合。鉴于现有单细胞的分类和筛选方法存在的问题,本专利技术提出单细胞分类和筛选方法,以及所述方法的装置。本专利技术提出单细胞分类方法,包括以下步骤将每个单细胞样本经测序得到的reads (读段)结果与参考基因组序列进行比对,并将比对结果进行数据过滤;根据过滤后的数据确定每个单细胞样本的一致基因型(genotype),并将所有单细胞样本的一致基因型保存为SNP数据集; 从已保存的SNP数据集提取与参考基因组SNP数据集位置对应的位点的基因型文件;挑选细胞突变SNP位点,并根据细胞突变SNP位点的基因型文件,对细胞进行分类。本专利技术还提出单细胞分类装置,包括数据过滤模块,将每个单细胞样本经测序得到的reads与参考基因组序列进行比对,并将比对结果进行数据过滤;基因型确定模块,根据过滤后的数据确定每个单细胞样本的一致基因型,并将所有单细胞样本的一致基因型保存为SNP数据集;基因型文件提取模块,从已保存的SNP数据集提取与参考基因组SNP数据集位置对应的位点的基因型文件;分类模块,挑选细胞突变SNP位点,根据细胞群体突变SNP的基因型文件,对细胞进行分类。本专利技术还提出单细胞筛选方法,包括以下步骤得到已预测基因组中基因的起止位置;根据细胞分类结果获得已分类群体,计算每类群体中每个基因所有SNP位点的统计量,并累加统计量;对获得的统计量作差异检验,获得检验值;将已预测基因按统计量或检验值进行排序,筛选出统计量或检验值最高的基因。本专利技术还提出单细胞筛选装置,包括获取单元,得到已预测基因组中基因的起止位置;计算单元,根据细胞分类结果获得已分类群体,计算每类群体中每个基因所有SNP位点的统计量,并累加统计量;对获得的统计量作差异检验,获得检验值;排序单元,耦合于获取单元和计算单元,将已预测基因按统计量或检验值进行排序,筛选出统计量或检验值最闻的基因。本专利技术采用新一代测序技术(NGS),通过生物信息学方法,对单细胞基因组进行分析和研究,收集细胞亚群(或微粒)进行深入的后续研究。一方面,避免对细胞进行标记的操作,有效解决了传统的单细胞分类方法中某些细胞亚群无对应的特异性标记物而无法进行分类的问题;另一方面,全面完整地分析单细胞基因组的遗传变异信息,并设置多个对照样本,大大提高了细胞亚群分类的准确性。本专利技术还提出单细胞筛选方法,能够筛选出细胞亚群(或微粒),提高了细胞筛选的准确性。附图说明图I为现有技术的重复片段(Duplication Reads)示意图;图2为现有技术的唯一比对上参考基因组的片段(Unique mapped reads)的示意图;图3为本专利技术单细胞分类和筛选的方法流程图;图4为本专利技术肾癌外显子组测序的N-J关系树;图5为本专利技术肾癌外显子组测序的最大似然关系树;图6为本专利技术肾癌外显子组测序PCA结果图,横坐标表示第一主成分向量,纵坐标·表不第二主成分向量;图7为本专利技术肾癌外显子组测序PCA结果图,横坐标表示第一主成分向量,纵坐标表不第三主成分向量;图8为本专利技术肾癌外显子组测序PCA结果图,横坐标表示第一主成分向量,纵坐标表不第四主成分向量;图9为本专利技术肾癌外显子组测序Structure结果图,其中“系列I”表示癌细胞群体,“系列2”表示癌旁细胞群体;图10为本专利技术53个癌细胞与8个正常细胞分类关系示意图;图11为本专利技术癌细胞与正常细胞聚类示意图,横坐标表示第一主成分向量,纵坐标表示第二主成分向量;图12为本专利技术单细胞分类装置示意图;图13为本专利技术单细胞分类装置中筛选模块示意图。具体实施例方式本专利技术采用新一代测序技术(NGS),通过生物信息学方法,对单细胞基因组进行分析和研究,筛选和收集细胞亚群(或微粒)进行深入的后续研究。以更高效、方便地应用于临床诊断和治疗(如产前诊断、胚胎植入前遗传诊断、个体化治疗、多点图谱制作、精子和卵子的分型、遗传病诊断、肿瘤(如淋巴瘤、白血病)分型等)、医学研究(如自闭症、神经系统疾病和自体免疫性疾病的研究、基因组变异率研究、干细胞研究、耐药性研究、药物靶点基因的筛选、转录组检测、细胞模型研究、种群鉴定等)、考古学研究、法医学检测中。本专利技术中涉及的单细胞样本包括核酸(基因组DNA或RNA,如非编码RNA、mRNA);单细胞来自生物体,采用常规方法制备。特别的,DNA或RNA可由细菌、原生动物、真菌、病毒及高等生物/高等动植物,如哺乳动物,特别是人类的单细胞提取或扩增得到。单细胞本文档来自技高网...
【技术保护点】
单细胞分类方法,包括以下步骤:将每个单细胞样本经测序得到的reads结果与参考基因组序列进行比对,并将比对结果进行数据过滤;根据过滤后的数据确定每个单细胞样本的一致基因型,并将所有单细胞样本的一致基因型保存为SNP数据集;从已保存的SNP数据集提取与参考基因组SNP数据集位置对应的位点的基因型文件;挑选细胞突变SNP位点,并根据细胞突变SNP位点的基因型文件,对细胞进行分类。
【技术特征摘要】
【专利技术属性】
技术研发人员:徐讯,鲍莉,何伟明,侯勇,陶晔,
申请(专利权)人:深圳华大基因科技有限公司,深圳华大基因研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。