System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及生物信息学,例如特别适用于计算分子生物学中的遗传或蛋白质相关数据处理的信息与通信技术的,特别涉及一种基于单细胞基因组表达的细胞分类方法、介质及设备。
技术介绍
1、单细胞rna测序(scrna-seq)是目前在分子水平上定义细胞状态的主要方法之一。scrna-seq数据集的分析通常从降维和聚类开始,根据scrna-seq数据对细胞进行细胞类型注释的方法,对数据进行降维聚类,根据各聚类后的细胞簇所表达的特征marker基因(基质细胞)来对每个簇进行细胞类型注释。然而,簇代表具有相对相似基因表达谱的细胞群,聚集在一起的细胞可能为相同或相似的细胞类型,由于scrna-seq数据集中,可能无法完全捕获细胞转变等不同的细胞现象,因此,细胞可能会被分配错误的身份。同时,细胞类型的手动注释通常非常耗时且重现性有限,期间需具有要专业背景知识的人员根据每个细胞簇中marker基因的表达水平以及数据库中细胞类型对应的marker来为细胞簇注释细胞类型,存在偏差的概率。
2、由于人员操作差异和不同平台间的测序深度差异会使得scrna-seq数据存在批次效应,且每个细胞在不同生命周期内所表达的基因也会有些许差异,而传统方法通过人工手动注释细胞类型,耗时费力,代价极高。为了克服这些限制,陆续出现其他用于细胞簇自动注释的计算方法。随着基因测序技术的快速发展和人工智能的兴起,利用深度学习技术,从细胞的基因表达水平来预测细胞类型成为实现细胞类型注释的关键手段。但现在的细胞类型自动注释方法都是基于同一种基因划分,导致在基因组序列中的很多
技术实现思路
1、为解决上述技术问题,本专利技术提供一种基于单细胞基因组表达的细胞分类方法、介质及设备。
2、本专利技术的构思在于,考虑到基因组是一个生物体完整的遗传信息的集合,由dna组成,包括编码区和非编码区;当前常规的单细胞转录组分析主要聚焦于基因组中编码区的表达信息,忽略了基因组中大量非编码区域的潜在功能性信息,这些被忽视的区域包括但不限于长链非编码rna(lncrna)、微小rna(mirna)、增强子、启动子、假基因、转座子和内含子等,可能在基因调控、表观遗传修饰、细胞命运决定以及复杂疾病的发生发展中扮演关键角色,在单细胞转录组分析中整合和利用这些非编码区域的信息,不仅能够提供更全面的基因调控网络图谱,还可以揭示编码区以外的功能性rna及其在不同生物过程中的作用,因此,将基因组重新分块,充分利用基因组中的序列信息,通过分块使得每个基因组序列具有更多的基因序列,能够更好地用于细胞类型识别,促进单细胞转录组的注释工作;此处“具有更多的基因序列”是指舍弃当前约定的每个基因组序列长度,而重新定义每个基因组序列的长度,准确地说,为增加每个基因组序列的长度,使得每个重新定义后的基因组序列都包含较之前更多的基因序列(atgc序列)。
3、本专利技术所采用的技术方案是,一种基于单细胞基因组表达的细胞分类方法,所述方法包括以下步骤:
4、s1构建重新划分的基于基因组序列数据组的bed文件并转换成约定格式文件;
5、s2构建基因组序列数据组间的参考,获得t2t基因组的参考;此处t2t基因组为预设(原有)的基因划分,即对每个基因序列的划分,用于指导软件如何将整个基因序列划分成单个的基因;
6、s3基于基因组序列数据组和原始真实数据,分别与s2的参考信息作用,以cellranger软件及对应的处理流程处理,获得基因组序列数据表征及对应的细胞类型标签;
7、s4处理s3的基因组序列数据表征后输入构建的全连接网络模型,训练至预设条件;
8、s5提取待分类的基因组序列数据表征,处理后输入训练后的全连接网络模型,得到分类结果。
9、优选地,s1中,所述基于基因组序列数据组的bed文件包括基因组序列数据组的起始位置、结束位置及对应的基因序号。
10、优选地,s2中,基于标准数据格式和cellranger软件完成参考数据的处理。
11、优选地,s3中,处理后生成基因组序列数据组的10x矩阵数据,获取对应的数据表达矩阵z,z的行对应基因组序列数据组的块序号,列对应每个细胞;z的第i行第j列为细胞j的i基因表达水平。
12、优选地,处理s3后生成的细胞类型标签,标记类别,得到每个细胞序号和类别的对应关系s,从数据表达矩阵z中划定训练集和测试集。
13、优选地,s4中,处理s3的基因组序列数据表征包括对数据表达矩阵z中的数据进行缩放,得到m行n列的标准化新矩阵znew,
14、
15、其中,min(z)为矩阵z中的最小值,max(z)为矩阵中的最大值,min_val和max_val为预设的放缩范围的下限和上限。
16、优选地,处理新矩阵znew,获得全连接网络模型的输入zin,
17、
18、其中,znewi,j为矩阵znew中第i行第j列元素值,i为0至m-1的整数,j为0至n-1的整数,t为列的序号,即为0到n的整数。
19、优选地,s4中,全连接网络模型包括顺次连接的输入层、若干组线性处理模块和输出层;所述线性处理模块为三组,任一组所述线性处理模块包括顺次连接的激活函数层、dropout层和全连接层;线性处理模块的线性层的节点数逐次减小。
20、一种计算机可读存储介质,其上存储有基于单细胞基因组表达的细胞分类程序,该程序被处理器执行时实现上述基于单细胞基因组表达的细胞分类方法。
21、一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现上述基于单细胞基因组表达的细胞分类方法。
22、本专利技术提供了一种基于单细胞基因组表达的细胞分类方法、介质及设备,构建重新划分的基于基因组序列数据组的bed文件并转换成约定格式文件,构建基因组序列数据组间的参考,获得t2t基因组的参考;基于基因组序列数据组和原始真实数据,分别与参考信息作用,以cellranger软件及对应的处理流程处理,获得基因组序列数据表征及对应的细胞类型标签;处理基因组序列数据表征后输入构建的全连接网络模型,训练至预设条件;提取待分类的基因组序列数据表征,处理后输入训练后的全连接网络模型,得到分类结果;基于方法实现介质和设备。
23、本专利技术的有益效果在于,不依赖传统的参考基因组注释细胞类型,而是充分利用基因组表达信息预测细胞类型;对基因组重新分块后,每个基因块所包含的基因序列数量较多,能够充分利用与细胞序列匹配上的基因块,从而有利于提取更多的基因信息来提升细胞类型识别的准确率。
本文档来自技高网...【技术保护点】
1.一种基于单细胞基因组表达的细胞分类方法,其特征在于:所述方法包括以下步骤:
2.根据权利要求1所述的一种基于单细胞基因组表达的细胞分类方法,其特征在于:S1中,所述基于基因组序列数据组的BED文件包括基因组序列数据组的起始位置、结束位置及对应的基因序号。
3.根据权利要求1所述的一种基于单细胞基因组表达的细胞分类方法,其特征在于:S2中,基于标准数据格式和CellRanger软件完成参考数据的处理。
4.根据权利要求1所述的一种基于单细胞基因组表达的细胞分类方法,其特征在于:S3中,处理后生成基因组序列数据组的10X矩阵数据,获取对应的数据表达矩阵Z,Z的行对应基因组序列数据组的块序号,列对应每个细胞。
5.根据权利要求4所述的一种基于单细胞基因组表达的细胞分类方法,其特征在于:处理S3后生成的细胞类型标签,标记类别,得到每个细胞序号和类别的对应关系S,从数据表达矩阵Z中划定训练集和测试集。
6.根据权利要求4所述的一种基于单细胞基因组表达的细胞分类方法,其特征在于:S4中,处理S3的基因组序列数据表征包括对数据表达
7.根据权利要求6所述的一种基于单细胞基因组表达的细胞分类方法,其特征在于:处理新矩阵Znew,获得全连接网络模型的输入Zin,
8.根据权利要求1所述的一种基于单细胞基因组表达的细胞分类方法,其特征在于:S4中,全连接网络模型包括顺次连接的输入层、若干组线性处理模块和输出层;所述线性处理模块为三组,任一组所述线性处理模块包括顺次连接的激活函数层、dropout层和全连接层;线性处理模块的线性层的节点数逐次减小。
9.一种计算机可读存储介质,其特征在于:其上存储有基于单细胞基因组表达的细胞分类程序,该程序被处理器执行时实现上述基于单细胞基因组表达的细胞分类方法。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于:所述处理器执行所述程序时,实现上述基于单细胞基因组表达的细胞分类方法。
...【技术特征摘要】
1.一种基于单细胞基因组表达的细胞分类方法,其特征在于:所述方法包括以下步骤:
2.根据权利要求1所述的一种基于单细胞基因组表达的细胞分类方法,其特征在于:s1中,所述基于基因组序列数据组的bed文件包括基因组序列数据组的起始位置、结束位置及对应的基因序号。
3.根据权利要求1所述的一种基于单细胞基因组表达的细胞分类方法,其特征在于:s2中,基于标准数据格式和cellranger软件完成参考数据的处理。
4.根据权利要求1所述的一种基于单细胞基因组表达的细胞分类方法,其特征在于:s3中,处理后生成基因组序列数据组的10x矩阵数据,获取对应的数据表达矩阵z,z的行对应基因组序列数据组的块序号,列对应每个细胞。
5.根据权利要求4所述的一种基于单细胞基因组表达的细胞分类方法,其特征在于:处理s3后生成的细胞类型标签,标记类别,得到每个细胞序号和类别的对应关系s,从数据表达矩阵z中划定训练集和测试集。
6.根据权利要求4所述的一种基于单细胞基因组表达的细胞...
【专利技术属性】
技术研发人员:唐光松,梅建萍,吴清发,余为强,李兴龙,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。