【技术实现步骤摘要】
一种细胞表达数据处理方法、装置及电子设备
[0001]本专利技术涉及数据处理
,尤其涉及一种细胞表达数据处理方法
、
装置及电子设备
。
技术介绍
[0002]细胞表达数据是指通过一定的生物信息学方法和技术对细胞基因表达水平进行测量和分析所得的数据
。
这些数据可以用于研究细胞类型
、
细胞异质性
、
细胞发育和分化等方面的问题
。
[0003]细胞表达数据通常以基因表达矩阵的形式存在,其中每一行表示一个基因,每一列表示一个细胞或一个组织样本的表达水平
。
基因表达矩阵,本质上是一个超大的稀疏矩阵,为了实现某一元素的随机读写,需要将基因表达矩阵拆分成多个部分以形成一套复杂的索引机制,如多段索引或树型索引
。
又因为基因表达矩阵并不能进行卷积计算,只能按行整行全量读取
。
因此,使用常规的稀疏矩阵
/
超大矩阵的处理方式,细胞表达数据处理复杂度高,存储占用空间大
。
[0004]因此,提出一种细胞表达数据处理方法
、
装置及电子设备
。
技术实现思路
[0005]本说明书提供一种细胞表达数据处理方法
、
装置及电子设备,减小了细胞表达数据处理复杂度,同时减小了存储占用空间
。
[0006]本说明书提供一种细胞表达数据处理方法,包括:
[0007]获取细胞表达数据; />[0008]将所述细胞表达数据进行处理,得到特定格式的细胞表达矩阵数据;
[0009]对所述特定格式的细胞表达矩阵数据压缩,得到压缩后的细胞表达矩阵数据;
[0010]基于所述压缩后的细胞表达矩阵数据建立散列索引,并按照所述散列索引保存所述压缩后的所述细胞表达数据
。
[0011]可选的,所述特定格式的细胞表达矩阵数据包括以基因为行,以细胞为列的细胞表达矩阵数据
。
[0012]可选的,所述对所述特定格式的细胞表达矩阵数据压缩,得到压缩后的细胞表达矩阵数据,包括:
[0013]通过无损压缩模型对所述特定格式的细胞表达矩阵数据按行分别压缩,得到二进制的细胞表达矩阵数据;
[0014]其中,所述无损压缩模型包括
LZMA、GZIP、BZIP。
[0015]可选的,所述基于所述压缩后的细胞表达矩阵数据建立散列索引,并按照所述散列索引保存所述压缩后的所述细胞表达数据,包括:
[0016]遍历所述二进制的细胞表达矩阵数据中的每个元素,确定每个元素的哈希值;
[0017]基于每个元素以及其对应的哈希值建立散列索引,其中每一行存储信息为基因名
称
、
起点依稀量
、
终点偏移量;
[0018]将所述二进制的细胞表达矩阵数据中的每个元素依次保存至所述散列索引,并保存所述散列索引
。
[0019]可选的,所述确定每个元素的哈希值的方式包括
MD5、SHA
‑
1。
[0020]可选的,所述基于所述压缩后的细胞表达矩阵数据建立散列索引,并按照所述散列索引保存所述压缩后的所述细胞表达数据之后,包括:
[0021]获取待查询元素;
[0022]基于所述待查询元素使用目标确定哈希值的方式确定所述待查询元素的哈希值,所述目标确定哈希值的方式包括与建立散列索引时相同的确定每个元素哈希值的方式;
[0023]基于所述待查询元素的哈希值于所述散列索引中查询所述待查询元素对应的细胞表达数据
。
[0024]本说明书提供一种细胞表达数据处理装置,包括:
[0025]获取模块,用于获取细胞表达数据;
[0026]处理模块,用于将所述细胞表达数据进行处理,得到特定格式的细胞表达矩阵数据;
[0027]压缩模块,用于对所述特定格式的细胞表达矩阵数据压缩,得到压缩后的细胞表达矩阵数据;
[0028]索引模块,用于基于所述压缩后的细胞表达矩阵数据建立散列索引,并按照所述散列索引保存所述压缩后的所述细胞表达数据
。
[0029]可选的,所述特定格式的细胞表达矩阵数据包括以基因为行,以细胞为列的细胞表达矩阵数据
。
[0030]可选的,所述压缩模块,包括:
[0031]通过无损压缩模型对所述特定格式的细胞表达矩阵数据按行分别压缩,得到二进制的细胞表达矩阵数据;
[0032]其中,所述无损压缩模型包括
LZMA、GZIP、BZIP。
[0033]可选的,所述索引模块,包括:
[0034]遍历所述二进制的细胞表达矩阵数据中的每个元素,确定每个元素的哈希值;
[0035]基于每个元素以及其对应的哈希值建立散列索引,其中每一行存储信息为基因名称
、
起点依稀量
、
终点偏移量;
[0036]将所述二进制的细胞表达矩阵数据中的每个元素依次保存至所述散列索引,并保存所述散列索引
。
[0037]可选的,所述确定每个元素的哈希值的方式包括
MD5、SHA
‑
1。
[0038]可选的,所述索引模块之后,包括:
[0039]获取待查询元素;
[0040]基于所述待查询元素使用目标确定哈希值的方式确定所述待查询元素的哈希值,所述目标确定哈希值的方式包括与建立散列索引时相同的确定每个元素哈希值的方式;
[0041]基于所述待查询元素的哈希值于所述散列索引中查询所述待查询元素对应的细胞表达数据
。
[0042]本说明书还提供一种电子设备,其中,该电子设备包括:
[0043]处理器;以及,
[0044]存储处理器可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行上述任一项所述的方法
。
[0045]本说明书还提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现上述任一项方法
。
[0046]本专利技术中至少具备以下优点:
[0047](1)
牺牲了活用性换来了在读取细胞表达矩阵数据下的高随机查询效率,减小了时间复杂度;
[0048](2)
在不损失随机查询效率的前提下,压缩率高,减小了存储占用空间
。
附图说明
[0049]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图
。
[0050]图1为本说明书实施例提供的一种细胞表达数据处理方法的原理示意图;
[0051]图2为本文档来自技高网...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.
一种细胞表达数据处理方法,其特征在于,包括:获取细胞表达数据;将所述细胞表达数据进行处理,得到特定格式的细胞表达矩阵数据;对所述特定格式的细胞表达矩阵数据压缩,得到压缩后的细胞表达矩阵数据;基于所述压缩后的细胞表达矩阵数据建立散列索引,并按照所述散列索引保存所述压缩后的所述细胞表达数据
。2.
如权利要求1所述的细胞表达数据处理方法,其特征在于,所述特定格式的细胞表达矩阵数据包括以基因为行,以细胞为列的细胞表达矩阵数据
。3.
如权利要求2所述的细胞表达数据处理方法,其特征在于,所述对所述特定格式的细胞表达矩阵数据压缩,得到压缩后的细胞表达矩阵数据,包括:通过无损压缩模型对所述特定格式的细胞表达矩阵数据按行分别压缩,得到二进制的细胞表达矩阵数据;其中,所述无损压缩模型包括
LZMA、GZIP、BZIP。4.
如权利要求3所述的细胞表达数据处理方法,其特征在于,所述基于所述压缩后的细胞表达矩阵数据建立散列索引,并按照所述散列索引保存所述压缩后的所述细胞表达数据,包括:遍历所述二进制的细胞表达矩阵数据中的每个元素,确定每个元素的哈希值;基于每个元素以及其对应的哈希值建立散列索引,其中每一行存储信息为基因名称
、
起点依稀量
、
终点偏移量;将所述二进制的细胞表达矩阵数据中的每个元素依次保存至所述散列索引
,
并保存所述散列索引
。5.
如权利要求4所述的细胞表达数据处理方法,其特征在于,所述确定每个元素的哈希值的方式包括
技术研发人员:黄芳葳,龙婷,孙子奎,
申请(专利权)人:上海派森诺生物科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。