一种数据处理方法及数据处理装置制造方法及图纸

技术编号:15617272 阅读:96 留言:0更新日期:2017-06-14 03:40
本发明专利技术涉及信息处理技术领域,公开了一种数据处理方法及数据处理装置。该数据处理方法包括:根据测序仪的采样规律,建立测序芯片中各反应单元与原始数据文件中所述各反应单元的输出数据的存储位置的一一映射关系;根据所述一一映射关系,从所述原始数据文件中提取出任一反应单元的输出数据。本发明专利技术的实施方式还公开了一种数据处理装置。本发明专利技术实施方式相对于现有技术而言,通过建立测序芯片中各反应单元与原始数据文件中所述各反应单元的输出数据的存储位置的一一映射关系,使得可根据该一一映射关系,准确地从测序仪采集的原始数据中挑选出芯片中任一反应单元的输出数据,大大节省了查找反应单元的输出数据的时间。

【技术实现步骤摘要】
一种数据处理方法及数据处理装置
本专利技术涉及信息处理
,特别涉及一种数据处理方法及数据处理装置。
技术介绍
为了测试芯片的性能,需要用测序仪采集芯片中各反应单元(即芯片中进行相关反应的反应腔)的输出数据进行研究。现有技术中,为了方便数据的采集,常会设计简单的数据采样原则或采集方法。但本专利技术的专利技术人发现,测序仪根据这些数据采样原则或采集方法采集出的数据的个数要大于实际的芯片的输出数据,这样就引入了冗余数据。由于冗余数据是虚假、无效、不参与数据计算的,尤其是对于高通量测序仪而言,冗余数据个数的量级是十万、百万级别的,它们的存在不仅占用大量的内存空间,更重要的是,为了避开冗余数据,常常需要设置很多判断条件来参与数值计算,这必将造成计算时间的大量浪费。
技术实现思路
本专利技术实施方式的目的在于提供一种数据处理方法及数据处理装置,使得可剔除测序仪采集的原始数据文件中的冗余数据,准确挑选出芯片中各反应单元的输出数据。为解决上述技术问题,本专利技术的实施方式提供了一种数据处理方法,包括:根据测序仪的采样规律,建立测序芯片中各反应单元与原始数据文件中所述各反应单元的输出数据的存储位置的一一映射关系;根据所述一一映射关系,从所述原始数据文件中提取出任一反应单元的输出数据。本专利技术的实施方式还提供了一种数据处理装置,包括:建立模块及提取模块;所述建立模块用于根据测序仪的采样原则,建立测序芯片中各反应单元与原始数据文件中所述各反应单元的输出数据的存储位置的一一映射关系;所述提取模块用于根据所述一一映射关系,从所述原始数据文件中提取出任一反应单元的输出数据。本专利技术实施方式相对于现有技术而言,通过建立测序芯片中各反应单元与原始数据文件中所述各反应单元的输出数据的存储位置的一一映射关系,使得可根据该一一映射关系,准确地从测序仪采集的原始数据中挑选出芯片中任一反应单元的输出数据,大大节省了查找反应单元的输出数据的时间。进一步地,所述建立测试芯片中各反应单元与原始数据文件中所述各反应单元的输出数据的存储位置的一一映射关系,具体包括:获取每个反应单元的输出数据在所述原始数据文件的存储位置坐标作为第一坐标,并获取每个反应单元在测序芯片中的位置坐标作为第二坐标;确定所述每个反应单元的第一坐标和第二坐标之间的对应关系;根据任一反应单元的第一坐标在所述原始数据文件中的位置关系,确定所述任一反应单元的第一坐标在所述原始数据文件中的位置索引;根据所述位置索引以及所述第一坐标和第二坐标的对应关系,确定任一反应单元的第二坐标在所述原始数据文件中的位置索引。进一步地,所述位置关系包括:所述第一坐标在所述原始数据文件中所属的区域、所述第一坐标相对于所属区域的标准线的距离、所属通道的编号。进一步地,确定所述每个反应单元的第一坐标和第二坐标之间的对应关系,具体包括:获取第一坐标和第二坐标之间的行偏移量及列偏移量;根据所述行偏移量及列偏移量,获取所述每个反应单元的第一坐标和第二坐标的对应关系。进一步地,在根据测序仪的采样规律,建立测序芯片中各反应单元与原始数据文件中所述各反应单元的输出数据的存储位置的一一映射关系之前,还包括:按照预设的采样原则,采集测序芯片中各反应单元的输出数据,并将所述采集的数据存储至原始数据文件;其中,所述采集的数据的个数大于所述反应单元输出数据的个数;所述原始数据文件包括至少一个标准线,所述原始数据文件被所述标准线划分为若干个存储区域,且每个存储区域包括若干个用于采集数据的通道。附图说明图1是根据本专利技术第一实施方式的数据处理方法的流程图;图2是根据本专利技术第二实施方式的数据处理方法的流程图;图3是根据本专利技术第二实施方式的原始数据采样区域的示意图;图4是根据本专利技术第二实施方式的芯片中各采集单元的区域分布示意图;图5是根据本专利技术第三实施方式的数据处理装置的结构示意图;图6是根据本专利技术第四实施方式的数据处理装置的结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本专利技术各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。本专利技术的第一实施方式涉及一种数据处理方法。具体流程如图1所示。步骤101:根据测序仪的采样规律,建立芯片中各反应单元与原始数据文件中各反应单元的输出数据的存储位置的一一映射关系。测序仪采集的是芯片中各反应单元(也称反应腔或井等)的输出数据。但由于测序仪采集的数据的个数大于实际芯片中各反应单元输出的数据的个数,因此,其采集的原始数据文件中不仅包括各反应单元的输出数据,也包括冗余数据。假设芯片中实际包含的反应单元的个数为N*P,测序仪采集的原始数据文件中原始数据的个数为M*M,为不失一般性,不妨设(M/2)<P<=N<=M,其中N、P为自然数(一般假设为偶数),M=2^(m)为自然数(一般认为m>=10)。也就是说,冗余数据的个数为M*M-N*P。这些冗余数据并不是真实的反应单元输出的数据,一般会用一个可识别的符号进行标记,比如用0或Null表示。本步骤中建立的即是芯片中的每个反应单元与该反应单元的输出数据在原始数据文件中的存储位置之间的对应关系。步骤102:根据该一一映射关系,从原始数据文件中提取出任一反应单元的输出数据。本步骤中,需要对芯片中某一反应单元进行研究时,就可根据该映射关系,从测序仪采集的原始数据文件中提取出该反应单元的输出数据。本实施方式,通过建立测序芯片中各反应单元与原始数据文件中各反应单元的输出数据的存储位置的一一映射关系,使得可根据该一一映射关系,准确地从测序仪采集的原始数据中挑选出芯片中任一反应单元的输出数据,大大节省了查找反应单元的输出数据的时间。本专利技术的第二实施方式涉及一种数据处理方法。第二实施方式是在第一实施方式的基础上做的进一步改进,主要改进之处在于:第二实施方式进一步限定了建立测序芯片中的每个反应单元与该反应单元的输出数据在原始数据文件中的存储位置之间的对应关系的方法。第二实施方式的具体流程如图2所示。步骤201:按照预设的采样原则,采集测序芯片中各反应单元的输出数据,并将采集的数据存储至原始数据文件。一般来说,原始数据文件包括至少一个标准线,原始数据文件被该标准线划分为若干个存储区域,且每个存储区域包括若干个用于采集数据的通道。假设芯片中实际包含的反应单元的个数为N*P,测序仪采集的原始数据文件中原始数据的个数为M*M,为不失一般性,不妨设(M/2)<P<=N<=M,其中N、P为自然数(一般假设为偶数),M=2^(m)为自然数(一般认为m>=10)。测序仪在进行数据采样过程中,一般可采用多通道同时采样的方式来进行。多通道采样数据时,各通道所采样出的数据存储在所生成原始数据文件中的位置也可由设计测序仪的公司(厂家或个人)来人为指定。本实施方式以通道个数(一般来偶数)为16为例进行说明。当通道个数为16时,通道的编号范围为[0,15],图3示出了原始数据采样区域的示意图(本实施方式中的M8=M/8),图4示出了芯片中各采集单元的区域分布示本文档来自技高网...
一种数据处理方法及数据处理装置

【技术保护点】
一种数据处理方法,其特征在于,包括:根据测序仪的采样规律,建立测序芯片中各反应单元与原始数据文件中所述各反应单元的输出数据的存储位置的一一映射关系;根据所述一一映射关系,从所述原始数据文件中提取出任一反应单元的输出数据。

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:根据测序仪的采样规律,建立测序芯片中各反应单元与原始数据文件中所述各反应单元的输出数据的存储位置的一一映射关系;根据所述一一映射关系,从所述原始数据文件中提取出任一反应单元的输出数据。2.根据权利要求1所述的数据处理方法,其特征在于,所述建立测试芯片中各反应单元与原始数据文件中所述各反应单元的输出数据的存储位置的一一映射关系,具体包括:获取每个反应单元的输出数据在所述原始数据文件的存储位置坐标作为第一坐标,并获取每个反应单元在测序芯片中的位置坐标作为第二坐标;确定所述每个反应单元的第一坐标和第二坐标之间的对应关系;根据任一反应单元的第一坐标在所述原始数据文件中的位置关系,确定所述任一反应单元的第一坐标在所述原始数据文件中的位置索引;根据所述位置索引以及所述第一坐标和第二坐标的对应关系,确定任一反应单元的第二坐标在所述原始数据文件中的位置索引。3.根据权利要求2所述的数据处理方法,其特征在于,所述位置关系包括:所述第一坐标在所述原始数据文件中所属的区域、所述第一坐标相对于所属区域的标准线的距离、所属通道的编号。4.根据权利要求2所述的数据处理方法,其特征在于,确定所述每个反应单元的第一坐标和第二坐标之间的对应关系,具体包括:获取第一坐标和第二坐标之间的行偏移量及列偏移量;根据所述行偏移量及列偏移量,获取所述每个反应单元的第一坐标和第二坐标的对应关系。5.根据权利要求1所述的数据处理方法,其特征在于,在根据测序仪的采样规律,建立测序芯片中各反应单元与原始数据文件中所述各反应单元的输出数据的存储位置的一一映射关系之前,还包括:按照预设的采样原则,采集测序芯片中各反应单元的输出数据,并将所述采集的数据存储至原始数据文件;其中,所述采集的数据的个数大于所述反应单元输出数据的个数;所述原始数据文件包括至少一个标准线,所述原始数据文件被所述标准线划分为若干个存储区域,且每个存储区域包括若干个用于采集数据的通道。6.一种数据处理装置,其特征在于,包括:建立模块及提取模块;所述建立模块用于根据测序仪的...

【专利技术属性】
技术研发人员:张亮曹贵强和佳栋江平
申请(专利权)人:上海小海龟科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1