基于共享内存的基因分析方法、装置和计算机设备制造方法及图纸

技术编号:27142455 阅读:37 留言:0更新日期:2021-01-27 21:24
本发明专利技术提供了一种基于共享内存的基因分析方法、装置和计算机设备,其方法包括读取样本数据,对样本数据进行预处理;对预处理后的样本数据进行基因分析,在基因分析过程中如果所需的库文件在基因共享内存中,从基因共享内存获取库文件,并将库文件映射到样本数据的基因分析进程中并完成相应的分析。该方法利用共享内存机制建立基因分析的索引,将基因分析过程中使用频率较高的数据库文件(即库文件)存否在基因共享内存中;如果是从共享内存获取库文件,将库文件映射到样本数储于基因共享内存中,可以方便地将库文件从基因共享内存中映射到样本数据的分析进程中,一方面减少了从磁盘加载库文件的时间以及I/O占比,提高了分析效率。率。率。

【技术实现步骤摘要】
基于共享内存的基因分析方法、装置和计算机设备


[0001]本专利技术涉及数据处理
,具体涉及一种基于共享内存的基因分析方法、装置、计算机设备和计算机可读存储介质。

技术介绍

[0002]随着人类基因组计划的顺利实施和测序技术的快速发展,测序的成本显著降低,而测序速度得到了显著提高,人类全基因组测序的测序成本已经降至$1000以内,DNA序列的数据量呈指数增长。如何快速的利用、表达这些数据,进而分析与解释基因序列里的潜在问题,从海量数据里发掘出对人类有利的信息,成为一个迫切需要解决的问题。应用越来越广泛的人类全基因组测序(WGS)产生的序列数据、以及对海量序列数据进行快速分析处理的持续需求,使数据分析形成了一个新的技术瓶颈,对二代测序技术的临床应用成为制约。
[0003]目前在国际上生物信息学领域中对于二代测序数据分析方法和工具种类分繁多。最常用的流程主要包括数据输入、预处理、序列对比、注释、变异检测以及通路分析,然而,将整个流程应用于人类全基因组测序WGS中是非常耗时的。另外,输入样本需要合并,拆分等定制化流程,需要单独处理,运行效率慢,且增加I/O消耗,并且在数据分析过程中,每一步分析处理要单独加载索引文件,若多个任务加载相同的索引文件,对内存消耗较高,也更耗时。

技术实现思路

[0004]有鉴于此,本专利技术提供了一种基于共享内存的基因分析方法、装置、计算机设备和计算机可读存储介质以解决现有技术中数据分析中输入样本需合并等流程,运行效率低,数据分析过程需重复加载索引文件,内存消耗高且耗时的技术问题。
[0005]本专利技术实施例中提供了一种基于共享内存的基因分析方法,包括以下步骤:
[0006]读取样本数据,对所述样本数据进行预处理;
[0007]对预处理后的样本数据进行基因分析,在基因分析过程中确定所需的库文件是否在基因分析库文件的基因共享内存中;
[0008]如果是,从所述基因共享内存获取所述库文件,并将所述库文件映射到所述样本数据的基因分析进程中并完成相应的分析。
[0009]可选地,
[0010]还包括:在基因分析过程中所需的库文件不在所述基因共享内存中,判断所需的库文件是否满足加载条件;在满足加载条件时将所述库文件加载至所述基因共享内存。
[0011]可选地,
[0012]在基因分析过程中判断所需的库文件不在所述基因共享内存中,判断所需的库文件是否满足加载条件是否满足加载条件;在满足加载条件时,将所述库文件加载至所述基因共享内存的步骤中,包括:
[0013]获取所需的库文件信息和所述基因共享内存信息,其中所述所需的库文件信息包
括库文件所需空间和历史请求加载次数;所述基因共享内存信息包括基因共享内存剩余空间;
[0014]当所述历史请求加载次数大于第一预设次数,且所述库文件所需空间小于所述基因共享内存剩余空间,则将所需的库文件加载至所述基因共享内存。
[0015]可选地,
[0016]所述所需的库文件信息还包括库文件请求加载频率;所述基因共享内存信息还包括所有的库文件请求加载频率;判断所需的库文件是否满足加载条件,在满足加载条件时,将所述库文件加载至所述基因共享内存的步骤中,还包括:
[0017]当所述历史请求加载次数大于第一预设次数,且所述库文件所需空间大于所述基因共享内存剩余空间时,根据库文件请求加载频率和所有的库文件请求加载频率将所需的库文件和所有的库文件按照优先级进行排列,得到每个库文件的加载频率优先级;
[0018]当所需的库文件的加载频率优先级高于基因共享内存中的库文件的加载频率优先级时,且若删除基因共享内存中加载频率优先级低的库文件后所述基因共享内存剩余空间大于或等于所述库文件所需空间,则删除基因共享内存中加载频率优先级低的库文件;
[0019]将所需的库文件加载至所述基因共享内存。
[0020]可选地,
[0021]还包括:设置基因分析库文件的基因共享内存,设置所述基因共享内存的大小以及所能容纳的库文件个数、每个库文件的名字以及库文件的大小偏移量;
[0022]根据所述基因共享内存的大小以及所能容纳的库文件个数、每个库文件的名字以及库文件的大小偏移量加载基因分析中常用的库文件至所述基因共享内存。
[0023]可选地,
[0024]所述基因分析包括比对分析、变异分析和注释分析;还包括:
[0025]对预处理后的样本数据依次进行比对分析、变异分析和注释分析;当样本数据为多组时,在同一时刻每一组样本数据处于相同或不同的基因分析步骤。
[0026]可选地,
[0027]所述基因分析还包括排序分析和去重分析,对预处理后的样本数据依次进行比对分析、变异分析和注释分析的步骤之后,还包括:
[0028]将对比分析后的所述样本数据采用位置标签进行标记;并对标记后的样本数据按模块进行排序分析和去重分析。
[0029]可选地,
[0030]还包括:将所述基因分析的部分或整个步骤采用内存衔接。
[0031]可选地,
[0032]对所述样本数据进行预处理的步骤中,包括:
[0033]对所述样本数据进行质控、过滤和统计处理。
[0034]本专利技术实施例还提供了一种基于基因共享内存的基因分析装置,包括:
[0035]数据读取模块,用于读取样本数据;
[0036]数据预处理模块,用于对所述样本数据进行预处理;
[0037]基因分析模块,用于对预处理后的样本数据进行基因分析,在基因分析过程中确定所需的库文件是否在基因共享内存中;如果是,从所述基因共享内存获取所述库文件,并
将所述库文件映射到所述样本数据的基因分析进程中并完成相应的分析。
[0038]本专利技术实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行以下步骤:
[0039]读取样本数据,对所述样本数据进行预处理;
[0040]对预处理后的样本数据进行基因分析,在基因分析过程中确定所需的库文件是否在基因共享内存中;
[0041]如果是,从所述基因共享内存获取所述库文件,并将所述库文件映射到所述样本数据的基因分析进程中并完成相应的分析。
[0042]本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以下步骤:
[0043]读取样本数据,对所述样本数据进行预处理;
[0044]对预处理后的样本数据进行基因分析,在基因分析过程中确定所需的库文件是否在基因共享内存中;
[0045]如果是,从所述基因共享内存获取所述库文件,并将所述库文件映射到所述样本数据的基因分析进程中并完成相应的分析。
[0046]本专利技术实施例中的一种基于共享内存的基因分析方法、装置、计算机设备和计算机可读存储介质,首先读取样本数据,对样本数据进行预处理,然后对处理后的样本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于共享内存的基因分析方法,其特征在于,包括以下步骤:读取样本数据,对所述样本数据进行预处理;对预处理后的样本数据进行基因分析,在基因分析过程中确定所需的库文件是否在基因共享内存中;如果是,从所述基因共享内存获取所述库文件,并将所述库文件映射到所述样本数据的基因分析进程中并完成相应的分析。2.根据权利要求1所述的基于共享内存的基因分析方法,其特征在于,还包括:在基因分析过程中所需的库文件不在所述基因共享内存中,判断所需的库文件是否满足加载条件;在满足加载条件时将所述库文件加载至所述基因共享内存。3.根据权利要求2所述的基于共享内存的基因分析方法,其特征在于,在基因分析过程中判断所需的库文件不在所述基因共享内存中,判断所需的库文件是否满足加载条件;在满足加载条件时,将所述库文件加载至所述基因共享内存的步骤中,包括:获取所需的库文件信息和所述基因共享内存信息,其中所述所需的库文件信息包括库文件所需空间和历史请求加载次数;所述基因共享内存信息包括基因共享内存剩余空间;当所述历史请求加载次数大于第一预设次数,且所述库文件所需空间小于所述基因共享内存剩余空间,则将所需的库文件加载至所述基因共享内存。4.根据权利要求3所述的基于共享内存的基因分析方法,其特征在于,所述所需的库文件信息还包括库文件请求加载频率;所述基因共享内存信息还包括所有的库文件请求加载频率;判断所需的库文件是否满足加载条件,在满足加载条件时,将所述库文件加载至所述基因共享内存的步骤中,还包括:当所述历史请求加载次数大于第一预设次数,且所述库文件所需空间大于所述基因共享内存剩余空间时,根据所述库文件请求加载频率和所有的库文件请求加载频率将所需的库文件和所有的库文件按照优先级进行排列,得到每个库文件的加载频率优先级;当所需的库文件的加载频率优先级高于基因共享内存中的库文件的加载频率优先级时,且若删除基因共享内存中加载频率优先级低的库文件后所述基因共享内存剩余空间大于或等于所述库文件所需空间,则删除基因共享内存中加载频率优先级低的库文件;将所需的库文件加载至所述基因共享内存。5.根据权利要求1-4任一...

【专利技术属性】
技术研发人员:杨娇博宋超于闯张优劲贺增泉王今安
申请(专利权)人:深圳华大基因科技服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利