本发明专利技术提出了一种生物信息学高性能计算平台的测试方法,属于计算机科学和生物信息学的交叉学科。本发明专利技术主要包括如下流程:搭建生物信息学分析的计算平台,平台操作系统安装,平台编译器安装,平台应用软件部署,平台应用软件测试,数据整理;通过本方法所述测试方法,使生物信息学计算平台的测试标准,规范化,为生物信息学计算平台的性能评估提供参考和依据。
【技术实现步骤摘要】
本专利技术涉及属于计算机科学和生物信息学的交叉学科,尤其涉及。
技术介绍
生物信息学是是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学(Genomics)和蛋白质组学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。在基因组学研究方向,测序技术是重要的研究手段,对于测序数据的分析就需要借助高性能计算平台完成,因此高性能计算平台的性能对生物信息学研究进展起着至关重要的作用,如何评测一套生物信息学平台的性能如何,是很多生物信息学专家以及高性能计算专家面临的问题。因为熟悉生物信息学的专家不熟悉具体的计算系统的配置,高性能计算专家对生物信息分析的流程和资源需求也知之甚少,所以发展一套标准化的生物信息学计算平台测试方法十分必要。
技术实现思路
本专利技术针对现有技术的不足之处,提供了。本专利技术所述生物信息学计算平台的性能测试方法,之前没有一种方法对生物信息学计算平台进行标准化的测试和评估;没有设置标准化测试平台,软件和运行算例,以及测试方法;本专利技术针对该现状,整理了一套全面系统的测试方法,涵盖硬件系统的配置,中间件的配置,系统层的性能测试以及应用层的性能测试.本专利技术公开了,其解决所述技术问题采用的技术方案如下:该测试方法依据生物信息学计算的需求,配置适合的硬件环境进行测试,测试中考虑系统性能是否正常,应用软件以及算例的选择是否具有生物信息学软件的代表性,测试用例的压力是否足够大等,并最后给出固定平台下的资源使用情况;先确定适用于生物信息学平台的硬件平台,搭建测试环境,如安装操作系统,系统中部署软件,如intel编译器,mpi等,安装生物信息学软件,选择具有代表性的测试用例;其中,所述确定的硬件平台使用于生物信息学的数据分析,生物信息学的计算需求一般内存容量消耗大,磁盘读写频繁,且存储占用空间大等,依据这一特点我们选用了 128GB的内存容量,多块盘做RAID0,存储空间2TB,以满足运算的需求; 所述搭建测试环境是指,在确定硬件配置后,在其上部署系统环境,安装编译器,并行环境等,并进行系统基础性能测试,分别测试系统的Linpack效率,测试系统的内存带宽,磁盘顺序读写等;并对系统测试的指标进行分析,以确保系统性能正常,以便在稳定正常的系统环境下进行应用性能测试; 所述安装生物信息学软件是指,进行应用测试时,在搭建测试环境后,在系统中部署应用软件,应用软件是生物信息学分析常用软件,且计算需求较高,计算耗时,具有代表性,在本专利技术中我们选用序列比对软件BWA和序列拼接软件VELVET进行测试;对于测试用例的的规模,要能涵盖或是代表大部分用户的生物信息分析的数据规模,我们选用ILLUMIA的测序数据进行分析; 选择具有代表性的测试用例:统计两款软件在计算平台下的运行时间,并监控资源消耗情况,最后整理出完成的测试信息。本专利技术公开的生物信息学高性能计算平台的测试方法的有益效果是:本方法所述测试环境适合生物信息学软件运行,可以为用户提供配置依据;对于测试平台进行基本系统性能测试,确保测试环境正常;测试软件选择是生物信息学中常用且计算相对耗时的两款软件,在不同生物信息学研究中具有通用性;应用软件的测试用例规模足够大,是人类十倍覆盖度的测试数据,数据规模基本能够涵盖目前生物信息学分析大部分计算规模。【附图说明】附图1为本专利技术测试方法的流程图。【具体实施方式】下面通过附图,对本专利技术所述做进一步详细说明,并不造成对本专利技术的限制。本专利技术的目的是设计一种生物信息学计算平台的标准benchmark测试方法和流程,使生物信息学计算平台的测试标准,规范化,为生物信息学计算平台的性能评估提供参考和依据。本专利技术的构思时这样的:先确定适用于生物信息学平台的硬件平台,搭建测试环境,如安装操作系统,系统中部署软件,如intel编译器,mpi等,安装生物信息学软件,选择具有代表性的测试用例;其中, 所述确定的硬件平台使用于生物信息学的数据分析,生物信息学的计算需求一般内存容量消耗大,磁盘读写频繁,且存储占用空间大等,依据这一特点我们选用了 128GB的内存容量,多块盘做RAID0,存储空间2TB,以满足运算的需求; 所述搭建测试环境是指,在确定硬件配置后,在其上部署系统环境,安装编译器,并行环境等,并进行系统基础性能测试,分别测试系统的Linpack效率,测试系统的内存带宽,磁盘顺序读写等;并对系统测试的指标进行分析,以确保系统性能正常,以便在稳定正常的系统环境下进行应用性能测试; 所述安装生物信息学软件是指,进行应用测试时,在搭建测试环境后,在系统中部署应用软件,应用软件是生物信息学分析常用软件,且计算需求较高,计算耗时,具有代表性,在本专利技术中我们选用序列比对软件BWA和序列拼接软件VELVET进行测试;对于测试用例的的规模,要能涵盖或是代表大部分用户的生物信息分析的数据规模,我们选用ILLUMIA的测序数据进行分析; 选择具有代表性的测试用例:统计两款软件在计算平台下的运行时间,并监控资源消耗情况,最后整理出完成的测试信息。为了使本专利技术的目的、技术方案和优势更加清晰,我们给出具体的实施方式: 1)本次测试我们选择一台浪潮NF5280M3双路计算节点,CPU选用INTELXeonE5-2670,配 8GB*16=128GB 内存,8 块 300GB 磁盘做 RAID); 2)平台环境配置:安装RHEL6.3 Linux操作系统,安装incomposer_xe_2013.3.163编译器,intel mpi4.1.0.024,以及配置用户环境; 3)平台系统性能测试:安装HPL,进行系统的Iinpack测试;编译安装stream,进行内存带宽测试,使用DD进行磁盘顺序读写性能测试; 4)系统性能数据分析,比较;系统性能测试值的高低需要参考官方数据,如出现偏低现象要进行调试,确保系统性能正常; 5)应用软件部署,应用软件我们选择生物信息领域中计算量大,且常用的软件,序列比对软件 Burrows-Wheeler Aligner (BffA),序列拼接软件 VELVET, indel, snp 查找软件GATK (the Genome Analysis Tool Kit ;软件编译均使用INTEL编译器完成; 6)应用性能测试,测试用例的选择,BWA和VELVET的测试用例我们从ILLUMIA的下载,该用例是人类基因组的10倍覆盖度的测试数据,下载地址:ftp://ftp.sra.eb1.ac.uk/voIl/fastq/ERR091/ERR091571 分别下载 ERR091571_1.fastq.gz 和 ERR091571_2.fastq.gz; 参考序列使用 GRCh37 (Genome Reference Consortium Human build 37); 测试数据整理,利用系统命令收集软件运行中CPU,磁盘,内存使用情况,记录程序运行的时间。以上所述仅为本专利技术的实施例而已,凡在本专利技术的精神和原则之内,所本文档来自技高网...
【技术保护点】
一种生物信息学高性能计算平台的测试方法, 其特征在于,该测试方法依据生物信息学计算的需求,配置适合的硬件环境进行测试,测试中考虑系统性能是否正常,应用软件以及算例的选择是否具有生物信息学软件的代表性,测试用例的压力是否足够大等,并最后给出固定平台下的资源使用情况;该方法主要包括确定适用于生物信息学平台的硬件平台,搭建测试环境,安装生物信息学软件,选择具有代表性的测试用例。
【技术特征摘要】
1.一种生物信息学高性能计算平台的测试方法,其特征在于,该测试方法依据生物信息学计算的需求,配置适合的硬件环境进行测试,测试中考虑系统性能是否正常,应用软件以及算例的选择是否具有生物信息学软件的代表性,测试用例的压力是否足够大等,并最后给出固定平台下的资源使用情况; 该方法主要包括确定适用于生物信息学平台的硬件平台,搭建测试环境,安装生物信息学软件,选择具有代表性的测试用例。2.根据权利要求1所述的生物信息学高性能计算平台的测试方法,其特征在于, 所述硬件平台使用于生物信息学的数据分析,选用了 128GB的内存容量,多块盘做RAIDO,存...
【专利技术属性】
技术研发人员:金莲,
申请(专利权)人:浪潮电子信息产业股份有限公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。