面向高性能计算的大规模运行环境快速启动方法及系统技术方案

技术编号:30762242 阅读:14 留言:0更新日期:2021-11-10 12:16
本发明专利技术公开一种面向高性能计算的大规模运行环境快速启动方法及系统,该方法步骤包括:S1.在高性能计算系统的登录结点上为每个用户预置层次化文件系统;S2.接收到用户发出的作业运行请求时,对当前作业进行依赖分析并进行运行环境分割,将层次化文件系统的上层文件系统中当前作业及当前作业所需要的依赖项作为第一部分传输内容、上层文件系统中其余文件作为第二部分传输内容;S3.服务进程进行传输时,分步传输第一部分传输内容、第二部分传输内容,其中优先传输所述第一部分传输内容,在第一部分传输内容完成时启动用户作业。本发明专利技术能够适用于大规模运行环境,具有实现方法简单、传输效率高以及用户作业启动速度快等优点。点。点。

【技术实现步骤摘要】
面向高性能计算的大规模运行环境快速启动方法及系统


[0001]本专利技术涉及高性能计算
,尤其涉及一种面向高性能计算的大规模运行环境快速启动方法及系统。

技术介绍

[0002]当前的高性能计算机系统将物理结点划分为登录结点和计算结点,用户在登录结点发出作业请求后,高性能计算系统通过作业管理系统来分配计算结点以响应这些请求,完成相应的任务,这个作业请求发出之前,需要提前完成作业以及作业的运行环境在计算结点上的部署。上述部署过程通常耗费大量的时间,尤其随着规模的增大,运行环境的启动耗时将会越来越长。在上述部署过程中,当前运行环境的部署与启动主要存在以下几种模式:
[0003]1、基于全局共享文件系统的运行环境
[0004]在高性能计算系统中,存在全局共享文件系统(如图1所示)。全局共享文件系统是一个高速存储服务器。所有的登录结点和计算结点都可以直接访问这个全局共享文件系统。依赖于全局共享文件系统,用户可以方便的在登录结点上进行作业的开发和环境的配置,然后需要将作业及其运行环境部署到计算结点上。登录结点上的用户只需要将作业开发及其环境配置全部在全局共享文件系统中进行即可,然后计算结点上将能够直接访问这个全局共享文件系统,使作业得以正常运行。也就是说,这种模式是通过全局共享文件系统进行了运行环境的部署,使得避免用户将运行环境手动同步到计算结点上的麻烦。
[0005]但是该类基于全局共享文件系统的运行环境主要会存在以下缺点:
[0006](1)多个用户在全局共享文件系统中进行作业开发和环境配置,那么每个用户的文件对于其他用户都是可见的,也就是说,该模式完全无法保护用户的隐私。
[0007](2)多个用户在全局共享文件系统中进行作业的开发和环境的配置,由于不同用户的需求差异,很容易导致运行环境的配置冲突,使得部分用户的作业无法正常运行。
[0008]基于以上的两个缺点,该模式在实际的使用场景中并不被推荐。
[0009]2、基于容器技术的运行环境
[0010]用户的作业使用的库和依赖项可能很复杂,为了使得作业运行环境的部署更加方便,容器技术被应用到高性能计算系统中。例如Shifter和Singularity就是专门为高性能计算设计的容器,它们是通过利用容器image来实现更为迅速的作业打包、移植和部署,用户在登录结点上进行自己的作业开发以及环境配置,然后将这些打包到容器image中,然后将容器image传输到计算结点上,最后用户发出作业运行请求之后,相应的计算结点上将根据容器image来启动相应的容器,用户的作业即是在这个容器环境中运行。相比较于基于全局共享文件系统的运行环境模式,基于容器技术的运行环境部署与启动模式能够在一定程度上保护用户的隐私。
[0011]但是基于容器技术的运行环境部署与启动模式仍然会存在以下缺点:
[0012](1)容器image只能通过用户手动维护,作业正常运行所需要的环境需要打包到容
器image中,但是在高性能计算系统这种高度定制的软硬件环境中,用户很难完全自己维护。
[0013](2)容器image中通常包含大量无效文件,也就是用户作业以及实际运行时所需要的依赖项在容器image中所占的比例较小,将容器image传输到计算结点上需要耗费大量的时间,因而容器image的传输时间成为了运行环境快速启动的瓶颈。而将容器image手动地从一个登录结点直接传输到大量计算结点上,显然是效率最低的方式。
[0014]在上述基于容器技术的运行环境部署方式的基础上,为了使容器image更快的分发到相应的计算结点上,更快的启动作业的运行环境,现有技术中主要采用以下有两种方式:
[0015](一)基于共享文件系统的容器image拉取
[0016]用户在登录结点上将作业及其依赖项打包成容器image后,将这个容器image拷贝至全局共享文件系统,然后在每个计算结点上需要启动容器运行环境时,将容器image从全局共享文件系统拉取至本地。
[0017]但是该模式也存在明显的缺点:全局共享文件系统是一个远程存储服务器,在大规模的计算结点同时进行访问时,尤其是访问容器image这样的大文件,很容易达到服务能力瓶颈,因而由于存在远程存储服务器的带宽等限制条件,该模式将很难实现大规模场景下容器image的快速拉取。
[0018](二)基于P2P文件传输的容器image分发
[0019]用户在登录结点上将作业及其依赖项打包成容器image后,将这个容器image通过P2P传输的方式分发给使用的计算结点。典型的P2P树型传输的基本模式为:登录结点将容器image分发给第一层结点,然后结点在收到容器image后,将这个容器image分发给下一层。在使用的计算结点规模庞大时,该类基于P2P文件传输的容器image分发模式将比基于共享文件系统的容器image拉取模式更加高效。但是该模式也存在明显的缺点:在作业使用的计算结点的规模较大时,这种模式并不高效,尤其是使用的计算结点的数量越大,该问题将会越专利技术显,即计算结点的数量越大效率会越低。

技术实现思路

[0020]本专利技术要解决的技术问题就在于:针对现有技术存在的技术问题,本专利技术提供一种实现方法简单、传输效率高以及用户作业启动速度快的面向高性能计算的大规模运行环境快速启动方法及系统。
[0021]为解决上述技术问题,本专利技术提出的技术方案为:
[0022]一种面向高性能计算的大规模运行环境快速启动方法,步骤包括:
[0023]S1.在高性能计算系统的登录结点上为每个用户预置层次化文件系统,所述层次化文件系统中将系统标准环境作为底层、用于存储用户所做文件修改的用户空目录作为上层;
[0024]S2.接收到用户发出的作业运行请求时,对当前作业进行依赖分析并根据依赖分析结果进行运行环境分割,将所述层次化文件系统的上层文件系统中当前作业及当前作业所需要的依赖项作为第一部分传输内容、所述上层文件系统中其余文件作为第二部分传输内容;
[0025]S3.服务进程进行传输时,分步传输所述第一部分传输内容、所述第二部分传输内容,其中优先传输所述第一部分传输内容,在第一部分传输内容完成时启动用户作业。
[0026]进一步的,所述层次化文件系统中底层配置为被用户共享,用户作业的开发、运行环境的配置以及用户所做的文件修改发生在所述层次化文件系统中上层。
[0027]进一步的,所述步骤S1后、步骤S2前,当用户登陆到登陆节点上时,还包括将用户视角下的根目录重定向到所述层次化文件系统的整合目录。
[0028]进一步的,所述步骤S3的步骤包括:
[0029]S301.服务进程开始进行传输时,传输所述第一部分传输内容;
[0030]S302.当所述第一部分传输内容传输完成,启动运行环境以及用户作业同时传输第二部分。
[0031]进一步的,所述步骤S302的步骤包括:
[0032]S311.服务进程接收到所述第本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向高性能计算的大规模运行环境快速启动方法,其特征在于,步骤包括:S1.在高性能计算系统的登录结点上为每个用户预置层次化文件系统,所述层次化文件系统中将系统标准环境作为底层、用于存储用户所做文件修改的用户空目录作为上层;S2.接收到用户发出的作业运行请求时,对当前作业进行依赖分析并根据依赖分析结果进行运行环境分割,将所述层次化文件系统的上层文件系统中当前作业及当前作业所需要的依赖项作为第一部分传输内容、所述上层文件系统中其余文件作为第二部分传输内容;S3.服务进程进行传输时,分步传输所述第一部分传输内容、所述第二部分传输内容,其中优先传输所述第一部分传输内容,在所述第一部分传输内容完成时启动用户作业。2.根据权利要求1所述的面向高性能计算的大规模运行环境快速启动方法,其特征在于:所述层次化文件系统中底层配置为被用户共享,用户作业的开发、运行环境的配置以及用户所做的文件修改发生在所述层次化文件系统中上层。3.根据权利要求1所述的面向高性能计算的大规模运行环境快速启动方法,其特征在于,所述步骤S1后、步骤S2前,当用户登陆到登陆节点上时,还包括将用户视角下的根目录重定向到所述层次化文件系统的整合目录。4.根据权利要求1所述的面向高性能计算的大规模运行环境快速启动方法,其特征在于,所述步骤S3的步骤包括:S301.服务进程开始进行传输时,传输所述第一部分传输内容;S302.当所述第一部分传输内容传输完成,启动运行环境以及用户作业同时传输第二部分。5.根据权利要求4所述的面向高性能计算的大规模运行环境快速启动方法,其特征在于,所述步骤S302的步骤包括:S311.服务进程接收到所述第一部分传输内容传输完成的信号时,在对应计算结点上启动对应运行环境并开始执行作业;S312.服务进程开始传输所述第二部分传输内容,当所述第二部分传输内容传输完成或者作业运行完成,结束传输并...

【专利技术属性】
技术研发人员:卢凯张文喆王睿伯迟万庆董勇张伟邬会军吴振伟谢旻周恩强李佳鑫邵明天
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1