当前位置: 首页 > 专利查询>吉林大学专利>正文

一种构建slurm调度并行计算集群的方法技术

技术编号:34136587 阅读:12 留言:0更新日期:2022-07-14 16:46
本发明专利技术涉及一种构建slurm调度并行计算集群的方法。计算集群的构建方法如下:步骤一:硬件准备;需要两台或者两台以上的计算设备,上限取决于交换机端口数,需要给每台机器安装完毕系统,正确连接交换机;步骤二:开机后,按照实际要求,修改hostname并设定实际的IP址并记录网络信息;步骤三:选取其中一个为master主机,master节点两网卡,其中一个接入集群专属交换机,另外一个负载用户登录;步骤四:组网成功即并行计算集群组建成功,无需任何Linux操作技能。只需录入一次机器网络地址。依照操作手册。运行hpc4youtoolkit各模块。复制粘贴屏幕提示指令即可完成科学计算集群组建。集群模式,可以有效提高现有硬件资源的利用效率。降低硬件成本。简化科学计算实施流程。低硬件成本。简化科学计算实施流程。低硬件成本。简化科学计算实施流程。

A method of building slurm Scheduling Parallel Computing Cluster

【技术实现步骤摘要】
一种构建slurm调度并行计算集群的方法


[0001]本专利技术涉及一种科学计算领域高性能并行计算集群。具体是一种构建slurm调度并行计算集群的方法。

技术介绍

[0002]高性能计算(High Performance Computing。HPC)是改造世界的第三大科学研究方法。是大规模科学计算和工程计算的必备基础设施。是科技创新的重要手段。在信息服务、工业仿真、科学研究、生物信息、基因测序、石油勘探、航天航空等众多领域发挥着不可替代的作用。是研究和解决各领域挑战性问题的重要手段。已上升为国家战略。是国家综合国力和科技创新力的重要标志。也是世界大国投入巨资争夺科学技术制高点的领域之一。截止2021年底,科技部批准建立的国家超级计算中心共有9家,分别是国家超级计算天津中心、国家超级计算广州中心、国家超级计算深圳中心、国家超级计算长沙中心、国家超级计算济南中心、国家超级计算无锡中心、国家超级计算郑州中心、国家超级计算昆山中心、国家超级计算成都中心。
[0003]在国家级超算中心稳步发展的同时,随着硬件成本的进一步下探和通用计算机设备运算能力进一步提升,考虑到不同研究领域计算场景的特殊性,越来越多的研究所、高校科研团队、课题组,开始自购或者自建小规模并行计算集群,以满足研究之需。
[0004]当前,很多高性能计算集群都采用Linux操作系统。其运维工作比较繁琐,尤其对刚入门者非常困难。自己搭建计算集群,至少涉及到如下层面:仅root用户密钥鉴权认证,至少在master机器需要编辑openssh配置文件5次,而后在任何一台计算节点,修改密钥和配置文件一次,并回传各计算节点公钥到master机器并完成合并。指令版vi编辑器都不会用的微软用户,是难以完成指令模式下Linux系统配置文件修改的。更别说在Linux机器下载登录所有计算节点,完成其他Linux机器的修改配置,并把配置文件,从master机器在指令模式分发到其他Linux机器。况且openssh属于系统核心配置文件,修改错误,意味着无法登录计算服务器,新手可能选择再次重新安装系统,浪费时间,也有极大可能刷掉重要数据。配置用户信息鉴权系统,NIS,又涉及域名、可信域等信息系统概念,更涉及到另一套密钥对的配置和分发。当然还有更麻烦的,DHCP服务器以及客户端,涉及TCP/IP网络知识和实际操作技能,子网掩码计算、网关设定;亦需要针对每一个计算节点做合理的配置,使得DHCP客户端可以顺利工作;文件服务器以及网络共享系统配置及其优化;slurm所依赖的munge鉴权系统调优设定,涉及随机数以及另外一种密钥对设定和后续的密钥分发;Linux工作站文件权限、用户群组管理,需Linux系统员操作技能;多Linux机器远程指令操控等等Linux平台运维技能。
[0005]对于绝大多数科技工作者,电脑技能仅仅局限于熟悉Word、PowerPoint、Excel、PhotoShop等办公套件,Linux图形桌面都不会用,更何谈在Linux平台完成如上各种复杂的运维操作呢?
[0006]现有商业解决方案,价格昂贵,高校科研课题组无法承担。开源免费方案比如
OpenHPC,Rocks Cluster,或者IBM的xCat方案,使用手册由计算机专业人士编撰。由于手册过于专业,没有一定的Linux运维经验和计算机知识,这种手册使用起来如同天书。

技术实现思路

[0007]针对上述现有技术存在的问题。本专利技术提供一种构建slurm调度并行计算集群的方法。可以只需按顺序执行各模块即可组建并行计算集群。组建得到的并行计算集群,免维护、免管理,可以最大限度解决一线科技人员在自建高性能并行计算集群方面的实际痛点。Slurm是开源免费的智能资源调度管理系统,支持CPU核心数、内存容量、GPU、各种加速卡的调度管理,完全满足科学计算领域各种计算场景的资源调度和管控。
[0008]为了实现上述目的。本专利技术通过以下技术方案实现:一种构建slurm调度并行计算集群的方法。计算集群的构建方法如下:
[0009]步骤一:硬件准备;需要两台或者两台以上的计算设备,上限取决于交换机端口数。需要给每台机器安装完毕系统,正确连接交换机;
[0010]步骤二:开机后,按照实际要求,修改hostname并设定实际的IP址并记录网络信息;
[0011]步骤三:选取其中一个为master主机。登录节点master节点,其中一个接入集群专属交换机,另外一个负载用户登录;
[0012]步骤四:组网成功即并行计算集群组建成功。
[0013]所述的步骤三标注为master的主机至少具备两个网卡。
[0014]所述的步骤三标注为master的主机可以访问互联网。
[0015]借由上述方案。本专利技术至少具有以下优点:每个计算节点是通过slurm将获取到的待计算任务/需求自动分发到各计算节点内的硬件资源上,并根据任务需求,自动建立资源限定围墙,做到资源专属使用,提高现有硬件运行效率,可以只需按顺序执行各模块即可组建并行计算集群,组建得到的并行计算集群,免维护、免管理,可以最大限度解决一线科技人员在自建高性能并行计算集群方面的实际痛点,Slurm是开源免费的智能资源调度管理系统,支持CPU核心数、内存容量、GPU、各种加速卡的调度管理,完全满足科学计算领域各种计算场景的资源调度和管控。
附图说明
[0016]图1是一种构建slurm调度并行计算集群的方法的结构示意图;
具体实施方式
[0017]下面结合附图对本专利技术做进一步说明。
[0018]如图1所示。本一种构建slurm调度并行计算集群的方法。计算集群的构建方法如下:
[0019]步骤一:硬件准备;需要两台或者两台以上的计算设备,上限取决于交换机端口数。需要给每台机器安装完毕系统,正确连接交换机;
[0020]需要说明的是:
[0021]本专利技术通过以下四个核心模块实现化繁为简、傻瓜式集群搭建。
[0022][0023]以上四个核心模块,均已取得版权局软件著作权登记证明。以上核心模块运行,均无需用户干预。
[0024]setup_hpc是整个集群系统正常运转的核心枢纽,承担用户鉴权认证、指令同步、各种配置下发生效,摒弃古老而复杂的Linux系统网络信息系统(NIS)。setup_hpc基于openSSH密钥做鉴权,基于scp+rsync下发配置并同步指令,快速高效且安全有保障。
[0025]os_setup_all.sh,为科学计算方向专属打造的Linux系统调优设定。
[0026]prepare.sh和slurm_all.sh模块相互依赖,自动从网络获取slurm源码并自动构建适用于科学计算平台的调度器二进制文件和相适应的配置设定。
[0027]步骤二:开机后,按照实际要求,修改hostname并设定实际的IP址并记录网络信息;
[0028]需要说明的是:
[0029]依次开启master,nodeX本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种构建slurm调度并行计算集群的方法,其特征在于,计算集群的构建方法如下:步骤一:硬件准备;需要两台或者两台以上的计算设备,上限取决于交换机端口数,需要给每台机器安装完毕系统,正确连接交换机;步骤二:开机后,按照实际要求,修改hostname并设定实际的IP址并记录网络信息;步骤三:选取其中一个为master主机,登录master节点,其中一个接...

【专利技术属性】
技术研发人员:王建
申请(专利权)人:吉林大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1