一种维护SlurmHA状态数据文件的方法、系统及终端技术方案

技术编号:34330897 阅读:16 留言:0更新日期:2022-07-31 02:03
本申请公开了一种维护Slurm HA状态数据文件的方法、系统及终端,该方法首先在Slurm调度系统中部署Slurm HA服务;在Slurm主管理节点和备管理节点之间建立SSH免密通信;通过在主管理节点部署lsyncd服务,将主管理节点状态数据实时同步至备管理节点。该系统包括:部署模块、SSH免密模块和同步模块。该终端包括处理器以及存储器。通过本申请,只需要在主管理节点占用较少的资源即可实现,能够大大节省资源,有利于资源的节约和充分利用,还有利于提高slurm调度状态数据的可靠性。高slurm调度状态数据的可靠性。高slurm调度状态数据的可靠性。

A method, system and terminal for maintaining slurmha status data file

【技术实现步骤摘要】
一种维护Slurm HA状态数据文件的方法、系统及终端


[0001]本申请涉及Linux集群管理
,特别是涉及一种维护Slurm HA状态数据文件的方法、系统及终端。

技术介绍

[0002]Slurm是一个开源、容错、高度可扩展的集群管理和作业调度系统,适用于大型和小型Linux集群。通常情况下,Slurm有一个集中式管理器slurmctld,用于监视资源和工作,以及一个备份管理器,用于在集中式管理器发生故障时承担监视资源和工作的任务。也就是Slurm调度系统可以部署HA方案,用于调度系统的冗灾,实现作业调度的高可用。当一台管理slurm管理节点故障时,备用的slurm管理节点可接管服务,继续保证调度系统的运行。因此,当集中式管理器slurmctld故障时,如何进行Slurm HA故障切换,维护slurm调度的状态数据,是个重要的技术问题。
[0003]目前,当集中式管理器slurmctld故障时,维护slurm调度的状态数据的方法,通常是:搭建一个共享存储或者设置一个共享目录,将slurm调度的状态数据存放在共享存储或者共享目录下。让Slurm HA(High Availability,高可用)的集中式管理器以及备份管理器可以同时访问该文件目录或者共享存储。
[0004]然而,目前维护slurm调度状态数据的方法中,由于需要搭建另外的共享存储或者设置另外的共享目录,需要占用额外的硬件设备或者存储空间,资源占用较多,不利于资源节约和充分利用。

技术实现思路

[0005]本申请提供了一种维护Slurm HA状态数据文件的方法、系统及终端,以解决现有技术中的维护slurm调度状态数据的方法需要占用单独的资源,不利于节约资源的问题。
[0006]为了解决上述技术问题,本申请实施例公开了如下技术方案:
[0007]一种维护Slurm HA状态数据文件的方法,所述方法应用于Slurm主管理节点故障的场景,所述方法包括:
[0008]在Slurm调度系统中部署Slurm HA服务;
[0009]在Slurm主管理节点和备管理节点之间建立SSH(Secure Shell,安全外壳协议)免密通信;
[0010]通过在主管理节点部署lsyncd服务,将主管理节点状态数据实时同步至备管理节点。
[0011]可选地,所述通过在主管理节点部署lsyncd服务,将主管理节点状态数据实时同步至备管理节点,包括:
[0012]在主管理节点部署lsyncd服务;
[0013]在配置文件中将主管理节点的IP地址、状态数据目录作为源,将备管理节点的IP地址、状态数据目录作为备;
[0014]根据配置文件运行lsyncd服务,并检查对lsyncd服务是否正常运行;
[0015]如果否,重新修改配置文件,直到lsyncd服务正常运行。
[0016]可选地,通过在主管理节点部署lsyncd服务,将主管理节点状态数据实时同步至备管理节点之后,所述方法还包括:
[0017]通过模拟主管理节点故障,对所部署的Slurm HA服务进行校验。
[0018]可选地,通过在主管理节点部署lsyncd服务,将主管理节点状态数据实时同步至备管理节点之后,所述方法还包括:
[0019]将lsyncd服务设置为开机自启模式。
[0020]一种维护Slurm HA状态数据文件的系统,所述方法应用于Slurm主管理节点故障的场景,所述系统包括:
[0021]部署模块,用于在Slurm调度系统中部署Slurm HA服务;
[0022]SSH免密模块,用于在Slurm主管理节点和备管理节点之间建立SSH免密通信;
[0023]同步模块,用于在主管理节点部署lsyncd服务,将主管理节点状态数据实时同步至备管理节点。
[0024]可选地,所述同步模块包括:
[0025]lsyncd服务部署单元,用于在主管理节点部署lsyncd服务;
[0026]配置单元,用于在配置文件中将主管理节点的IP地址、状态数据目录作为源,将备管理节点的IP地址、状态数据目录作为备;
[0027]运行与检测单元,用于根据配置文件运行lsyncd服务,并检查对lsyncd服务是否正常运行,如果是,流程结束,如果否,重新启动所述配置单元,修改配置文件,直到lsyncd服务正常运行。
[0028]可选地,所述系统中还包括有:
[0029]校验模块,用于通过模拟主管理节点故障,对所部署的Slurm HA服务进行校验。
[0030]可选地,所述系统中还包括有:
[0031]启动设置模块,用于将lsyncd服务设置为开机自启模式。
[0032]一种终端,其特征在于,所述终端包括:处理器以及与所述处理器通信连接的存储器,其中,
[0033]所述存储器中存储有可被所述处理器执行的指令,所述指令被所述处理器执行,以使所述处理器能够执行如上任意一项所述的维护Slurm HA状态数据文件的方法。
[0034]本申请的实施例提供的技术方案可以包括以下有益效果:
[0035]本申请提供一种维护Slurm HA状态数据文件的方法,该方法首先在Slurm调度系统中部署Slurm HA服务;然后在Slurm主管理节点和备管理节点之间建立SSH免密通信;最后,通过在主管理节点部署lsyncd服务,将主管理节点状态数据实时同步至备管理节点。通过在主管理节点和备管理节点之间建立SSH免密通信,能够确保主管理节点和备管理节点之间通信正常,便于状态数据文件的实时同步传输。本实施例通过在主管理节点部署lsyncd服务,来实现主管理节点和备管理节点之间的数据同步,这种方法只需要在主管理节点占用较少的资源即可实现,相比于现有技术中采用共享存储或共享目录的方式,能够大大节省资源,有利于资源的节约和充分利用。另外,本实施例在主服务器运行之后即开始实时数据同步,而不是发生故障后才开始数据传输,有利于数据的及时备份,能够保证正在
运行的作业或者提交作业的正确性,从而确保Slurm调度系统的正常运行,有利于提高slurm调度状态数据的可靠性。
[0036]另外,本实施例还通过模拟主管理节点故障,对所部署的Slurm HA服务进行校验,通过校验能够在正常运行之前及时发现部署过程中的错误,从而避免实际损失,有利于进一步提高slurm调度状态数据的可靠性。
[0037]本申请提供一种维护Slurm HA状态数据文件的系统,该系统主要包括:部署模块、SSH免密模块和同步模块。SSH免密模块的设置,能够确保主管理节点和备管理节点之间通信正常,便于状态数据文件的实时同步传输,提高数据处理效率。同步模块的设置,通过在主管理节点部署lsyncd服务,能够将主管理节点状态数据实时同步至备管理节点。本实施例中的同步模块只需要占用主管理节点较少的资源,能够有效节省资源,提高资源利用率。且本实施例中的同步模块采用lsyncd工具,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种维护Slurm HA状态数据文件的方法,其特征在于,所述方法应用于Slurm主管理节点故障的场景,所述方法包括:在Slurm调度系统中部署Slurm HA服务;在Slurm主管理节点和备管理节点之间建立SSH免密通信;通过在主管理节点部署lsyncd服务,将主管理节点状态数据实时同步至备管理节点。2.根据权利要求1所述的一种维护Slurm HA状态数据文件的方法,其特征在于,所述通过在主管理节点部署lsyncd服务,将主管理节点状态数据实时同步至备管理节点,包括:在主管理节点部署lsyncd服务;在配置文件中将主管理节点的IP地址、状态数据目录作为源,将备管理节点的IP地址、状态数据目录作为备;根据配置文件运行lsyncd服务,并检查lsyncd服务是否正常运行;如果否,重新修改配置文件,直到lsyncd服务正常运行。3.根据权利要求1所述的一种维护Slurm HA状态数据文件的方法,其特征在于,通过在主管理节点部署lsyncd服务,将主管理节点状态数据实时同步至备管理节点之后,所述方法还包括:通过模拟主管理节点故障,对所部署的Slurm HA服务进行校验。4.根据权利要求1

3中任意一项所述的一种维护Slurm HA状态数据文件的方法,其特征在于,通过在主管理节点部署lsyncd服务,将主管理节点状态数据实时同步至备管理节点之后,所述方法还包括:将lsyncd服务设置为开机自启模式。5.一种维护Slurm HA状态数据文件的系统,其特征在于,所述方法应用于Slurm主管理节点故障的场景,所...

【专利技术属性】
技术研发人员:王金喜宋亭豫
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1