基于web界面的HPC机群管理系统技术方案

技术编号:16703741 阅读:56 留言:0更新日期:2017-12-02 17:10
本发明专利技术公开了一种基于web界面的HPC机群管理系统,包括主控主机、管理主机、执行主机和提交主机,所述主控主机上设有主守护进程和调度程序守护进程,且主守护进程通过导线分别与调度程序守护进程和主控主机相连接,所述主守护进程通过导线连接有执行主机、数据库、管理主机、Grid Engine系统组件和QSUB客户端,所述Grid Engine系统组件和QSUB客户端均位于提交主机上,且Grid Engine系统组件和QSUB客户端均通过导线和提交主机相连接,所述Grid Engine系统组件通过导线分别与调度程序守护进程和管理主机相连接。本发明专利技术可以将相对松散的高配置服务器进行统一管理和调度,使高配置服务器的资源利用率最大化,同时服务器的集中维护效率得到相应提高。

HPC cluster management system based on web interface

The invention discloses a HPC cluster management system based on web interface, including the main control console, management host, and submit the implementation of the host host, the master host is provided with a main daemon and scheduler daemon, and daemon by wires respectively and the scheduler daemon and master host is connected. The master daemon through a wire connected with the implementation of the host, database, management host, Grid components of the Engine system and the QSUB client, the Grid Engine system and the QSUB client components are located in the submit host, and the Grid components of the Engine system and the QSUB client through the wire and the submit host connected to the Grid the Engine system components by wires respectively and the scheduler daemon and connected to the host management. The invention can manage and schedule relatively loose high configuration servers, maximize the resource utilization of the high configuration servers, and improve the centralized maintenance efficiency of the servers at the same time.

【技术实现步骤摘要】
基于web界面的HPC机群管理系统
本专利技术涉及HPC机群管理系统
,尤其涉及一种基于web界面的HPC机群管理系统。
技术介绍
随着社会发展,数据的存储和计算对服务器资源的需要越来越高,目前许多国家都在各地建立了许多HPC超算中心。例如美国圣地亚哥超算中心(SDSC),在国内,有中科院超算中心,天津、深圳等诸多国家超级计算中心,以及各地区建立的超算中心。超算中心的日常运行和维护需要专门的系统和专业管理人员来实现,例如作业提交、用户管理、日志查看等等。目前已经有了许多开源或商业的集群管理软件为超算中心或中小机群提供解决方案,例如开源的rocks集群管理软件,商业的集群管理软件如rocks+、PlatformClusterManager等等。这些集群管理软件都是在现有的OS基础上,集成一些软件包,实现基于图形和文本的管理界面,最终通过一台管理节点来控制其它的计算节点,使用效果虽然很好,但是如果管理节点一旦宕机,必须重新安装所有节点来恢复集群系统。这种恢复方式是比较费时而且可能到时数据丢失的严重后果。
技术实现思路
基于
技术介绍
存在的技术问题,本专利技术提出了基于web界面的HPC机群管理系统。本专利技术提出了基于web界面的HPC机群管理系统,包括主控主机、管理主机、执行主机和提交主机,所述主控主机上设有主守护进程和调度程序守护进程,且主守护进程通过导线分别与调度程序守护进程和主控主机相连接,所述主守护进程通过导线连接有执行主机、数据库、管理主机、GridEngine系统组件和QSUB客户端,所述GridEngine系统组件和QSUB客户端均位于提交主机上,且GridEngine系统组件和QSUB客户端均通过导线和提交主机相连接,所述GridEngine系统组件通过导线分别与调度程序守护进程和管理主机相连接,所述执行主机上设有执行守护进程,且执行守护进程通过导线和执行主机相连接,所述执行守护进程通过导线连接有第一shepherd进程和第二shepherd进程,所述第一shepherd进程通过导线连接有第一作业,且第二shepherd进程通过导线连接有第二作业。执行主机通过执行主机上的执行守护进程向主控主机上的主守护进程报告的执行主机负载信息,用户提交主机上的QSUB客户端向主控主机上的主守护进程提交作业,主控主机上的主守护进程把收集到的系统负载信息和新出现的作业的情况发送给主控主机上的调度程序守护进程上,调度程序守护进程通过一定的作业调度策略、利用系统各方面的信息,把收到的作业映射到合适的执行守护进程上,为此将生成的命令表返回给主守护进程,主守护进程把作业传送给调度程序守护进程指定的目的执行主机上的执行守护进程上,执行守护进程为作业创建一个shepherd,由这个shepherd负责管理和控制作业的执行,当作业执行结束,执行守护进程要向主守护进程报告作业执行的情况,主守护进程在数据库中记录作业的资源使用情况,GridEngine系统组件时刻监视着主守护进程,预防主守护进程崩溃。优选地,所述主控主机用于运行主守护进程和调度程序守护进程,且运行主守护进程和调度程序守护进程均对GridEngine系统组件进行控制。优选地,所述执行主机用于运行执行守护进程。优选地,所述管理主机用于运行GridEngine系统组件的管理操作,且管理主机用于监控主守护进程。优选地,所述QSUB客户端用于向主控主机的主守护进程提交作业。优选地,所述执行守护进程用于为第一作业建立第一shepherd进程,且执行守护进程用于为第二作业建立第二shepherd进程。本专利技术的有益效果:1、通过主控主机,可以分别对主守护进程和调度程序守护进程进行运行,且运行主守护进程和调度程序守护进程可以对GridEngine系统组件进行控制,进而主控主机可以对GridEngine系统组件进行控制;2、通过执行主机和执行主机上的执行守护进程,执行主机使得执行守护进程进行运行,且执行主机上的执行守护进程可以为第一作业建立第一shepherd进程,或者执行守护进程可以为第二作业建立第二shepherd进程;3、通过管理主机,可以对GridEngine系统组件的管理操作进行运行,且可以对主守护进程进行监控;4、通过提交主机上的QSUB客户端,可以向主控主机的主守护进程提交作业;本专利技术可以将相对松散的高配置服务器进行统一管理和调度,使高配置服务器的资源利用率最大化,同时服务器的集中维护效率得到相应提高。附图说明图1为本专利技术提出的基于web界面的HPC机群管理系统的系统框图。图中:1数据库、2主控主机、3主守护进程、4调度程序守护进程、5管理主机、6执行主机、7执行守护进程、8第一shepherd进程、9第二shepherd进程、10第一作业、11第二作业、12提交主机、13GridEngine系统组件、14QSUB客户端。具体实施方式下面结合具体实施例对本专利技术作进一步解说。实施例参照图1,本实施例中提出了基于web界面的HPC机群管理系统,包括主控主机2、管理主机5、执行主机6和提交主机12,主控主机2上设有主守护进程3和调度程序守护进程4,且主守护进程3通过导线分别与调度程序守护进程4和主控主机2相连接,主守护进程2通过导线连接有执行主机6、数据库1、管理主机5、GridEngine系统组件13和QSUB客户端14,GridEngine系统组件13和QSUB客户端14均位于提交主机12上,且GridEngine系统组件13和QSUB客户端14均通过导线和提交主机12相连接,GridEngine系统组件13通过导线分别与调度程序守护进程4和管理主机5相连接,执行主机6上设有执行守护进程7,且执行守护进程7通过导线和执行主机6相连接,执行守护进程7通过导线连接有第一shepherd进程8和第二shepherd进程9,第一shepherd进程8通过导线连接有第一作业10,且第二shepherd进程9通过导线连接有第二作业11。执行主机6通过执行主机6上的执行守护进程7向主控主机2上的主守护进程3报告的执行主机6负载信息,用户提交主机12上的QSUB客户端14向主控主机2上的主守护进程3提交作业,主控主机2上的主守护进程3把收集到的系统负载信息和新出现的作业的情况发送给主控主机2上的调度程序守护进程4上,调度程序守护进程4通过一定的作业调度策略、利用系统各方面的信息,把收到的作业映射到合适的执行守护进程7上,为此将生成的命令表返回给主守护进程3,主守护进程3把作业传送给调度程序守护进程4指定的目的执行主机6上的执行守护进程7上,执行守护进程7为作业创建一个shepherd,由这个shepherd负责管理和控制作业的执行,当作业执行结束,执行守护进程7要向主守护进程3报告作业执行的情况,主守护进程3在数据库1中记录作业的资源使用情况,GridEngine系统组件13时刻监视着主守护进程3,预防主守护进程3崩溃,主控主机2用于运行主守护进程3和调度程序守护进程4,且运行主守护进程3和调度程序守护进程4均对GridEngine系统组件13进行控制,执行主机6用于运行执行守护进程7,管理主机5用于运行GridEngine系统组件13的管理操作,且管理主机5用于监控主守护进程本文档来自技高网...
基于web界面的HPC机群管理系统

【技术保护点】
基于web界面的HPC机群管理系统,包括主控主机(2)、管理主机(5)、执行主机(6)和提交主机(12),其特征在于,所述主控主机(2)上设有主守护进程(3)和调度程序守护进程(4),且主守护进程(3)通过导线分别与调度程序守护进程(4)和主控主机(2)相连接,所述主守护进程(2)通过导线连接有执行主机(6)、数据库(1)、管理主机(5)、Grid Engine系统组件(13)和QSUB客户端(14),所述Grid Engine系统组件(13)和QSUB客户端(14)均位于提交主机(12)上,且Grid Engine系统组件(13)和QSUB客户端(14)均通过导线和提交主机(12)相连接,所述Grid Engine系统组件(13)通过导线分别与调度程序守护进程(4)和管理主机(5)相连接,所述执行主机(6)上设有执行守护进程(7),且执行守护进程(7)通过导线和执行主机(6)相连接,所述执行守护进程(7)通过导线连接有第一shepherd进程(8)和第二shepherd进程(9),所述第一shepherd进程(8)通过导线连接有第一作业(10),且第二shepherd进程(9)通过导线连接有第二作业(11);执行主机(6)通过执行主机(6)上的执行守护进程(7)向主控主机(2)上的主守护进程(3)报告该执行主机(6)的负载信息,用户通过提交主机(12)上的QSUB客户端(14)向主控主机(2)上的主守护进程(3)提交作业,主控主机(2)上的主守护进程(3)把收集到的系统负载信息和新出现的作业的情况发送给主控主机(2)上的调度程序守护进程(4)上,调度程序守护进程(4)通过一定的作业调度策略、利用系统各方面的信息,把收到的作业映射到合适的执行守护进程(7)上,为此将生成的命令表返回给主守护进程(3),主守护进程(3)把作业传送给调度程序守护进程(4)指定的目的执行主机(6)上的执行守护进程(7)上,执行守护进程(7)为作业创建一个shepherd,由这个shepherd负责管理和控制作业的执行,当作业执行结束,执行守护进程(7)要向主守护进程(3)报告作业执行的情况,主守护进程(3)在数据库(1)中记录作业的资源使用情况,Grid Engine系统组件(13)时刻监视着主守护进程(3),预防主守护进程(3)崩溃。...

【技术特征摘要】
1.基于web界面的HPC机群管理系统,包括主控主机(2)、管理主机(5)、执行主机(6)和提交主机(12),其特征在于,所述主控主机(2)上设有主守护进程(3)和调度程序守护进程(4),且主守护进程(3)通过导线分别与调度程序守护进程(4)和主控主机(2)相连接,所述主守护进程(2)通过导线连接有执行主机(6)、数据库(1)、管理主机(5)、GridEngine系统组件(13)和QSUB客户端(14),所述GridEngine系统组件(13)和QSUB客户端(14)均位于提交主机(12)上,且GridEngine系统组件(13)和QSUB客户端(14)均通过导线和提交主机(12)相连接,所述GridEngine系统组件(13)通过导线分别与调度程序守护进程(4)和管理主机(5)相连接,所述执行主机(6)上设有执行守护进程(7),且执行守护进程(7)通过导线和执行主机(6)相连接,所述执行守护进程(7)通过导线连接有第一shepherd进程(8)和第二shepherd进程(9),所述第一shepherd进程(8)通过导线连接有第一作业(10),且第二shepherd进程(9)通过导线连接有第二作业(11);执行主机(6)通过执行主机(6)上的执行守护进程(7)向主控主机(2)上的主守护进程(3)报告该执行主机(6)的负载信息,用户通过提交主机(12)上的QSUB客户端(14)向主控主机(2)上的主守护进程(3)提交作业,主控主机(2)上的主守护进程(3)把收集到的系统负载信息和新出现的作业的情况发送给主控主机(2)上的调度程序守护进程(4)上,调度程序守护进程(4)通过一定的作业调度策略、利用系统各方面的...

【专利技术属性】
技术研发人员:不公告发明人
申请(专利权)人:合肥千奴信息科技有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1