The invention discloses a HPC cluster management system based on web interface, including the main control console, management host, and submit the implementation of the host host, the master host is provided with a main daemon and scheduler daemon, and daemon by wires respectively and the scheduler daemon and master host is connected. The master daemon through a wire connected with the implementation of the host, database, management host, Grid components of the Engine system and the QSUB client, the Grid Engine system and the QSUB client components are located in the submit host, and the Grid components of the Engine system and the QSUB client through the wire and the submit host connected to the Grid the Engine system components by wires respectively and the scheduler daemon and connected to the host management. The invention can manage and schedule relatively loose high configuration servers, maximize the resource utilization of the high configuration servers, and improve the centralized maintenance efficiency of the servers at the same time.
【技术实现步骤摘要】
基于web界面的HPC机群管理系统
本专利技术涉及HPC机群管理系统
,尤其涉及一种基于web界面的HPC机群管理系统。
技术介绍
随着社会发展,数据的存储和计算对服务器资源的需要越来越高,目前许多国家都在各地建立了许多HPC超算中心。例如美国圣地亚哥超算中心(SDSC),在国内,有中科院超算中心,天津、深圳等诸多国家超级计算中心,以及各地区建立的超算中心。超算中心的日常运行和维护需要专门的系统和专业管理人员来实现,例如作业提交、用户管理、日志查看等等。目前已经有了许多开源或商业的集群管理软件为超算中心或中小机群提供解决方案,例如开源的rocks集群管理软件,商业的集群管理软件如rocks+、PlatformClusterManager等等。这些集群管理软件都是在现有的OS基础上,集成一些软件包,实现基于图形和文本的管理界面,最终通过一台管理节点来控制其它的计算节点,使用效果虽然很好,但是如果管理节点一旦宕机,必须重新安装所有节点来恢复集群系统。这种恢复方式是比较费时而且可能到时数据丢失的严重后果。
技术实现思路
基于
技术介绍
存在的技术问题,本专利技术提出了基于web界面的HPC机群管理系统。本专利技术提出了基于web界面的HPC机群管理系统,包括主控主机、管理主机、执行主机和提交主机,所述主控主机上设有主守护进程和调度程序守护进程,且主守护进程通过导线分别与调度程序守护进程和主控主机相连接,所述主守护进程通过导线连接有执行主机、数据库、管理主机、GridEngine系统组件和QSUB客户端,所述GridEngine系统组件和QSUB客户端均位于提交主机 ...
【技术保护点】
基于web界面的HPC机群管理系统,包括主控主机(2)、管理主机(5)、执行主机(6)和提交主机(12),其特征在于,所述主控主机(2)上设有主守护进程(3)和调度程序守护进程(4),且主守护进程(3)通过导线分别与调度程序守护进程(4)和主控主机(2)相连接,所述主守护进程(2)通过导线连接有执行主机(6)、数据库(1)、管理主机(5)、Grid Engine系统组件(13)和QSUB客户端(14),所述Grid Engine系统组件(13)和QSUB客户端(14)均位于提交主机(12)上,且Grid Engine系统组件(13)和QSUB客户端(14)均通过导线和提交主机(12)相连接,所述Grid Engine系统组件(13)通过导线分别与调度程序守护进程(4)和管理主机(5)相连接,所述执行主机(6)上设有执行守护进程(7),且执行守护进程(7)通过导线和执行主机(6)相连接,所述执行守护进程(7)通过导线连接有第一shepherd进程(8)和第二shepherd进程(9),所述第一shepherd进程(8)通过导线连接有第一作业(10),且第二shepherd进程(9)通过导 ...
【技术特征摘要】
1.基于web界面的HPC机群管理系统,包括主控主机(2)、管理主机(5)、执行主机(6)和提交主机(12),其特征在于,所述主控主机(2)上设有主守护进程(3)和调度程序守护进程(4),且主守护进程(3)通过导线分别与调度程序守护进程(4)和主控主机(2)相连接,所述主守护进程(2)通过导线连接有执行主机(6)、数据库(1)、管理主机(5)、GridEngine系统组件(13)和QSUB客户端(14),所述GridEngine系统组件(13)和QSUB客户端(14)均位于提交主机(12)上,且GridEngine系统组件(13)和QSUB客户端(14)均通过导线和提交主机(12)相连接,所述GridEngine系统组件(13)通过导线分别与调度程序守护进程(4)和管理主机(5)相连接,所述执行主机(6)上设有执行守护进程(7),且执行守护进程(7)通过导线和执行主机(6)相连接,所述执行守护进程(7)通过导线连接有第一shepherd进程(8)和第二shepherd进程(9),所述第一shepherd进程(8)通过导线连接有第一作业(10),且第二shepherd进程(9)通过导线连接有第二作业(11);执行主机(6)通过执行主机(6)上的执行守护进程(7)向主控主机(2)上的主守护进程(3)报告该执行主机(6)的负载信息,用户通过提交主机(12)上的QSUB客户端(14)向主控主机(2)上的主守护进程(3)提交作业,主控主机(2)上的主守护进程(3)把收集到的系统负载信息和新出现的作业的情况发送给主控主机(2)上的调度程序守护进程(4)上,调度程序守护进程(4)通过一定的作业调度策略、利用系统各方面的...
【专利技术属性】
技术研发人员:不公告发明人,
申请(专利权)人:合肥千奴信息科技有限公司,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。