一种监视控制群集系统、当计算机发生故障时将在其上运行的程序转移到群集内的其他计算机上运行的群集控制系统。在构成群集的各计算机上执行群集守护程序,在起动各程序包的同时,监视控制执行计算机上的资源,并将其数据作为局部数据保存在各计算机上。管理程序与各计算机上的群集守护程序通信。并保存着用于对群集系统的总体进行监视控制的全局数据。当管理程序或执行着该管理程序的计算机发生故障时,由群集守护程序在其他计算机上重新起动。(*该技术在2017年保护过期,可自由使用*)
【技术实现步骤摘要】
本专利技术涉及一种群集控制系统,它对群集系统进行监视控制,当在某台计算机上发生故障时,它将在该计算机上运行着的程序包转移到构成群集的另一台计算机上执行。在现有技术中被称作群集的技术大体上可分为由CPU共享主存的紧密结合型群集和计算机采用LAN和公用盘等并共享数据的松散结合型群集。这里说明的是后者即松散结合型群集。图50是表示现有的群集系统构成例的说明图。在图中,计算机A~N(101a~101n)是构成群集的多台计算机。在各计算机上,执行着群集守护程序A~N(102a~102n),由各群集守护程序起动各程序包A1~N2(103a1~103n2)。这里,所谓程序包,指的是应用程序和服务程序等的总称。各群集守护程序监视和控制执行中的计算机上的资源(CPU、LAN、盘、程序包提供的各种服务、网络地址等),并将其数据作为局部数据A~N(104a~104n)保存在各计算机内。以下,根据图51说明群集系统的动作。当在计算机A(101a)上失去必要的资源A(2401a)时,群集守护程序A(102a)使计算机A(101a)停止。在计算机(101a)停止时,另一台计算机N(101n)上的群集守护程序N(102n)检测该计算机A(101a)的停止,并由另一台计算机N(101n)执行在计算机A(101a)上执行着的程序包A(103a)。按照这种方式,程序包可在群集内的任何一台计算机上执行。此外,通过将网络地址分配给每个程序包,当用户利用由程序包提供的服务时,就没有必要知道是在群集内的哪一台计算机上执行着该程序包。另外,作为对分散着的资源状态进行集中监视控制的方式,有特开平5-75628号「网络资源监视系统」、特开平5-134902号「分布式计算系统中的工作信息管理方式」、特开平6-223020号「网络管理系统及目标资源的管理方法」等。但是,这些方式通过采用管理用的计算机或管理用的处理程序(管理程序)实现,但都没有考虑在管理用的计算机或管理用的处理程序(管理程序)中发生了故障时的情况。由于现有的群集系统按如上方式构成,所以,在编制对系统总体进行监视和控制的程序时,必须将数据分散于各计算机,并与群集内的所有计算机进行通信,因而存在着很难编制程序的问题。在对分散着的资源状态进行集中监视控制的方式中,还存在着当监视和控制整个系统的计算机或处理程序发生故障时其监视功能完全停止的问题。由于对各种程序包之间的相关关系或优先等级等没有进行定义,所以还存在着很难从多重系统等的其他系统进行转移的问题。此外,还存在着程序包重新起动花费时间、恢复时也花费时间的问题。由于系统恢复后在程序包的切换处理上要花费时间,使进行并行处理的程序包不能进行并行处理,因此,还存在着恢复后系统的性能恶化的问题。本专利技术是为解决上述问题而开发的,其目的是提供一种容易编制对群集系统总体进行监视和控制的程序、同时可从其他系统转移并能以高速进行操作的群集控制系统。与本专利技术的第一方面有关的群集控制系统,当构成群集系统的计算机群中的某台计算机发生故障时,使在该计算机上运行中的程序包由另一台计算机执行,在该群集控制系统中,构成该群集的各计算机包括提供应用或各种服务的程序包、对在计算机之间进行通信的资源进行监视控制的群集守护程序、及将监视结果作为局部数据存储的局部数据存储装置;在群集系统中的一台计算机除上述程序包、群集守护程序、局部数据存储装置外,还装有从各计算机上的局部数据进行收集并可由任何一台计算机参照的全局数据存储装置、与全局数据存储装置和各计算机上的群集守护程序进行通信并对群集系统的总体进行监视控制的管理程序;当安装着管理程序的计算机发生故障时,可在群集内的其他计算机上重新起动。与本专利技术的第二方面有关的群集控制系统,当构成群集系统的计算机群中的某台计算机发生故障时,使在该计算机上运行中的程序包由另一台计算机执行,在该群集控制系统中,构成该群集的各计算机包括提供应用或各种服务的程序包、对在计算机之间进行通信的资源进行监视控制的群集守护程序、与该计算机本身的群集守护程序及管理程序进行通信的服务程序、及将监视结果作为局部数据存储的局部数据存储装置;群集系统中的一台计算机除群集守护程序、服务程序、局部数据存储装置外,还装有从各计算机上的局部数据进行收集并可由任何一台计算机参照的全局数据存储装置、及与全局数据存储装置和各计算机上的服务程序进行通信并对群集系统的总体进行监视控制的管理程序;当安装着管理程序的计算机发生故障时,可在群集内的其他计算机上重新起动。与本专利技术的第三方面有关的群集控制系统,当构成群集系统的计算机群中的某台计算机发生故障时,使在该计算机上运行着的程序包由另一台计算机执行,在该群集控制系统中,构成该群集的各计算机包括提供应用或各种服务的程序包、对在该计算机本身的程序包和计算机之间进行通信的资源进行监视控制的群集守护程序、与该计算机本身的群集守护程序、各计算机上的服务程序之间及全局数据存储装置进行通信的服务程序;及将监视结果作为局部数据存储的局部数据存储装置;在群集系统中的一台计算机除上述群集守护程序、服务程序、局部数据存储装置外,还装有从各计算机上的局部数据进行收集并可由任何一台计算机参照的全局数据存储装置;各计算机上的服务程序可直接在全局数据存储装置及服务程序之间进行通信。与本专利技术的第四方面有关的群集控制系统,当构成群集系统的计算机群中的某台计算机发生故障时,使在该计算机上运行着的程序包由另一台计算机执行,在该群集控制系统中,构成该群集的各计算机包括提供应用或各种服务的程序包;对在该计算机本身的程序包及各计算机之间进行通信的资源进行监视控制的群集守护程序;与该计算机本身的群集守护程序、各计算机上的服务程序之间及全局数据存储装置进行通信的服务程序;及将监视结果作为局部数据存储的局部数据存储装置;在群集系统中的一台计算机除上述群集守护程序、服务程序、局部数据存储装置外,还装有从各计算机上的局部数据进行收集并可由任何一台计算机参照的全局数据存储装置以及与该计算机本身的服务程序和守护程序进行通信的管理程序;各计算机上的服务程序可直接在全局数据存储装置及服务程序之间进行通信。有关本专利技术的第五方面,是在与本专利技术的第一、第二或第四方面有关的群集控制系统中,管理程序包括记述了构成群集系统的计算机群的资源状态变化时的处理的资源设定文件;及根据资源设定文件的定义,当资源状态有变化时进行资源控制处理的自动控制机构。有关本专利技术的第六方面,是在与本专利技术的第五方面有关的群集控制系统中,在资源设定文件中定义与程序包间的相互关系和与执行有关的优先级信息,自动控制机构根据该定义信息使各计算机上的程序包运行。有关本专利技术的第七方面,是在与本专利技术的第一、第二、第四或第五方面有关的群集控制系统中,管理程序包括对程序包附加包含运行、等待、试验的运行操作模式、并根据该模式对程序包的操作控制进行管理的模式管理机构。有关本专利技术的第八方面,是在与第1、第2、第4乃至第7方面有关的群集控制系统中,管理程序包括收集与在群集系统内发生的资源状态变化有关的运行记录的运行记录管理机构。另外,有关本专利技术的第九方面,当构成群集控制系统的多台计算机中的一台计算机发生故障时,使在上述发生故障的计算机上运行中的提供应用或本文档来自技高网...
【技术保护点】
一种群集控制系统,当构成群集系统的计算机群中的某台计算机发生故障时,使在该计算机上运行中的程序包程序由另一台计算机执行,该群集控制系统的特征在于: 构成群集系统的各计算机包括:提供应用或各种服务的程序包;对在计算机之间进行通信的资源进行监视控制的群集守护程序;及根据该群集守护程序将监视结果作为局部数据存储的局部数据存储装置; 在群集系统中的一台计算机除上述程序包程序、群集守护程序、局部数据存储装置外,还装有从各计算机上的局部数据进行收集并可由任何一台计算机参照的全局数据存储装置以及与上述全局数据存储装置和各计算机上的群集守护程序进行通信并对群集系统的总体进行监视控制的管理程序; 当安装着该管理程序的计算机发生故障时,可在群集系统内的其他计算机上重新起动该管理程序。
【技术特征摘要】
...
【专利技术属性】
技术研发人员:细川武彦,鹤薰,
申请(专利权)人:三菱电机株式会社,
类型:发明
国别省市:JP[日本]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。