【技术实现步骤摘要】
一种面向大规模云数据中心的服务器协同监控方法
本专利技术涉及信息技术类系统管理应用领域,尤其涉及一种面向大规模云数据中心的服务器协同监控方法。
技术介绍
云计算基于集中构建的云数据中心为用户提供动态的、高性价比的、弹性规模扩展的计算、存储和各类信息服务,改变了传统信息技术产业的体系架构和运作模式,受到了目前国内外学术界和产业界的极大关注。世界主要国家政府和具有显著影响力的企业机构纷纷构建大规模的云数据中心;Google、百度、IBM、Microsoft、Yahoo、Amazon、VMware、Salesforce、华为等均提出了各自的云计算解决方案;Facebook、YouTube、淘宝、万网、新浪等受到广泛欢迎的网络系统也都基于云计算平台。云数据中心中的数据服务器是实际承载所有资源的物理基础,服务器的正常运行是云计算系统稳定、高效地提供服务的前提。因此,高效的服务器监控机制对于云计算系统而言至关重要。目前的云计算监控及管理系统关注的重点是对虚拟机资源和行为进行监控,对服务器本身的监控则简单采用集中式架构以及心跳或轮询模式。例如,Google云计算系统采用由一个或几个主控服务器来负责监控云数据中心的服务器集群中各数据服务器的状态。IBM的“蓝云”云计算平台采用Tivoli监控软件来监控云数据中心的服务器及任务的执行情况,也采用集中式监控架构。Nagios是被云计算系统广泛应用的主机和网络状态的监视系统,仍采用集中式监控架构。集中式监控架构的优点是可控性强、维护方便灵活,缺陷是系统存在性能瓶颈和单点故障问题。在中、小规模的数据中心里,如果采用集中式监控架构, ...
【技术保护点】
一种面向大规模云数据中心的服务器协同监控方法,其基于服务器协同监控模型实现,服务器协同监控模型的主要部件包括监控服务器,消息路由器,数据服务器,消息队列,监控路由表,守护进程;其协同监控的方法包括如下步骤: 步骤一:所有数据服务器依次相连构成单向环形拓扑结构,每个数据服务器都有前继服务器和后继服务器且受后继服务器监控,数据服务器发生故障而失效时,由其后继服务器负责将数据服务器的失效情况汇报监控服务器; 步骤二:当数据服务器加入系统时其服务器协同监控方法为:重新建立包含该新数据服务器的单向环形拓扑结构,监控服务器将新数据服务器加入系统的情况通告给任务调度器; 当单个数据服务器发生故障而失效时其服务器协同监控方法为:该数据服务器的后继服务器负责发现并将这个情况报告给监控服务器,重新建立排除该故障数据服务器的单向环形拓扑结构,监控服务器将该数据服务器故障的情况通告给任务调度器,并继续进行监控; 当成片数据服务器失效时其服务器协同监控方法为:由后继于这些成片失效数据服务器的第一个正常数据服务器来负责依次发现并依次将数据服务器失效的情况报告给监控服务器,重新建立排除该故障数据服务器的单向环形拓扑 ...
【技术特征摘要】
1.一种面向大规模云数据中心的服务器协同监控方法,其基于服务器协同监控模型实现,服务器协同监控模型的主要部件包括监控服务器,消息路由器,数据服务器,消息队列,监控路由表,守护进程;面向大规模云数据中心的服务器协同监控的方法包括如下步骤:步骤一:所有数据服务器依次相连构成单向环形拓扑结构,每个数据服务器都有前继服务器和后继服务器且受后继服务器监控,数据服务器发生故障而失效时,由失效的数据服务器的后继服务器负责将失效数据服务器的失效情况汇报监控服务器;步骤二:当数据服务器加入系统时,面向大规模云数据中心的服务器协同监控方法为:重新建立包含该新加入的数据服务器的单向环形拓扑结构,监控服务器将新数据服务器加入系统的情况通告给任务调度器;当单个数据服务器发生故障而失效时面向大规模云数据中心的服务器协同监控方法为:该数据服务器的后继服务器负责发现并将这个情况报告给监控服务器,重新建立排除发生故障的数据服务器的单向环形拓扑结构,监控服务器将该数据服务器故障的情况通告给任务调度器,并继续进行监控;当成片数据服务器失效时面向大规模云数据中心的服务器协同监控方法为:步骤2-1:在数据服务器DNi+1连续几个周期没有从Qi所标识的心跳队列中获得消息,则立刻向消息路由器发布一个主题为“故障”的消息包,该消息包将被填入消息路由器上的全局监控队列;步骤2-2:监控服务器在全局监控队列中获得“故障”消息包时,从该消息包提取到发出故障信息的数据服务器为DNi+1,再由本地的监控路由表中发现DNi+1监控对象为DNi,则判定DNi故障;步骤2-3:监控服务器更新监控路由表:首先将监控路由表中数据服务器DNi对应记录中的(PreNode,PreQID)信息(DNi-1,Qi-1)提取出来以更新DNi+1对应记录中的(PreNode,PreQID)信息,然后将DNi对应的记录删除;步骤2-4:监控服务器按照DNi+1的IP地址将更新后的(PreNode,PreQID)信息再发送给数据服务器DNi+1,数据服务器DNi+1向消息路由器申请订阅标识为Qi-1的心跳队列,DNi+1和DNi-1建立起监控关系;步骤2-5:监控服务器还需要将DNi故障的情况通告给任务调度器,后续再有新任务时,任务调度器将不会分配任务给DNi,除非DNi恢复正常在线状态并重新加入系统;步骤2-6:由于DNi-1也因故障而失效了,因此同样的,在数据服务器DNi+1连续几个周期没有从Qi-1所标识的心跳队列中获得消息时,则又立刻向消息路由器发布一个主题为“故障”的消息包,该消息包将被填入消息路由器上的全局监控队列;步骤2-7:监控服务器在全局监控队列中获得“故障”消息包时,从该消息包提取到发出故障信息的数据服务器为DNi+1,再由本地的监控路由表中发现DNi+1监控对象为DNi-1,则判定DNi-1故障;步骤2-8:监控服务器更新监控路由表:首先将监控路由表中数据服务器DNi-1对应记录中的(PreNode,PreQID)信息(DNi-2,Qi-2)提取出来以更新DNi+1对应记录中的(PreNode,PreQID)信息,然后将DNi-1对应的记录删除;步骤2-9:监控服务器按照DNi+1的IP地址将更新后的(PreNode,PreQID)信息再发送给数据服务器DNi+1,数据服务器DNi+1向消息路由器申请订阅标识为Qi-2的心跳队列,DNi+1和DNi-2建立起监控关系,单向环形网络拓扑也再次重建完成;步骤2-10:监控服务器还需要将DNi-1故障的情况通告给任务调度器,后续再有新任务时,任务调度器将不会分配任务给DNi-1,除非DNi-1恢复正常在线状态并重新加入系统;更多的数据服务器成片失效时,采用与步骤2-6~步骤2-9相同的流程来依次发现所有的失效数据服务器;PreNode是当前数据服务器的前继服务器,PreQID是指当前数据服务器的前继服务器的心跳队列的标识,DNi是数据服务器DNi的服务器标识,Qi是与数据服务器DNi对应的心跳队列标识,DNi-1是数据服务器DNi-1的服务器标识,Qi-1是与数据服务器DNi-1对应的心跳队列标识,DNi-2是数据服务器DNi-2的服务器标识,Qi-2是与数据服务器DNi-2对应的心跳队列标识,DNi+1是数据服务器DNi+1的服务器标识。2.根据权利要求1所述的一种面向大规模云数据中心的服务器协同监控方法,其步骤二中,当数据服务器加入系统时面向大规模云数据中心的服务器协同监控方法如下:步骤1:系统首先判断当前加入系统的数据服务器是首次加入系统还是重新加入系统;若数据服务器是首次加入系统时,该数据服务器将会通过守护进程与消息路由器连接,并请求消息路由器为该数据服务器创建一个独立的心跳队列,然后该数据服务器周期性向该心跳队列发布心跳消息,系统中若曾经有N个数据服务器加入过系统,无论这些数据服务器目前是否在线,消息路由器上都将存在N个心跳队列,在...
【专利技术属性】
技术研发人员:徐小龙,杨冠,章韵,李嘉豪,张凯,李爱群,
申请(专利权)人:南京邮电大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。