检测集群环境中动态工作负载调度的不平衡的系统和方法技术方案

技术编号:2827317 阅读:164 留言:0更新日期:2012-04-11 18:40
公开了一种用于检测动态调度的计算机服务器集群中的工作负载不平衡的方法、系统和计算机程序产品。一种这样的方法包括以下步骤:监视在每个所述计算机服务器的多个度量;检测在所述多个度量中的改变点;基于所述检测的改变点产生各警报点;将所述各警报点相关;并且基于所述相关的结果,识别一个或多个导致工作负载不平衡的所述计算机服务器。还公开了用于实践上述方法的系统和计算机程序产品。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及在动态调度的基于集群的环境中对工作负载(workload)不 平衡的检测,并且更具体地,涉及对所述不平衡负责的集群成员的识別。
技术介绍
在基于集群的应用处理环境(通常称为应用服务器)中的工作负载调 度,通常基于加权循环(round robin )执行。典型地,当创建该集群时将路由 权重静态地分配给各种后端(backend)服务器。在更近的应用服务器中,基 于被监视的各运行时度量(metric)动态地分配各路由权重。当分配各路由权 重给那些服务器时,动态工作负载调度通常考虑各度量,如特定服务器上的 CPU使用和从那些服务器观察的响应时间。有时,由于在特定服务器上的应用中出现的故障、或由于外部情况(例 如,切断(sever)的与数据库的网络连通性),由于没有执行任何真正的工作, 受影响的服务器可以开始快速地处理请求。与其它服务器相比,这可能导致 来自该服务器的较低响应时间,这可以由工作负载管理器解释为速度和效 率的标志。相应地,工作负载管理器可以给该受影响的服务器分配较高的 路由权重,因此给该服务器指派甚至更多的请求,这将典型地导致越来越多 的请求不正确地完成。该情况称为风暴排放沟道(Storm Drain),并且典型地 由集群中的服务器之一的故障、而该集群中的其它服务器保持健康而导致。在名为 Detecting Application-Level Failures in Componet-based Internet Services、要发表在关于神经网络的IEEE学报关于通信网络中的自适应学 习系统的特刊的论文(特邀论文)(2005年春季)中,作者Emre Kiciman和 Armando Fox提出了 一种用于检测和定位这样的服务中的异常(anomaly)的 方法。该精确定位(pinpoint)方法包括三个阶段处理观察系统、学习 其行为中的模式、以及寻找这些行为中的异常。在观察阶段期间,捕获 由系统服务的每个请求的运行时路径。从各请求的运行时路径提取特定的低 级行为,即,组件交互和路径形状。这些低级行为都不能用于有效地检测风暴排放沟道情况,因为除了风暴排放沟道情况外,组件交互和路 径形状的改变可能由各种原因(如应用版本改变、请求混合改变等)导致。 此外,风暴排放沟道情况可能由后端系统故障导致,该后端系统故障驻留在 正被考虑的应用外,因此在该精确定位方法的检测范围外。在这样的情形, 在发生风暴排放沟道情况时组件交互和路径形状,,不改变,因此不是 风暴排放沟道情况的可靠指示符。在名为Adaptive Methods for Activity Monitoring of Stream Data(关于 机器学习和应用的2002国际会议(ICMLA,02)的会议纪录,Las Vegas, Nevada, 2002年6月24-27日,第197-203页)的论文中,Vasundhara Puttagunta和 Konstantinos Kalpakis讨论了用于检测时间序列的改变点以检测感兴趣的事件 的方法。在Knowledge Discovery and Data Mining, 1999,第33-42页中, Guralnik. V.和Srivistava. J.也讨论了时间序列改变点检测技术。这些方法和技 术检查包括历史数据的单个时间序列,该时间序列将频繁地和不利地导致风 暴排放沟道情况的错误检测。在名为DEMON: Mining and monitoring evolving data (ICDE, 2000, 第439—448页)的论文中,Ganti. V.、 Gehrke. J.和Ramakrishnan. R.提出了 一 种处理增量数据的通用模型维护算法。该技术能够用作对改变点检测的替代, 以检测在给定的单个时间序列数据中的异常。然而,该算法不利地要求在时 间序列内的若干模型的维护,并且不能在没有本文献中描述的另外的机制的 支持下自己检测风暴排放沟道情况。在名为 Integrated Event Management: Event Correlation using D印endencyGraphs(关于分布式系统操作和管理的第九届IFIP/正EE国际 研讨会(DSOM98)的会议纪录,1998年10月)的论文中,作者Gmschke. B.使用依赖性图,讨论了从系统中的不同软件或硬件组件中发出的不同事件 的相关性。该方法不利地要求来自现有硬件和软件基础结构的实际支持,并 且随着新的后端组件被增加到该系统,可能要求新的事件产生机制的创建。名为System and Method for Monitoring Performance Metrics的美国专利 申请No. 20030110007,以McGee. J.等人的名义提交并在2003年6月12日 公开。该文献涉及一种用于使不同的性能度量相关以监视基于web的企业系 统的性能的系统和方法,并且不贯注于工作负载不平衡的检测。此外,没有 公开用于将风暴排放沟道行为与正常性能问题区别的机制。现有的用于检测工作负载不平衡的方法和系统通常假设响应时间的增加和吞吐量(throughput)的减少是潜在问题的症状。然而,风暴排放沟道情况展现完全相反的症状(即,减少的响应时间和增加的吞吐量)。因此,需要 不同的方法。存在对能够可靠和精确地检测风暴排放沟道情况的方法和系统的需要, 该风暴排放沟道情况由于后端计算机服务器故障而出现。
技术实现思路
本专利技术的各方面涉及用于检测动态调度的计算机服务器集群中的工作负 载不平衡的方法、系统和计算机程序产品。本专利技术的一个方面提供一种用于检测动态调度的计算机服务器集群中的工作负载不平衡的方法。该方法包括以下步骤监视在每个计算机服务器的 的多个度量;检测所述多个度量的改变点;基于所述检测的改变点产生各警 报点;使所述各警报点相关;以及基于所述相关的结果,识别一个或多个导 致工作负载不平衡的所述计算机服务器。本专利技术的另一个方面提供一种用于检测动态调度的计算机服务器集群中 的工作负载不平衡的系统。该系统包括多个传感器,用于监视在每个计算 机服务器的多个度量;改变点检测器,用于检测所述多个度量的改变,并基 于所述检测的改变产生各警报点;相关引擎,用于使从所述多个度量产生的 所述各警报点相关,并且基于所述相关的结果,识别一个或多个导致工作负 载不平衡的所述计算机服务器。本专利技术的另 一个方面提供一种用于检测动态调度的计算机服务器集群中 的工作负载不平衡的系统,该系统包括存储器单元,用于存储要由处理单 元执行的各指令和数据;以及耦合到所述存储器单元的处理单元。所述处理 单元被编程以监视在每个计算机服务器的多个度量;检测所述多个度量的 改变点;基于所述检测的改变点产生各警报点;使所述各警报点相关;以及 基于所述相关的结果,识别一个或多个导致工作负载不平衡的所述计算机服 务器。本专利技术的另 一 个方面提供一种包括计算机可读介质的计算机程序产品, 该计算机可读介质包括记录在其中的计算机程序,该计算机程序用于检测动 态调度的计算机服务器集群中的工作负载不平衡。该计算机程序产品包括用于监视在每个计算机服务器的多个度量的计算机程序代码;用于本文档来自技高网
...

【技术保护点】
一种用于检测动态调度的计算机服务器集群中的工作负载不平衡的方法,所述方法包括以下步骤:    监视在每个所述计算机服务器的多个度量;    检测在所述多个度量中的改变点;    基于所述检测的改变点产生各警报点;    将所述各警报点相关;以及    基于所述相关的结果,识别一个或多个导致工作负载不平衡的所述计算机服务器。

【技术特征摘要】
【国外来华专利技术】US 2005-7-14 11/181,3521.一种用于检测动态调度的计算机服务器集群中的工作负载不平衡的方法,所述方法包括以下步骤监视在每个所述计算机服务器的多个度量;检测在所述多个度量中的改变点;基于所述检测的改变点产生各警报点;将所述各警报点相关;以及基于所述相关的结果,识别一个或多个导致工作负载不平衡的所述计算机服务器。2. 根据权利要求1所述的方法,其中所述度量包括端到端系统度量。3. 根据权利要求1所述的方法,其中所述监视在每个所述计算机服务器 的多个度量的步骤包括以下步骤以周期性的间隔,采样在每个所述计算机服务器的请求的累积响应时间;以及以周期性的间隔,采样动态分配给每个所述计算机服务器的路由权重。4. 根据权利要求1所述的方法,还包括以下步骤产生代表用于响应各请求的所述各计算机服务器的响应时间的时间序列 数据;以及产生代表动态分配给所述各计算机服务器的路由权重的时间序列数据。5. 根据权利要求4所述的方法,还包括以下步骤检测正在减小的所述响应时间序列数据中的改变点;以及 冲企测正在增加的所述路由权重时间序列数据中的改变点。6. 根据权利要求5所述的方法,还包括过滤所述各警报点的步骤。7. 根据权利要求6所述的方法,其中所述各警报点在定义的时间窗口中 相关。8. 根据权利要求1所述的方法,还包括探查所述计算机服务器以确定所 述计算机服务器是否正在正确地运行的步骤。9. 根据权利要求1或权利要求7所述的方法,还包括通知系统管理员出 现风暴排放沟道(storm drain)情况的步骤。10. 根据权利要求9所述的方法,还包括至少一个从由下述各步骤组成的组中选择的自动步骤 停止将各请求路由/调度到所述识别的 (各)计算机服务器;使所述识别 的(各)计算机服务器停顿,以及复原所述识别的(各)计算机服务器。11. 一种用于检测动态调度的计算机服务器集群中的工作负载不平衡的 系统,所述系统包括多个传感器,用于监视在每个所述计算机服务器的多个度量; 改变点检测器,用于检测所述多个度量的改变,并基于所述检测的改变 产生各警报点;相关引擎,用于将从所述多个度量产生的所述各警报点相关,并且基于 所述相关的结果,识别 一个或多个导致工作负载不平衡的所述计算机服务器。12. 根据权利要求11所述的系统,其中所述多个传感器适于以周期性的间隔,采样在每个所述计算机服务器的请求的累积响应时间;以及以周期性的间隔,采样动态分配给每个所述计算机服务器的路由权重。13. 根据权利要求11所述的系统,其中所述多个传感器适于产生代表用于响应各请求的所述各计算机服务器的响应时间的时间序列 数据;以及产生代表动态分配给所述各计算机服务器的路由权重的时间序列数据。14. 根据权利要求13所述的系统,其中所述改变点检测器适于 识别正在减小的所述响应时间序列数据中的改变点;以及识别正在增加的所述路由权重时间序列数据中的改变点。15. 根据权利要求11所述的系统,还包括用于过滤所述各警报点的过滤器。16. 根据权利要求15所述的系统,还包括用于存储过滤规则的...

【专利技术属性】
技术研发人员:马诺杰阿加沃尔马尼什格普塔莉莉B马默特苏加塔戈萨尔维杰伊曼尼科斯阿尼鲁西斯
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1