检测集群环境中动态工作负载调度的不平衡的系统和方法技术方案

技术编号：2827317 阅读：164 留言：0更新日期：2012-04-11 18:40

公开了一种用于检测动态调度的计算机服务器集群中的工作负载不平衡的方法、系统和计算机程序产品。一种这样的方法包括以下步骤：监视在每个所述计算机服务器的多个度量；检测在所述多个度量中的改变点；基于所述检测的改变点产生各警报点；将所述各警报点相关；并且基于所述相关的结果，识别一个或多个导致工作负载不平衡的所述计算机服务器。还公开了用于实践上述方法的系统和计算机程序产品。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及在动态调度的基于集群的环境中对工作负载(workload)不平衡的检测，并且更具体地，涉及对所述不平衡负责的集群成员的识別。
技术介绍
在基于集群的应用处理环境(通常称为应用服务器)中的工作负载调度，通常基于加权循环(round robin )执行。典型地，当创建该集群时将路由权重静态地分配给各种后端(backend)服务器。在更近的应用服务器中，基于被监视的各运行时度量(metric)动态地分配各路由权重。当分配各路由权重给那些服务器时，动态工作负载调度通常考虑各度量，如特定服务器上的 CPU使用和从那些服务器观察的响应时间。有时，由于在特定服务器上的应用中出现的故障、或由于外部情况(例如，切断(sever)的与数据库的网络连通性)，由于没有执行任何真正的工作，受影响的服务器可以开始快速地处理请求。与其它服务器相比，这可能导致来自该服务器的较低响应时间，这可以由工作负载管理器解释为速度和效率的标志。相应地，工作负载管理器可以给该受影响的服务器分配较高的路由权重，因此给该服务器指派甚至更多的请求，这将典型地导致越来越多的请求不正确地完成。该情况称为风暴排放沟道(Storm Drain),并且典型地由集群中的服务器之一的故障、而该集群中的其它服务器保持健康而导致。在名为 Detecting Application-Level Failures in Componet-based Internet Services、要发表在关于神经网络的IEEE学报关于通信网络中的自适应学习系统的特刊的论文(特邀论文)(2005年春季...

【技术保护点】
一种用于检测动态调度的计算机服务器集群中的工作负载不平衡的方法，所述方法包括以下步骤：　　　　监视在每个所述计算机服务器的多个度量；　　　　检测在所述多个度量中的改变点；　　　　基于所述检测的改变点产生各警报点；　　　　将所述各警报点相关；以及　　　　基于所述相关的结果，识别一个或多个导致工作负载不平衡的所述计算机服务器。

【技术特征摘要】
【国外来华专利技术】US 2005-7-14 11/181,3521.一种用于检测动态调度的计算机服务器集群中的工作负载不平衡的方法，所述方法包括以下步骤监视在每个所述计算机服务器的多个度量；检测在所述多个度量中的改变点；基于所述检测的改变点产生各警报点；将所述各警报点相关；以及基于所述相关的结果，识别一个或多个导致工作负载不平衡的所述计算机服务器。2. 根据权利要求1所述的方法，其中所述度量包括端到端系统度量。3. 根据权利要求1所述的方法，其中所述监视在每个所述计算机服务器的多个度量的步骤包括以下步骤以周期性的间隔，采样在每个所述计算机服务器的请求的累积响应时间；以及以周期性的间隔，采样动态分配给每个所述计算机服务器的路由权重。4. 根据权利要求1所述的方法，还包括以下步骤产生代表用于响应各请求的所述各计算机服务器的响应时间的时间序列数据；以及产生代表动态分配给所述各计算机服务器的路由权重的时间序列数据。5. 根据权利要求4所述的方法，还包括以下步骤检测正在减小的所述响应时间序列数据中的改变点；以及冲企测正在增加的所述路由权重时间序列数据中的改变点。6. 根据权利要求5所述的方法，还包括过滤所述各警报点的步骤。7. 根据权利要求6所述的方法，其中所述各警报点在定义的时间窗口中相关。8. 根据权利要求1所述的方法，还包括探查所述计算机服务器以确定所述计算机服务器是否正在正确地运行的步骤。9. 根据权利要求1或权利要求7所述的方法，还包括通知系统管理员出现风暴排放沟道(storm drain)情况的步骤。10. 根据权利要求9所述的方法，还包括至少一个从由下述各步骤组成的组中选择的自动步骤停止将各请求路由/调度到所述识别的 (各)计算机服务器；使所述识别的(各)计算机服务器停顿，以及复原所述识别的(各)计算机服务器。11. 一种用于检测动态调度的计算机服务器集群中的工作负载不平衡的系统，所述系统包括多个传感器，用于监视在每个所述计算机服务器的多个度量；改变点检测器，用于检测所述多个度量的改变，并基于所述检测的改变产生各警报点；相关引擎，用于将从所述多个度量产生的所述各警报点相关，并且基于所述相关的结果，识别一个或多个导致工作负载不平衡的所述计算机服务器。12. 根据权利要求11所述的系统，其中所述多个传感器适于以周期性的间隔，采样在每个所述计算机服务器的请求的累积响应时间；以及以周期性的间隔，采样动态分配给每个所述计算机服务器的路由权重。13. 根据权利要求11所述的系统，其中所述多个传感器适于产生代表用于响应各请求的所述各计算机服务器的响应时间的时间序列数据；以及产生代表动态分配给所述各计算机服务器的路由权重的时间序列数据。14. 根据权利要求13所述的系统，其中所述改变点检测器适于识别正在减小的所述响应时间序列数据中的改变点；以及识别正在增加的所述路由权重时间序列数据中的改变点。15. 根据权利要求11所述的系统，还包括用于过滤所述各警报点的过滤器。16. 根据权利要求15所述的系统，还包括用于存储过滤规则的...

【专利技术属性】
技术研发人员：马诺杰阿加沃尔，马尼什格普塔，莉莉B马默特，苏加塔戈萨尔，维杰伊曼，尼科斯阿尼鲁西斯，
申请(专利权)人：国际商业机器公司，
类型：发明
国别省市：US[美国]

全部详细技术资料下载我是这个专利的主人