The technology for setting up the checkpoint of the environment includes a co-ordinated node that is coupled to one or more work computing nodes. The overall node configuration is to set up events by controlling the environment checkpoints by initializing signals from each transmission checkpoint of one or more computing nodes that have been registered to the overall planning node. Each job computing node is configured to suspend and buffer any currently executed applications, save checkpoint settings data (one or more execution states of each state), and set up data to transmit checkpoints to the overall node. Other embodiments are described and required to be protected.
【技术实现步骤摘要】
【国外来华专利技术】用于数据中心环境检查点设置的技术相关美国专利申请的交叉引用本申请要求享有对2015年6月24日提交的题为“TECHNOLOGIESFORDATACENTERENVIRONMENTCHECKPOINTING”的美国技术专利申请序列号14/748,650的优先权。
技术介绍
诸如高性能计算(HPC)和云计算环境之类的许多大规模计算环境可以合并分布式或多层级应用和工作载荷。换言之,工作载荷的多于一个实例可以同时跨多个应用和/或计算设备(例如服务器)执行。崩溃或在处理这样的分布式工作载荷的进程中发生的其它错误可能导致应用状态的丢失并且因而可能要求重复大量的计算工作。因此,大规模计算环境中的崩溃可能代价相当高和耗时。一些HPC和云计算环境支持基于软件的应用检查点设置。典型的应用检查点设置解决方案纯粹是基于软件的,并且允许计算环境存储运行应用、虚拟机或非分布式或单层级计算环境中的工作载荷的状态的周期性快照(即检查点)。基于所保存的检查点,可以从所保存的检查点的状态开始重播或继续进行被暂停或中断的应用,这可以允许更快或不太昂贵的崩溃回复。然而,软件检查点设置支持可能要求针对每一个所支持的应用和/或操作系统而再加工检查点设置软件。另外,这样的基于软件的检查点设置解决方案(例如超级监督器、虚拟机监视器等)典型地取决于单层级或非分布式环境的各种因素,诸如厂商、操作系统、虚拟机类型、应用等。附图说明通过示例的方式而不是通过限制的方式在附图中图示本文所描述的概念。为了图示的简单和清楚,在图中图示的元件未必按照比例绘制。在被视为适当的情况下,已经在各图之中重复参考标记以指示对应或类似的元 ...
【技术保护点】
一种用于执行检查点设置事件的计算节点,所述计算节点包括:从通信耦合到计算节点的统筹节点接收检查点初始化信号的硬件事件监视器;检查点管理模块,用于(i)响应于已经接收到检查点初始化信号而暂停目前在计算节点上执行的一个或多个应用,以及(ii)通过输入/输出(I/O)缓冲设备缓冲一个或多个所暂停的应用的输入/输出(I/O)信号;以及将检查点设置数据保存到计算节点的存储器存储设备的硬件检查点支持,其中检查点设置数据包括所述一个或多个应用中的每一个的执行状态,其中检查点管理模块还向统筹节点传输检查点设置数据。
【技术特征摘要】
【国外来华专利技术】2015.06.24 US 14/7486501.一种用于执行检查点设置事件的计算节点,所述计算节点包括:从通信耦合到计算节点的统筹节点接收检查点初始化信号的硬件事件监视器;检查点管理模块,用于(i)响应于已经接收到检查点初始化信号而暂停目前在计算节点上执行的一个或多个应用,以及(ii)通过输入/输出(I/O)缓冲设备缓冲一个或多个所暂停的应用的输入/输出(I/O)信号;以及将检查点设置数据保存到计算节点的存储器存储设备的硬件检查点支持,其中检查点设置数据包括所述一个或多个应用中的每一个的执行状态,其中检查点管理模块还向统筹节点传输检查点设置数据。2.权利要求1所述的计算节点,其中检查点管理模块还响应于已经接收到检查点初始化信号而锁定所述计算节点的上下文以阻止由所述计算节点接收的任何新数据被所述计算节点处理。3.权利要求2所述的计算节点,其中硬件事件监视器还通过硬件事件监视器从统筹节点接收检查点完成信号,并且其中检查点管理模块还响应于已经接收到检查点完成信号而继续进行一个或多个所暂停的应用。4.权利要求3所述的计算节点,其中继续进行一个或多个所暂停的应用包括(i)解锁所述计算节点的上下文以允许任何新数据由所述计算节点接收,以及(ii)从输入/输出(I/O)缓冲设备释放所述一个或多个应用的输入/输出(I/O)信号。5.权利要求1所述的计算节点,其中检查点管理模块还向统筹节点登记,其中登记包括提供检查点设置事件要由统筹节点发起的指示。6.权利要求5所述的计算节点,其中检查点管理模块还(i)从统筹节点接收环境检查点设置数据,其中环境检查点设置数据包括通信耦合到统筹节点的其它计算节点的执行状态数据,以及(ii)在本地储存部中存储环境检查点设置数据。7.权利要求6所述的计算节点,其中检查点管理模块还从统筹节点接收检查点恢复信号,其中硬件检查点支持还向所述计算节点的存储器中加载所述一个或多个应用中的至少一个的所保存的执行状态,并且其中检查点管理模块还从加载到存储器中的所保存的执行状态继续进行所述一个或多个应用中的所述至少一个的执行。8.权利要求7所述的计算节点,其中加载所保存的执行状态包括至少部分地基于环境检查点设置数据而加载所保存的执行状态。9.权利要求1所述的计算节点,其中检查点管理模块还使用由所述计算节点发起的主线程执行分布式应用,其中保存检查点设置数据包括保存分布式应用的执行状态,并且其中执行状态指示分布式应用的虚拟存储器状态。10.权利要求9所述的计算节点,其中检查点管理模块还(i)响应于所述一个或多个应用中的第一应用滞后于主线程的确定而在所述计算节点的存储器中保存对应于第一应用的存储器页,以及(ii)响应于所述一个或多个应用中的第二应用在主线程之前工作的确定而清除对应于第二应用的存储器中的存储器页。11.权利要求1所述的计算节点,其中缓冲一个或多个所暂停的应用的输入/输出(I/O)信号包括缓冲以下中的至少一个:存储器访问事件、盘访问事件和网络访问事件。12.一种用于执行检查点设置事件的方法,所述方法包括:通过计算节点的硬件事件监视器从通信耦合...
【专利技术属性】
技术研发人员:I柳邦西克,RA吉里,
申请(专利权)人:英特尔公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。