当前位置: 首页 > 专利查询>英特尔公司专利>正文

用于数据中心环境检查点设置的技术制造技术

技术编号:17367154 阅读:55 留言:0更新日期:2018-02-28 19:50
用于环境检查点设置的技术包括通信耦合到一个或多个工作计算节点的统筹节点。统筹节点配置成通过向已经向统筹节点登记的一个或多个工作计算节点中的每一个传输检查点初始化信号来管控环境检查点设置事件。每一个工作计算节点配置成暂停和缓冲任何目前执行的应用,保存检查点设置数据(一个或多个应用中的每一个的执行状态)并且向统筹节点传输检查点设置数据。描述和要求保护其它实施例。

A technique for setting up a checkpoint in a data center environment

The technology for setting up the checkpoint of the environment includes a co-ordinated node that is coupled to one or more work computing nodes. The overall node configuration is to set up events by controlling the environment checkpoints by initializing signals from each transmission checkpoint of one or more computing nodes that have been registered to the overall planning node. Each job computing node is configured to suspend and buffer any currently executed applications, save checkpoint settings data (one or more execution states of each state), and set up data to transmit checkpoints to the overall node. Other embodiments are described and required to be protected.

【技术实现步骤摘要】
【国外来华专利技术】用于数据中心环境检查点设置的技术相关美国专利申请的交叉引用本申请要求享有对2015年6月24日提交的题为“TECHNOLOGIESFORDATACENTERENVIRONMENTCHECKPOINTING”的美国技术专利申请序列号14/748,650的优先权。
技术介绍
诸如高性能计算(HPC)和云计算环境之类的许多大规模计算环境可以合并分布式或多层级应用和工作载荷。换言之,工作载荷的多于一个实例可以同时跨多个应用和/或计算设备(例如服务器)执行。崩溃或在处理这样的分布式工作载荷的进程中发生的其它错误可能导致应用状态的丢失并且因而可能要求重复大量的计算工作。因此,大规模计算环境中的崩溃可能代价相当高和耗时。一些HPC和云计算环境支持基于软件的应用检查点设置。典型的应用检查点设置解决方案纯粹是基于软件的,并且允许计算环境存储运行应用、虚拟机或非分布式或单层级计算环境中的工作载荷的状态的周期性快照(即检查点)。基于所保存的检查点,可以从所保存的检查点的状态开始重播或继续进行被暂停或中断的应用,这可以允许更快或不太昂贵的崩溃回复。然而,软件检查点设置支持可能要求针对每一个所支持的应用和/或操作系统而再加工检查点设置软件。另外,这样的基于软件的检查点设置解决方案(例如超级监督器、虚拟机监视器等)典型地取决于单层级或非分布式环境的各种因素,诸如厂商、操作系统、虚拟机类型、应用等。附图说明通过示例的方式而不是通过限制的方式在附图中图示本文所描述的概念。为了图示的简单和清楚,在图中图示的元件未必按照比例绘制。在被视为适当的情况下,已经在各图之中重复参考标记以指示对应或类似的元件。图1是用于支持数据中心环境检查点设置的系统的至少一个实施例的简化框图,所述系统包括统筹节点和工作计算节点;图2是图1的系统的计算节点的至少一个实施例的简化框图;图3是可以由图1的统筹节点建立的环境的至少一个实施例的简化框图;图4是可以由图2的附加计算节点中的至少一个建立的环境的至少一个环境的简化框图;图5是可以由图4的工作计算节点中的一个或多个执行的用于初始化分布式应用的方法的至少一个实施例的简化流程图;图6是可以由图3的统筹节点执行的用于管控环境检查点设置事件的方法的至少一个实施例的简化流程图;图7是可以由图4的工作计算节点中的一个或多个执行的用于执行检查点设置事件的方法的至少一个实施例的简化流程图;以及图8是可以由图4的工作计算节点中的一个或多个执行的用于执行环境恢复事件的方法的至少一个实施例的简化流程图。具体实施方式虽然本公开的概念容许各种修改和替换形式,但是已经通过示例的方式在附图中示出其具体实施例,并且将在本文中对其进行详细描述。然而,应当理解到,不存在将本公开的概念限制到所公开的特定形式的意图,而是相反,意图是覆盖与本公开和随附权利要求一致的所有修改、等同物和替换物。在说明书中对“一个实施例”、“实施例”、“说明性实施例”等的引用指示所描述的实施例可以包括特定特征、结构或特性,但是每一个实施例可以或可以不必包括该特定特征、结构或特性。而且,这样的短语未必都是指相同的实施例。另外,当结合实施例描述特定特征、结构或特性时,主张结合其它实施例实现这样的特征、结构或特性在本领域技术人员的知识内,无论是否进行明确描述。此外,应当领会到,以“A、B和C中的至少一个”的形式的列表中所包括的项目可以意指(A);(B);(C);(A和B);(A和C);(B和C)或(A,B和C)。类似地,以“A、B或C中的至少一个”的形式列出的项目可以意指(A);(B);(C);(A和B);(A和C);(B和C)或(A,B和C)。在一些情况下,可以在硬件、固件、软件或其任何组合中实现所公开的实施例。所公开的实施例还可以实现为由一个或多个暂时性或非暂时性机器可读(例如计算机可读)存储介质承载或存储在其上的指令,所述指令可以由一个或多个处理器读取和执行。机器可读存储介质可以体现为任何存储设备、机构或用于以由机器可读的形式存储或传输信息的其它物理结构(例如易失性或非易失性存储器、介质盘或其它介质设备)。在图中,可能以特定布置和/或次序示出一些结构或方法特征。然而,应当领会到,这样的特定布置和/或次序可能不是必需的。而是,在一些实施例中,这样的特征可以以与说明性图中所示出的不同的方式和/或次序布置。此外,结构或方法特征在特定图中的包括不意在暗示这样的特征在所有的实施例中都是必需的,并且在一些实施例中可以不被包括或可以与其它特征组合。现在参照图1,在说明性实施例中,用于数据中心环境检查点设置的系统100包括经由计算环境114中的背板管理控制器112通信耦合的多个计算节点102。所述多个计算节点102中的每一个能够执行一个或多个应用或服务并且对检查点设置事件进行响应。说明性计算节点102包括用于管理资源(例如中央处理单元(CPU)资源、存储资源、网络资源)和/或跨向统筹节点104登记的工作计算节点110(例如,说明性地,计算节点106、108)分布工作载荷的统筹节点104。说明性工作计算节点110包括第一计算节点(其被指派为计算节点(1)106)和第二计算节点(其被指派为计算节点(N)108)(即工作计算节点110中的“第N”计算节点,其中“N”是正整数并且指派向统筹节点104登记的一个或多个附加计算节点110)。所述多个计算节点102中的每一个能够执行一个或多个应用,并且包括能够支持检查点设置的硬件(即硬件辅助的检查点设置支持)。硬件检查点设置支持可以允许相比于仅软件实现方式的改进的检查点设置性能、可靠性和可缩放性。此外,由于硬件检查点设置可以对执行应用是透明的,因此可以为现有应用提供检查点设置支持而不要求底层软件的再加工(例如修改代码、重编译代码等)。统筹节点104附加地配置成管控环境检查点设置事件。为此,在使用中,统筹节点104向工作计算节点110提供经由背板管理控制器112分布的检查点初始化信号。接收检查点初始化信号的工作计算节点110中的每一个暂停目前在对应的工作计算节点110上运行的本地应用(即处理进程、线程、虚拟机等的工作载荷)的执行,使用硬件检查点支持来原子形式地(atomically)保存被暂停的应用的状态(即应用检查点设置数据),并且向统筹节点104传输回应用检查点设置数据。统筹节点104然后整合从工作计算节点110中的每一个接收的应用检查点设置数据,并且当已经从所有工作计算节点110接收到应用检查点设置数据后,向工作计算节点110提供检查点完成信号以向工作计算节点110指示它们可以继续进行之前暂停的应用的执行。虽然将计算节点102中的一个指派为统筹节点104,但是应当领会到,计算环境114的工作计算节点110中的任何一个(即说明性地,计算节点106或计算节点108)可以能够作为统筹节点104来执行,诸如在所指派的统筹节点104故障的情况下。照此,计算环境114的任何计算节点102可以被指派为“统筹”节点,并且在随后描述中这样称谓。在一些实施例中,所述多个计算节点102和背板管理控制器112(即计算环境114)可以配置在物理外壳中,所述物理外壳促进计算节点102与背板管理控制器112之间的通信使能连接。例如,物理外壳可以是机架安装配置中的机本文档来自技高网...
用于数据中心环境检查点设置的技术

【技术保护点】
一种用于执行检查点设置事件的计算节点,所述计算节点包括:从通信耦合到计算节点的统筹节点接收检查点初始化信号的硬件事件监视器;检查点管理模块,用于(i)响应于已经接收到检查点初始化信号而暂停目前在计算节点上执行的一个或多个应用,以及(ii)通过输入/输出(I/O)缓冲设备缓冲一个或多个所暂停的应用的输入/输出(I/O)信号;以及将检查点设置数据保存到计算节点的存储器存储设备的硬件检查点支持,其中检查点设置数据包括所述一个或多个应用中的每一个的执行状态,其中检查点管理模块还向统筹节点传输检查点设置数据。

【技术特征摘要】
【国外来华专利技术】2015.06.24 US 14/7486501.一种用于执行检查点设置事件的计算节点,所述计算节点包括:从通信耦合到计算节点的统筹节点接收检查点初始化信号的硬件事件监视器;检查点管理模块,用于(i)响应于已经接收到检查点初始化信号而暂停目前在计算节点上执行的一个或多个应用,以及(ii)通过输入/输出(I/O)缓冲设备缓冲一个或多个所暂停的应用的输入/输出(I/O)信号;以及将检查点设置数据保存到计算节点的存储器存储设备的硬件检查点支持,其中检查点设置数据包括所述一个或多个应用中的每一个的执行状态,其中检查点管理模块还向统筹节点传输检查点设置数据。2.权利要求1所述的计算节点,其中检查点管理模块还响应于已经接收到检查点初始化信号而锁定所述计算节点的上下文以阻止由所述计算节点接收的任何新数据被所述计算节点处理。3.权利要求2所述的计算节点,其中硬件事件监视器还通过硬件事件监视器从统筹节点接收检查点完成信号,并且其中检查点管理模块还响应于已经接收到检查点完成信号而继续进行一个或多个所暂停的应用。4.权利要求3所述的计算节点,其中继续进行一个或多个所暂停的应用包括(i)解锁所述计算节点的上下文以允许任何新数据由所述计算节点接收,以及(ii)从输入/输出(I/O)缓冲设备释放所述一个或多个应用的输入/输出(I/O)信号。5.权利要求1所述的计算节点,其中检查点管理模块还向统筹节点登记,其中登记包括提供检查点设置事件要由统筹节点发起的指示。6.权利要求5所述的计算节点,其中检查点管理模块还(i)从统筹节点接收环境检查点设置数据,其中环境检查点设置数据包括通信耦合到统筹节点的其它计算节点的执行状态数据,以及(ii)在本地储存部中存储环境检查点设置数据。7.权利要求6所述的计算节点,其中检查点管理模块还从统筹节点接收检查点恢复信号,其中硬件检查点支持还向所述计算节点的存储器中加载所述一个或多个应用中的至少一个的所保存的执行状态,并且其中检查点管理模块还从加载到存储器中的所保存的执行状态继续进行所述一个或多个应用中的所述至少一个的执行。8.权利要求7所述的计算节点,其中加载所保存的执行状态包括至少部分地基于环境检查点设置数据而加载所保存的执行状态。9.权利要求1所述的计算节点,其中检查点管理模块还使用由所述计算节点发起的主线程执行分布式应用,其中保存检查点设置数据包括保存分布式应用的执行状态,并且其中执行状态指示分布式应用的虚拟存储器状态。10.权利要求9所述的计算节点,其中检查点管理模块还(i)响应于所述一个或多个应用中的第一应用滞后于主线程的确定而在所述计算节点的存储器中保存对应于第一应用的存储器页,以及(ii)响应于所述一个或多个应用中的第二应用在主线程之前工作的确定而清除对应于第二应用的存储器中的存储器页。11.权利要求1所述的计算节点,其中缓冲一个或多个所暂停的应用的输入/输出(I/O)信号包括缓冲以下中的至少一个:存储器访问事件、盘访问事件和网络访问事件。12.一种用于执行检查点设置事件的方法,所述方法包括:通过计算节点的硬件事件监视器从通信耦合...

【专利技术属性】
技术研发人员:I柳邦西克RA吉里
申请(专利权)人:英特尔公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1