System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于云计算、云底座技术、云平台高可用领域,尤其涉及一种基于资源碎片整理的云平台高可用系统及方法。
技术介绍
1、云计算凭借其最小化基础设施资源成本,以及允许服务根据当前的需求扩大或缩小的弹性属性,已经成为了全球范围内支持商业和政府计算的关键计算基础设施。随着云计算市场逐渐扩大、业务增多,客户对云服务能力的需求也在增加,云服务商面临的挑战也随之增大。
2、云服务商的角度来看,要交付满足服务水平协议(sla)中定义的所有需求的云服务,需要克服许多挑战。高可用性(high availability,ha)一直是服务商面临的最大挑战之一。云服务应该总是通过互联网随时可访问和可用。在云环境中,云资源的持续可用性是云服务商和消费者都关心的主要问题。
3、可用性是在某个考察时间,系统能够正常运行的概率或时间占有率期望值。在云服务中,高可用性是指在一个或多个硬件或软件组件发生故障后,云服务持续运行的能力。
4、而云服务涉及的宿主机总多、网络复杂、服务节点分散,软硬件以及网络故障的发生存在可能性。一旦宿主机发生故障,运行在该主机上的虚拟机就存在停机中断风险,而且停机的影响随着在一台物理机器上运行的服务数量的增加而呈指数增长。在未配备高可用服务的情况下,宿主机故障要交由运维人员处理,响应时间、人为判断、处理时间都是增大虚拟机停机时间的因素。甚至运维人员的误操作,将给云服务带来更严重的影响。因此,高可用服务是云计算服务不可缺少的能力。
5、ha的功能是将故障节点上的云主机全部转移到其余健康节点
6、本专利提出了一种基于资源碎片整理的云平台高可用架构,快速判断故障情况,在云主机迁移前判断资源占用情况,依据资源占用情况进行资源碎片整理、预留资源启用,以确保有足够的资源承载故障节点云主机,提升云主机恢复成功率,将宿主机故障的影响降低到最小,保证云平台的高可用性。
技术实现思路
1、本专利技术所要解决的技术问题是针对
技术介绍
的不足提供本专利技术提供了一种基于资源碎片整理的云平台高可用系统及方法,本专利提出的云主机故障恢复前的资源核查、资源碎片整理、预留资源启用,对提高云平台、云服务的可用性有巨大作用。
2、本专利技术为解决上述技术问题采用以下技术方案:
3、一种基于资源碎片整理的云平台高可用系统,包含故障检测模块、故障诊断模块、故障响应模块、资源处理模块、云主机恢复模块;
4、其中,故障检测模块,用于负责检测、监听宿主机各类异常情况;
5、故障诊断模块,用于接收到故障检测信息后,对故障进行分类判定;
6、故障响应模块,用于根据故障分类执行相应的行为;
7、资源处理模块,用于通过资源碎片整理以及预留资源启用,发起云主机恢复流程;
8、云主机恢复模块,用于执行云主机恢复,统计汇报云主机恢复结果。
9、作为本专利技术一种基于资源碎片整理的云平台高可用系统的进一步优选方案,宿主机各类异常情况包括宿主机网络心跳是否正常、电源状态、硬件故障、内核故障、磁盘故障。
10、作为本专利技术一种基于资源碎片整理的云平台高可用系统的进一步优选方案,所述故障诊断模块,用于接收到故障检测信息后,对故障进行分类判定,具体包含如下步骤:
11、步骤1.1,对节点进行二次检测;
12、步骤1.2,检测同一节点是否存在多个故障情况,若存在,记录最严重故障;
13、步骤1.3,确定节点故障后对节点进行故障分类并标记,触发响应流程。
14、作为本专利技术一种基于资源碎片整理的云平台高可用系统的进一步优选方案,在步骤1.1中,对节点进行二次检测包含网络连通性测试ping或者到节点上执行健康检查。
15、作为本专利技术一种基于资源碎片整理的云平台高可用系统的进一步优选方案,所述故障响应模块,用于根据故障分类执行相应的行为,具体流程如下:
16、步骤2.1,获取故障节点列表,并将计算节点的计算服务禁用disable;不让新的云主机机调度到该节点上;
17、步骤2.2,根据节点不同的故障,对节点执行不同的隔离操作,并设置虚拟机恢复操作:疏散:通过基板管理控制器bmc对该节点进行关机;
18、热迁/冷迁:无需对节点进行隔离;
19、步骤2.3,将故障的计算节点上处于开机状态active或者关机状态shutdown的虚拟机加入恢复队列,并标记对应的恢复操作;
20、步骤2.4,唤起资源处理流程。
21、作为本专利技术一种基于资源碎片整理的云平台高可用系统的进一步优选方案,在步骤2.3中,恢复操作包含热迁,冷迁,疏散。
22、作为本专利技术一种基于资源碎片整理的云平台高可用系统的进一步优选方案,所述资源处理模块,在明确云主机恢复策略以及需要恢复的云主机后,资源处理模块步骤如下:
23、步骤3.1,根据云主机恢复列表,统计相同类型云主机剩余资源,包含cpu以及内存;
24、步骤3.2,剩余资源若无法满足云主机创建需求,则进入资源碎片整理;
25、步骤3.3,若碎片整理仍然无法满足,云主机迁移需求,则启用预留资源。
26、作为本专利技术一种基于资源碎片整理的云平台高可用系统的进一步优选方案,所述步骤3.2具体如下:
27、步骤3.21,输入参数为云主机恢复列表的资源情况n为每个云主机的规格,包括cpu以及内存;每个宿主机节点的资源分布情况r,以及每个节点剩余资源
28、步骤3.22,遍历全部满足以下条件的,云主机热迁移方案;条件为若干个节点的剩余资源能够承载全部需要迁移的云主机;每个节点剩余资源会随着热迁移方案而变动;热迁移方案包含具体云主机,从哪个节点迁移到哪个节点;
29、
30、...
31、
32、根据迁移方案,结合成本核算,选择成本最小的方案作为实际碎片整理的方案;其中s为总迁移次数,m为迁移涉及的节点数,r为总迁移资源;
33、c=s+m*0.75+r*0.01。
34、作为本专利技术一种基于资源碎片整理的云平台高可用系统的进一步优选方案,所述云主机机恢复模块,具体包含如下步骤;
35、步骤4.1,判断az中是否还有足够资源,如果资源不够,则将虚拟机移除恢复队列,并告警;
36、步骤4.2,根据虚拟机优先级,对虚拟机进行有序的恢复;
37、步骤4.3,等待故障节点上所有虚拟机恢复完成;
38、步骤4.4,如果虚拟机恢复过程中,原节点故障升级,需要中止当前的恢复任务,并重新进入隔离流程;
39、步骤4.5,如果虚拟机恢复过程中,目标节点发生故障,需要中止当前的恢复任务,清理目标节点的资源,重新对虚拟机执行本文档来自技高网...
【技术保护点】
1.一种基于资源碎片整理的云平台高可用系统,其特征在于:包含故障检测模块、故障诊断模块、故障响应模块、资源处理模块、云主机恢复模块;
2.根据权利要求1所述的一种基于资源碎片整理的云平台高可用系统,其特征在于:宿主机各类异常情况包括宿主机网络心跳是否正常、电源状态、硬件故障、内核故障、磁盘故障。
3.根据权利要求1所述的一种基于资源碎片整理的云平台高可用系统,其特征在于:所述故障诊断模块,用于接收到故障检测信息后,对故障进行分类判定,具体包含如下步骤:
4.根据权利要求3所述的一种基于资源碎片整理的云平台高可用系统,其特征在于:在步骤1.1中,对节点进行二次检测包含网络连通性测试ping或者到节点上执行健康检查。
5.根据权利要求1所述的一种基于资源碎片整理的云平台高可用系统,其特征在于:所述故障响应模块,用于根据故障分类执行相应的行为,具体流程如下:
6.根据权利要求1所述的一种基于资源碎片整理的云平台高可用系统,其特征在于:在步骤2.3中,恢复操作包含热迁,冷迁,疏散。
7.根据权利要求1所述的一种基于资
8.根据权利要求7所述的一种基于资源碎片整理的云平台高可用系统,其特征在于:所述步骤3.2具体如下:
9.根据权利要求1所述的一种基于资源碎片整理的云平台高可用系统,其特征在于:所述云主机机恢复模块,具体包含如下步骤;
10.一种基于权利要求1至9任一项所述的资源碎片整理的云平台高可用系统的方法,其特征在于:具体实施步骤如下:
...【技术特征摘要】
1.一种基于资源碎片整理的云平台高可用系统,其特征在于:包含故障检测模块、故障诊断模块、故障响应模块、资源处理模块、云主机恢复模块;
2.根据权利要求1所述的一种基于资源碎片整理的云平台高可用系统,其特征在于:宿主机各类异常情况包括宿主机网络心跳是否正常、电源状态、硬件故障、内核故障、磁盘故障。
3.根据权利要求1所述的一种基于资源碎片整理的云平台高可用系统,其特征在于:所述故障诊断模块,用于接收到故障检测信息后,对故障进行分类判定,具体包含如下步骤:
4.根据权利要求3所述的一种基于资源碎片整理的云平台高可用系统,其特征在于:在步骤1.1中,对节点进行二次检测包含网络连通性测试ping或者到节点上执行健康检查。
5.根据权利要求1所述的一种基于资源碎片整理的云平台高可用系统,其特征在于...
【专利技术属性】
技术研发人员:吴文昊,陈鑫,张帆,康亮,王庆兆,韩晓鹏,
申请(专利权)人:天翼云科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。