一种提升k8s集群稳定性的配置方法、装置及其存储介质制造方法及图纸

技术编号:37124494 阅读:19 留言:0更新日期:2023-04-01 05:20
本发明专利技术公开了一种提升k8s集群稳定性的配置方法、装置及其存储介质,涉及云平台优化技术领域,包括步骤:收集并上报k8s集群注入系统进行稳定性验证过程中发生的故障事件信息,并根据故障类型进行筛选记录;根据故障类型将目标故障投放至对应分类的故障模拟集群,运行各故障模拟集群进行故障模拟回放;根据模拟回放过程中累计得到的集群故障稳定性报告生成集群故障分布模型;根据集群故障分布模型生成稳定性保障推荐策略;下发稳定性保障推荐策略至相应故障模拟集群进行资源和配置的调整。本发明专利技术通过对故障事件的采集及上报,并通过分析集群故障分步模型进行稳定性保证推荐策略的更新,从而对集群进行资源与配置的快速自动化调整。整。整。

【技术实现步骤摘要】
一种提升k8s集群稳定性的配置方法、装置及其存储介质


[0001]本专利技术涉及云平台优化
,具体涉及一种提升k8s集群稳定性的配置方法、装置及其存储介质。

技术介绍

[0002]故障注入是一种可靠性验证技术,通过受控实验向系统中刻意引入故障,并观察系统中存在故障时的行为,其中Kubernetes(简称k8s,用8代替名字中间的8个字符“ubernete”)集群故障注入技术通过基于硬件的故障注入和基于软件的故障注入的混合故障注入技术来实现,通过对如集群所在宿主机的硬件资源、网络等注入故障,以及对集群内的容器服务等软件注入故障来体现。然而,现有的一些Kubernetes集群管理技术中,很多仅仅只通过故障注入的能力做到故障演练,但演练过后的数据更多是作为人为参考来调整Kubernetes集群的配置,缺乏集群调整的高效灵活性和资源配置的准确性。

技术实现思路

[0003]为提高Kubernetes集群配置的灵活性和准确性,减少对人为配置的依赖,本专利技术提出了一种提升k8s集群稳定性的配置方法,包括步骤:S1:收集并上报k8s集群注入系统进行稳定性验证过程中发生的故障事件信息,并根据故障类型进行筛选记录;S2:根据故障类型将目标故障投放至对应分类的故障模拟集群,运行各故障模拟集群进行故障模拟回放;S3:根据模拟回放过程中累计得到的集群故障稳定性报告生成集群故障分布模型;S4:根据集群故障分布模型生成稳定性保障推荐策略;S5:下发稳定性保障推荐策略至相应故障模拟集群进行资源和配置的调整。
[0004]进一步地,所述k8s集群中含有若干根据故障类型进行分类的故障模拟集群。
[0005]进一步地,所述S1步骤中,故障事件信息包括故障发生时间、集群节点配置、CPU、内存、磁盘、容器数量、网络带宽和故障类型。
[0006]进一步地,所述S3步骤中,集群故障稳定性报告包括集群配置信息和稳定性信息两部分内容。
[0007]进一步地,所述集群配置信息包括:集群控制节点数、集群计算节点数、节点操作系统、CPU大小、内存大小、集群网络带宽配置、集群磁盘容量及数量、集群实时资源占用情况。
[0008]进一步地,所述稳定性信息包括:故障发生时间、故障类型、故障发生频率、故障发生范围。
[0009]进一步地,所述S3步骤中,集群故障分布模型通过生成对抗网络学习方法构建集群配置信息、稳定性信息与集群稳定性配置策略间的映射获得。
[0010]进一步地,所述S4步骤中,稳定性保障推荐策略的获取方式为:通过强化学习算法优化配置推荐指标,并通过故障模拟演练方式不断验证配置推荐策略。
[0011]进一步地,所述S3步骤中, 若是故障模拟回放中产生了新的故障事件,还包括步骤:S31:上报新的故障时间至管理端,并加入模拟故障候选列表。
[0012]进一步地,所述S3步骤中,故障模拟回放前还可通过手动加入的方式在故障模拟集群加入同分类的自定义模拟故障。
[0013]本专利技术还提出了一种提升k8s集群稳定性的配置装置,包括:故障筛选模块,用于收集并上报k8s集群注入系统进行稳定性验证过程中发生的故障事件信息,并根据故障类型进行筛选记录;模拟回放模块,用于根据故障类型将目标故障投放至对应分类的故障模拟集群,运行各故障模拟集群进行故障模拟回放;模型训练模块,用于根据模拟回放过程中累计得到的集群故障稳定性报告生成集群故障分布模型;策略更新模块,用于根据集群故障分布模型生成稳定性保障推荐策略;策略下发模块,用于下发稳定性保障推荐策略至相应故障模拟集群进行资源和配置的调整。
[0014]进一步地,所述模型训练模块中,集群故障稳定性报告包括集群配置信息和稳定性信息两部分内容。
[0015]进一步地,所述集群配置信息包括:集群控制节点数、集群计算节点数、节点操作系统、CPU大小、内存大小、集群网络带宽配置、集群磁盘容量及数量、集群实时资源占用情况。
[0016]进一步地,所述稳定性信息包括:故障发生时间、故障类型、故障发生频率、故障发生范围。
[0017]进一步地,所述模型训练模块中,集群故障分布模型通过生成对抗网络学习方法构建集群配置信息、稳定性信息与集群稳定性配置策略间的映射获得。
[0018]进一步地,所述策略更新模块中,稳定性保障推荐策略的获取方式为:通过强化学习算法优化配置推荐指标,并通过故障模拟演练方式不断验证配置推荐策略。
[0019]进一步地,所述模型训练模块中, 若是故障模拟回放中产生了新的故障事件,还包括故障候选模块,用于上报新的故障时间至管理端,并加入模拟故障候选列表。
[0020]进一步地,所述模拟回放模块中,故障模拟回放前还可通过手动加入的方式在故障模拟集群加入同分类的自定义模拟故障。
[0021]本专利技术还包括一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上文所述配置方法的步骤。
[0022]本专利技术还包括一种处理数据的装置,包括:储存器,其上存储有计算机程序;处理器,用于执行所述存储器中的所述计算机程序,以实现上文所述配置方法的步骤。
[0023]与现有技术相比,本专利技术至少含有以下有益效果:
(1)本专利技术所述的一种提升k8s集群稳定性的配置方法、装置及其存储介质,在基础Kubernetes集群注入的情况下,通过对故障事件的采集及上报,并通过分析集群故障分步模型进行稳定性保证推荐策略的更新,从而对集群进行资源与配置的快速自动化调整;(2)提升Kubernetes集群的稳定性验收覆盖率,将出现过的Kubernetes集群故障自动记录并生成故障模拟场景进行回归;(3)构建Kubernetes应用集群稳定性配置策略推荐模型,针对某些特定类型需要提供带宽、节点或存储空间等资源以及容器编排和网络编排等配置进行更精确的稳定性配置的集群,提供重要参考数据基础。
附图说明
[0024]图1为一种提升k8s集群稳定性的配置方法的步骤示意图;图2为一种提升k8s集群稳定性的配置装置的模块示意图。
具体实施方式
[0025]以下是本专利技术的具体实施例并结合附图,对本专利技术的技术方案作进一步的描述,但本专利技术并不限于这些实施例。
[0026]实施例一考虑到常规的Kubernetes集群故障演练通常涉及多个应用程序间的交互、演练步骤复杂,对于测试运维人员来说演练场景设计及准确模拟难度大、效率低,且高频场景无法保证覆盖。本专利技术提出了一种提升k8s集群稳定性的配置方法,应用于边缘容器集群ECK中,通过生成的推荐配置策略下发到对应的Kubernetes集群进行调整,满足精准调整资源分配和容器及网络编排方式,使资源利用率最大合理化,可以ECK用户使用最低的成本享受最稳定的集群运行保障服务,如图1所示,其具体包括如下步骤:S1:收集并上报k8s集群注入系统进行稳定性验证过程中发生的故障事件信息,并根据故障类型进行筛选记录;S2:根据故障类型将目标故障投放至对应分类的故障模拟集群,运行各故障模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种提升k8s集群稳定性的配置方法,所述k8s为Kubernetes的简称,其特征在于,包括步骤:S1:收集并上报k8s集群注入系统进行稳定性验证过程中发生的故障事件信息,并根据故障类型进行筛选记录;S2:根据故障类型将目标故障投放至对应分类的故障模拟集群,运行各故障模拟集群进行故障模拟回放;S3:根据模拟回放过程中累计得到的集群故障稳定性报告生成集群故障分布模型;S4:根据集群故障分布模型生成稳定性保障推荐策略;S5:下发稳定性保障推荐策略至相应故障模拟集群进行资源和配置的调整。2.如权利要求1所述的一种提升k8s集群稳定性的配置方法,其特征在于,所述k8s集群中含有若干根据故障类型进行分类的故障模拟集群。3.如权利要求1所述的一种提升k8s集群稳定性的配置方法,其特征在于,所述S1步骤中,故障事件信息包括故障发生时间、集群节点配置、CPU、内存、磁盘、容器数量、网络带宽和故障类型。4.如权利要求1所述的一种提升k8s集群稳定性的配置方法,其特征在于,所述S3步骤中,集群故障稳定性报告包括集群配置信息和稳定性信息两部分内容。5.如权利要求4所述的一种提升k8s集群稳定性的配置方法,其特征在于,所述集群配置信息包括:集群控制节点数、集群计算节点数、节点操作系统、CPU大小、内存大小、集群网络带宽配置、集群磁盘容量及数量、集群实时资源占用情况。6.如权利要求4所述的一种提升k8s集群稳定性的配置方法,其特征在于,所述稳定性信息包括:故障发生时间、故障类型、故障发生频率、故障发生范围。7.如权利要求4所述的一种提升k8s集群稳定性的配置方法,其特征在于,所述S3步骤中,集群故障分布模型通过生成对抗网络学习方法构建集群配置信息、稳定性信息与集群稳定性配置策略间的映射获得。8.如权利要求1所述的一种提升k8s集群稳定性的配置方法,其特征在于,所述S4步骤中,稳定性保障推荐策略的获取方式为:通过强化学习算法优化配置推荐指标,并通过故障模拟演练方式不断验证配置推荐策略。9.如权利要求1所述的一种提升k8s集群稳定性的配置方法,其特征在于,所述S3步骤中, 若是故障模拟回放中产生了新的故障事件,还包括步骤:S31:上报新的故障时间至管理端,并加入模拟故障候选列表。10.如权利要求1所述的一种提升k8s集群稳定性的配置方法,其特征在于,所述S3步骤中,故障模拟回放前还可通过手动加入的方式在故障模拟集群加入同分类的自定义模拟故障。11.一种提升k8s集群稳定性的配置装置,所述k8s为Kube...

【专利技术属性】
技术研发人员:唐海群周伟衢陈晓霞郑玉麟刘芳程僚洪瀚思李嘉瑛
申请(专利权)人:天翼云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1