一种基于马氏链和贝叶斯网络的k8s网络故障预测方法技术

技术编号:34888925 阅读:16 留言:0更新日期:2022-09-10 13:47
本发明专利技术公开了一种基于马氏链和贝叶斯网络的k8s网络故障预测方法,包括:在组网内的中央集群管理服务器上创建一个基于k8s的中央调度集群,部署相关节点、数据库和模型;构建使用固定流量阈值的基于马尔可夫链的网络预警模型,获得模型训练参数数据;构建基于贝叶斯的阈值预测模型,获得预测模型参数,阈值预测模型分析历史故障数据得出更符合当前业务特征的故障阈值代替马网络预警模型使用中的固定流量阈值,实现连续时间的k8s网络故障预测。本发明专利技术采用贝叶斯阈值预测模型调整监控阈值来解决马尔科夫链的网络预警模型稳态分布的方法不能实现对连续时间马尔科夫链的计算从而造成对网络预警模型预测失真的问题。造成对网络预警模型预测失真的问题。造成对网络预警模型预测失真的问题。

【技术实现步骤摘要】
一种基于马氏链和贝叶斯网络的k8s网络故障预测方法


[0001]本专利技术属于网络故障预警
,具体涉及一种基于马氏链和贝叶斯网络的k8s网络 故障预测方法。

技术介绍

[0002]随着数字化发展的逐渐深入,各单位的在运设备也在逐渐增加。相较于十年前,设备增 长了10~100倍,即便运维已经在从手工运维向工具运维和平台运维发展,但仍然无法满足当 前集群对运维管理要求及集群之间数据互通的高效处理。
[0003]机房运维场景下存在集群业务规模大,应用关系复杂,依赖层次多,排查问题困难的问 题,现有技术很难预测未来时间段内各集群网络流量趋势、运维压力的情况,无法实现多集 群中网络预警及分析。

技术实现思路

[0004]本专利技术所要解决的技术问题是针对上述现有技术的不足,提供一种基于马氏链和贝叶斯 网络的k8s网络故障预测方法,引入基于马尔科夫链的网络预警模型,通过该模型可更加智 能的预测集群未来时间段内的网络运行情况;并通过贝叶斯概率预测动态管理网络流量阈值, 来调整马尔科夫链的网络预警模型状态变化最终趋于平稳分布后对网络预警模型预测失真的 问题。
[0005]为实现上述技术目的,本专利技术采取的技术方案为:
[0006]一种基于马氏链和贝叶斯网络的k8s网络故障预测方法,包括:
[0007]步骤一、在组网内的中央集群管理服务器上创建一个基于k8s的中央调度集群,部署相 关节点、数据库和模型;
[0008]步骤二、构建使用固定流量阈值的基于马尔可夫链的网络预警模型,基于步骤一部署内 容获得模型训练参数数据;
[0009]步骤三、构建基于贝叶斯的阈值预测模型,基于步骤一部署内容获得预测模型参数,阈 值预测模型分析历史故障数据得出更符合当前业务特征的故障阈值代替马网络预警模型使用 中的固定流量阈值,实现连续时间的k8s网络故障预测。
[0010]为优化上述技术方案,采取的具体措施还包括:
[0011]上述的步骤一在组网内的中央集群管理服务器上创建一个基于k8s的中央调度集群;
[0012]在中央集群管理服务器上部署主节点Master和历史故障数据库及阈值管理数据库;
[0013]在主节点Master通过k8s的API server在中央集群管理服务器上创建一个模型Node节点 和一个采集所有Pod网络流量数据的采集Node节点;
[0014]在采集Node节点部署采集数据库;
[0015]在模型节点上部署网络预警模型和阈值预测模型。
[0016]上述的步骤二包括:
[0017]S1、构建使用固定流量阈值的基于马尔可夫链的网络预警模型,其对应的马尔可夫转移 概率矩阵模型公式为:
[0018]X(k+1)=X(k)
×
P
[0019]式中:X(k)表示趋势分析与预测对象在t=k时刻的状态向量,P表示一步转移概率矩阵, X(k+1)表示趋势分析与预测对象在t=k+1时刻的状态向量;
[0020]S2、通过访问采集数据库和历史故障数据库获得参数生成矩形集合,所述参数包括固定 流量阈值下历史网络故障初始概率、本时段固定阈值下网络故障转移到非故障概率、本时段 固定阈值下非网络故障转移到故障概率;
[0021]S3、网络预警模型基于S2获取的固定流量阈值下历史网络故障初始概率、本时段固定阈 值下网络故障转移到非故障概率、本时段固定阈值下非网络故障转移到故障概率,得出下一 个时段阈值不变网络故障占采集数据占比、下一个时段阈值不变非网络故障占采集数据占比 和下一时段阈值不变情况下故障与非故障比例。
[0022]上述的S2中,具体参数获取方式为:
[0023]1)、固定流量阈值下历史网络故障初始概率=(N)/(N+C);
[0024]N=从历史故障数据库获取符合指定阈值条件的网络故障数据总条数;
[0025]C=从采集数据库获取符合指定阈值条件的网络采集数据总条数;
[0026]2)、本时段固定流量阈值下网络故障转移到非故障概率=|(S%

H%)|x本时间段内采 集总条数/S;
[0027]H%=从历史故障数据库获取本时间段内符合指定阈值条件的网络故障数据总条数/本时 间段内采集总条数;
[0028]S%=从采集数据库获取本时间段内符合指定阈值条件的发生且故障未恢复的网络采集数 据总条数/本时间段内采集总条数;
[0029]S=本时间段内故障未恢复数据总条数;
[0030]3)、本时段固定流量阈值下非网络故障转移到故障概率=(|(S%

H%)|x本时间段内 采集总条数)/(本时间段内采集总条数

本时间段内故障未恢复数据总条数)。
[0031]上述的步骤三构建基于贝叶斯的阈值预测模型,访问部署在中央集群管理服务器上的阈 值管理数据库和历史告警数据库结合分析,获得模型参数,具体的:
[0032]所述阈值预测模型为:
[0033]P(A|B)=(P(B|A)*P(A))/P(B|A)P(A)+P(B|A')P(A')
[0034]其中,模型各参数为:
[0035]P(B|A)为网络预警模型连续学习过程中曾经使用过几次当前阈值/阈值数据库总条数结果 的概率;
[0036]P(A)是忽略其它因素,使用当前阈值的故障总条数/历史故障总条数;
[0037]P(B|A')为阈值数据库阈值在历史故障数据库出现过的概率;
[0038]P(A')=1

P(A)。
[0039]上述的步骤三将历史阈值中除当前使用之外的每个阈值逐一输入阈值预测模型,获得阈 值使用概率,采用使用概率最大的阈值代替马网络预警模型使用中的固定流量阈值,实现连 续时间的k8s网络故障预测。
[0040]本专利技术具有以下有益效果:
[0041]本专利技术突出了人工智能在集群中网络预警及阈值智能管控的地位,创造性地采用贝叶斯 阈值预测模型调整监控阈值来解决马尔科夫链的网络预警模型稳态分布的方法不能实现对连 续时间马尔科夫链的计算从而造成对网络预警模型预测失真的问题;同时,运用马尔科夫链 和贝叶斯网络从纵横两个方面对网络故障做了比较全面的分析和预测,创新性的处理了马尔 科夫链在处理上层指标缺失这个方面的不足;其中,马尔科夫链是探索由样本所决定的在未 来时间里变量的概率分布,是一种纵向预测的方法,贝叶斯网络监测阈值则展示出故障与阈 值指标之间的相互影响关系,是一种横向预测方法;本专利技术结合这两种方法有一个优势在于 可以解决多层指标体系的非底层指标数据缺乏的问题,以实现宏观意义上的故障预测。贝叶 斯贝叶斯网络监测阈值的反推功能也为网络故障风险控制提供了基础;
[0042]本专利技术突出了人工智能在k8s集群之间Pod业务数据对网络及网络设备负载及压力的概 率预测的优势,解决了现有IT业务系统的多集群数据共同参与运算且集群之间数据可灵活控 本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于马氏链和贝叶斯网络的k8s网络故障预测方法,其特征在于,包括:步骤一、在组网内的中央集群管理服务器上创建一个基于k8s的中央调度集群,部署相关节点、数据库和模型;步骤二、构建使用固定流量阈值的基于马尔可夫链的网络预警模型,基于步骤一部署内容获得模型训练参数数据;步骤三、构建基于贝叶斯的阈值预测模型,基于步骤一部署内容获得预测模型参数,阈值预测模型分析历史故障数据得出更符合当前业务特征的故障阈值代替马网络预警模型使用中的固定流量阈值,实现连续时间的k8s网络故障预测。2.根据权利要求1所述的一种基于马氏链和贝叶斯网络的k8s网络故障预测方法,其特征在于,所述步骤一在组网内的中央集群管理服务器上创建一个基于k8s的中央调度集群;在中央集群管理服务器上部署主节点Master和历史故障数据库及阈值管理数据库;在主节点Master通过k8s的API server在中央集群管理服务器上创建一个模型Node节点和一个采集所有Pod网络流量数据的采集Node节点;在采集Node节点部署采集数据库;在模型节点上部署网络预警模型和阈值预测模型。3.根据权利要求1所述的一种基于马氏链和贝叶斯网络的k8s网络故障预测方法,其特征在于,所述步骤二包括:S1、构建使用固定流量阈值的基于马尔可夫链的网络预警模型,其对应的马尔可夫转移概率矩阵模型公式为:X(k+1)=X(k)
×
P式中:X(k)表示趋势分析与预测对象在t=k时刻的状态向量,P表示一步转移概率矩阵,X(k+1)表示趋势分析与预测对象在t=k+1时刻的状态向量;S2、通过访问采集数据库和历史故障数据库获得参数生成矩形集合,所述参数包括固定流量阈值下历史网络故障初始概率、本时段固定阈值下网络故障转移到非故障概率、本时段固定阈值下非网络故障转移到故障概率;S3、网络预警模型基于S2获取的固定流量阈值下历史网络故障初始概率、本时段固定阈值下网络故障转移到非故障概率、本时段固定阈值下非网络故障转移到故障概率,得出下一个时段阈值不变网络故障占采集数据占比、下一个时段阈值不变非网络故障占采集数据占比和下一时段阈值不变情况下故障...

【专利技术属性】
技术研发人员:朱文进王玉梁房杰
申请(专利权)人:中电信数智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1