基于隐半马尔可夫模型的云计算平台系统故障预测方法技术方案

技术编号:13587572 阅读:92 留言:0更新日期:2016-08-25 11:19
本发明专利技术公开一种基于隐半马尔可夫模型的云计算平台系统故障预测方法。具体步骤如下:从海量日志文件中提取错误事件,并错误事件赋予类型和时间信息;将同一错误事件的重复的报告合并为同一事件;将若干连续事件组合成事件序列,并根据是否对系统故障造成影响分成为故障相关事件序列和故障无关事件序列;根据序列似然值,对所有的事件序列进行聚类处理;在每一类内部进行噪声消除处理;分别计算实时提取出的事件序列与故障相关的HSMM和故障无关的HSMM的序列似然值,利用贝叶斯分类器,通过计算判断系统是否会发生故障。本发明专利技术基于机器学习的理论,实现了云计算平台的实时系统故障预测的功能,并能够提供准确的故障预测结果和更高的整体性能。

【技术实现步骤摘要】

本专利技术涉及到云计算平台系统故障预测技术,特别是涉及一种基于隐半马尔可夫模型的云计算平台实时系统故障预测方法。
技术介绍
在传统的云计算平台运维工作中,当系统出现故障时,运维人员往往需要花费一定的时间用来排查故障解决问题,这也导致了系统服务不稳定甚至是服务暂停。因此,提前对系统中可能发生的故障做出准确的预测,能够为系统运维人员预留出足够的故障反应时间,提前处理问题,从而避免系统故障的发生,对于提高系统服务的稳定性和运维工作的效率有着极大的意义。云计算系统往往是一个大型松耦合的分布式系统集群,不同节点上的不同组件模块相互协同工作,共同对外提供服务。在计算机系统中,日志机制发挥着重要的作用,每个模块通过日志将系统中的动作和操作记录下来,其中包含着丰富的信息和数据。传统的运维方式通过系统运维人员查看日志文件的方式来分析整个系统的运行情况和服务情况。受限于人的时间和精力,这种方式造成日志中许多有用的信息被忽略,从而导致了数据的大量浪费。在这样的背景下,当前在日志文件分析和数据挖掘方向的工作成为了研究热点,特别是对于大规模分布式系统下的故障预测的研究工作,具有巨大的实际应用价值。然而目前在大规模分布式系统下的故障预测领域仍然缺乏一个比较成熟可靠的解决方案。
技术实现思路
本专利技术的目的是提供一种基于隐半马尔可夫模型的云计算平台系统故障预测方法,实现了云计算平台的实时系统故障预测的功能,并能够提供准确的故障预测结果和更高的整体性能。为解决上述问题,本专利技术实施例提供一种基于隐半马尔可夫模型的云计算平台系统故障预测方法,包括以下步骤:根据日志数据提取错误事件;根据是否对系统故障造成影响,把错误事件划分为故障相关事件序列和故障无关事件序列中;分别训练处故障相关事件序列的隐半马尔可夫模型和故障无关事件序列的隐半马尔可夫模型,计算实时提取出的事件序列基于故障相关事件序列的隐半马尔可夫模型的序列似然值和故障无关事件序列的隐半马尔可夫模型的序列似然值,利用贝叶斯分类器判断系统未来是否会发生故障。进一步地,所述根据日志数据提取错误事件步骤包括实时地对云计算平台生成的日志数据的进行处理,从非结构化的日志文件中将其中所包含的错误事件提取出来,将类似的错误事件记录合并,并对得到的错误事件赋予类型和时间信息,进一步地,所述根据日志数据提取错误文件,其具体步骤如下:从云平台中接收到日志数据之后,通过消息队列中间件,将每一条日志记录转化成为对应的消息;在消息队列中间件中,只留下“ERROR”级别的日志记录,同时只保留日志记录的文本信息和时间戳信息;基于编辑距离算法,将相似的错误事件记录合并分类,从而将所有的错误事件记录简化成为类型信息和时间戳的组合。作为一种可实施方式,所述故障预测方法还包括将同一个错误事件的重复的报告合并为同一事件,该步骤采用时间窗的方法,将所有到达时间小于阈值ε的事件视为重复事件,并将之合并。作为一种可实施方式,所述根据是否对系统故障造成影响,把错误事件划分为故障相关事件序列和故障无关事件序列,具体步骤如下:根据时间窗口区间的设定,将同一窗口内所有错误事件组合成一个事件序列,并根据是否对系统故障造成影响,将事件序列划分成为故障相关事件序列和故障无关事件序列。作为一种实施方式,所述故障预测方法还包括以下步骤:计算不同的事件序列之间的序列似然值,将序列似然值作为相似度对所有的事件序列进行聚类;在每一类内部进行噪声消除,得到精炼的事件序列。作为一种实施方式,所述序列似然值以相异度矩阵的形式保存,D(i,j)代表的是Fi和Fj之间的相异度,其计算公式如下:D(i,j)=|log[P(Fi|Mj)]+log[P(Fj|Mi)]2|]]>其中,Fi代表一个故障相关事件序列,Mi是基于一个Fi训练出来的一个小的隐半马尔可夫模型。进一步地,所述在每一类内部进行噪声消除,得到代表该类别的事件序列,具体包括以下步骤:在同一类的事件序列内,计算每个事件基于具体的每个隐半马尔可夫模型的先验概率;在每个序列类别中,按照系统发生的时间将序列进行对齐操作,每个事件都根据所在时间被划分到指定的时间槽内;以时间槽为单位,频率大于先验概率的事件即为故障相关事件,频率小于先验概率的事件则为故障无关事件,这些故障无关事件将被删除。进一步地,所述利用贝叶斯分类器判断系统未来是否会发生故障,具体包括以下步骤:将这两个序列似然值输入到贝叶斯分类器内,根据公式来进行预测判断,其计算公式如下:log[p(0|λF)]-log[p(0|λF‾)]>log[CF‾F-CFF‾CFF‾-CFF]+log[P(F‾)P(F)]]]>其中,CFF表示错误的将故障相关事件序列判断成为故障无关事件序列所要的代价,P(F)表示发生系统故障的概率,P(0|λ)为计算得到的序列似然值;当不等式成立时,将这个事件序列标记成为故障相关事件序列,当不等式不成立时,将事件序列标记为故障无关序列;对域系统中实时产生的每个序列,实时计算判断,做出故障预测。进一步地,对p(0|λF)取对数处理。本方法由于采用以上所述的技术方案,其具有以下的优点:与传统的故障预测技术所不同的是,本方法结合具体的云计算平台使用场景,基于隐半马尔可夫模型,以事件序列为单位进行分析。由于隐半马尔可夫模型是对于隐马尔可夫模型的一种扩展和改良,它将每个状态的驻留时间对于具体状态转移概率的影响纳入到模型中,从而克服了隐马尔可夫模型所存在的局限性,更加适合于实际云计算平台的系统故障预测的应用场景。同时本方法引入了贝叶斯分类理论将最后的预判问题转化成为分类问题,提高了预测结果的准确性。本方法所有的数据来源于实际场景中的日志数据,其中包含着丰富的有效数据,同时本方法针对预测模型的特点,对日志数据进行了高效复杂地处理,从海量的数据中提取出真正有效的信息,提高了方法的可行性和预测结果的准确性。本方法能够对于收集来的数据进行实时地计算处理,及时给出预测结果,为运维工作提供宝贵的反应时间,提高系统服务的稳定性和运维工作的效率。附图说明图1是本专利技术实施例的基于隐半马尔可夫模型的云计算平台实时系统故障预测方法的流程图;图2是本专利技术实施例的故障预测的过程图。具体实施方式下面结合附图,通过具体实施例,对本专利技术的技术方案进行清楚、完整的描述。如图1所示,本专利技术基于隐半马尔可夫模型(HSMM)的云计算平台实时系统故障预测方法通过对于云计算平台中的日志数据进行细致的处理分析,目的是能够将隐含在海量的日志数据中的丰富信息挖掘出来,从而能够对未来可能发生的系统故障做出准确的预测,保障系统服务的稳定性和延续性。具体步骤如下:S100,实时地对云计算平台生成的日志数据的进行处理,从非结构化的日志文件中将其中所包含的错误事件提取出来,然后使用编辑距离算法将类似的错误事件记录合并,并对得到的错误事件赋予类型和时间信息。步骤S100的主要作用是从海量的非结构化的数据中将其中的有效数据提取出来,组成事件,然后再将这些事件组合成为事件序列。本文档来自技高网...

【技术保护点】
一种基于隐半马尔可夫模型的云计算平台系统故障预测方法,其特征在于,包括以下步骤:根据日志数据提取错误事件;根据是否对系统故障造成影响,把错误事件划分为故障相关事件序列和故障无关事件序列;分别训练处故障相关事件序列的隐半马尔可夫模型和故障无关事件序列的隐半马尔可夫模型,计算实时提取出的事件序列基于故障相关事件序列的隐半马尔可夫模型的序列似然值和故障无关事件序列的隐半马尔可夫模型的序列似然值,利用贝叶斯分类器判断系统未来是否会发生故障。

【技术特征摘要】
1.一种基于隐半马尔可夫模型的云计算平台系统故障预测方法,其特征在于,包括以下步骤:根据日志数据提取错误事件;根据是否对系统故障造成影响,把错误事件划分为故障相关事件序列和故障无关事件序列;分别训练处故障相关事件序列的隐半马尔可夫模型和故障无关事件序列的隐半马尔可夫模型,计算实时提取出的事件序列基于故障相关事件序列的隐半马尔可夫模型的序列似然值和故障无关事件序列的隐半马尔可夫模型的序列似然值,利用贝叶斯分类器判断系统未来是否会发生故障。2.如权利要求1所述的基于隐半马尔可夫模型的云计算平台系统故障预测方法,其特征在于,所述根据日志数据提取错误事件步骤包括实时地对云计算平台生成的日志数据的进行处理,从非结构化的日志文件中将其中所包含的错误事件提取出来,将类似的错误事件记录合并,并对得到的错误事件赋予类型和时间信息。3.如权利要求1或2所述的基于隐半马尔可夫模型的云计算平台系统故障预测方法,其特征在于,所述根据日志数据提取错误文件,其具体步骤如下:从云平台中接收到日志数据之后,通过消息队列中间件,将每一条日志记录转化成为对应的消息;在消息队列中间件中,只留下“ERROR”级别的日志记录,同时只保留日志记录的文本信息和时间戳信息;基于编辑距离算法,将相似的错误事件记录合并分类,从而将所有的错误事件记录简化成为类型信息和时间戳的组合。4.如权利要求1所述的基于隐半马尔可夫模型的云计算平台系统故障预测方法,其特征在于,所述故障预测方法还包括将同一个错误事件的重复的 报告合并为同一事件,该步骤采用时间窗的方法,将所有到达时间小于阈值ε的事件视为重复事件,并将之合并。5.如权利要求1所述的基于隐半马尔可夫模型的云计算平台系统故障预测方法,其特征在于,所述根据是否对系统故障造成影响,把错误事件划分为故障相关事件序列和故障无关事件序列,具体步骤如下:根据时间窗口区间的设定,将同一窗口内所有错误事件组合成一个事件序列,并根据是否对系统故障造成影响,将事件序列划...

【专利技术属性】
技术研发人员:曹晖寿黎但张之宣
申请(专利权)人:城云科技杭州有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1