一种日志聚合系统及一种提高日志聚合系统可用性的方法技术方案

技术编号:33444304 阅读:18 留言:0更新日期:2022-05-19 00:30
本申请提供了一种日志聚合系统等,所述系统用于采集被监控对象的日志信息,其中反向代理组件用于接收被监控对象的日志信息,根据第一预设策略从核心服务集群多个节点中选择一个节点作为目标节点,并将所述日志信息发送给所述目标节点;核心服务集群的节点用于对收到的日志信息进行预设处理,各节点通过相互探测以监控每个节点的节点状态。本申请采用分布式设计,反向代理组件和集群相互配合,不但可以实现对被监控对象的日志的采集处理以及负载均衡,而且通过多个节点的冗余部署和节点间的相互监测提高了系统的稳定性,确保了系统自身的高可用性,此外还可以将监测到的问题进行告警,便于运维团队或技术团队及时发现并定位问题。题。题。

【技术实现步骤摘要】
一种日志聚合系统及一种提高日志聚合系统可用性的方法


[0001]本申请涉及云计算和存储
,尤其涉及一种日志聚合系统及一种提高日志聚合系统可用性的方法。

技术介绍

[0002]私有云(Private Clouds)是利用云计算等技术为一个客户(如大型企业)单独使用而构建的云。企业私有云集合了云计算、大数据管理等多种先进技术,属于一种新的服务模式,不但可以整合资源、提高资源利用率,还可以降低资源消耗、降低企业成本,因此近年来得到了快速发展。
[0003]在企业私有云中,日志数据的处理\管理是一项重要工作。例如,可以使用日志聚合监控系统(例如Loki)对非结构化的日志数据进行压缩存储,并只对日志数据的metadata(元数据,包括时间戳、labels等)建立索引。
[0004]然而,专利技术人在实现本申请方案的过程中发现,现有的日志聚合监控系统缺乏对自身高可用性的保障措施,当日志聚合监控系统出现故障时,其自身无法及时发现并报告问题,从而可能造成大量的日志数据在被监控对象上积压,影响被监控对象的性能并造成硬盘空间的浪费。

技术实现思路

[0005]本申请提供一种日志聚合系统及一种提高日志聚合系统可用性的方法,以解决日志聚合系统自身的可靠性问题。
[0006]根据本申请实施例的第一方面,提供一种日志聚合系统,所述日志聚合系统用于采集被监控对象的日志信息;所述日志聚合系统包括反向代理组件和由多个节点组成的核心服务集群;
[0007]所述反向代理组件用于接收被监控对象的日志信息,以及,根据第一预设策略从所述核心服务集群多个节点中选择一个节点作为目标节点,并将所述日志信息发送给所述目标节点;
[0008]所述核心服务集群的节点用于对收到的日志信息进行预设处理,各节点通过相互探测以监控每个节点的节点状态。
[0009]可选的,所述多个节点包括至少三个节点。
[0010]可选的,所述节点状态分为活动节点、异常节点、不可用节点;
[0011]所述各节点通过相互探测以监控每个节点的节点状态,包括:
[0012]对于每个节点:
[0013]每隔第一预设时长选取其他一个节点作为第一节点,探测所述第一节点是否是活动节点;
[0014]如果所述第一节点不是活动节点,则在本节点中将所述第一节点的节点状态标记为异常节点,并在所述集群内发送所述第一节点为异常节点的广播消息;
[0015]如果在发送所述第一节点为异常节点的广播消息后的第二预设时长内收到所述第一节点为活动节点的广播消息,则将所述第一节点的节点状态标记为活动节点;
[0016]如果所述第二预设时长到期时,本节点中所述第一节点的节点状态仍为异常节点,并且在所述第二预设时长内多次收到其他节点发送的所述第一节点为异常节点的广播消息,则将所述第一节点的节点状态标记为不可用节点,并在所述集群内发送所述第一节点为不可用节点的广播消息。
[0017]可选的,所述探测所述第一节点是否是活动节点,包括:
[0018]向所述第一节点发送探测消息;
[0019]如果未收到所述第一节点的正确响应,则再次向所述第一节点发送探测消息,或者,随机选取另外的节点作为第二节点,并向所述第二节点发送间接探测请求,以使所述第二节点向所述第一节点发送探测消息并将探测结果返回给本节点,其中所述间接探测请求中包括所述第一节点的地址;
[0020]如果仍未收到所述第一节点的正确响应,则判定所述第一节点不是活动节点。
[0021]可选的,在所述第二预设时长内多次收到其他节点发送的所述第一节点为异常节点的广播消息,包括:
[0022]在发送所述第一节点为异常节点的广播消息后启动计数器;
[0023]在所述第二预设时长内,每当收到其他节点发送的所述第一节点为异常节点的广播消息则所述计数器加1;
[0024]当所述计数器大于预设数值时,判定为在所述第二预设时长内多次收到其他节点发送的所述第一节点为异常节点的广播消息。
[0025]可选的,所述各节点通过相互探测以监控每个节点的节点状态,还包括:
[0026]对于每个节点:
[0027]当接收到第三节点为不可用节点的广播消息时,如果所述第三节点未在本节点上被标记为不可用节点,则在本节点上将所述第三节点标记为不可用节点,并在所述集群内发送所述第三节点为不可用节点的广播消息以形成再次传播;
[0028]当接收到本节点为异常节点的广播消息,或者本节点为不可用节点的广播消息时,在所述集群内发送本节点为活动节点的广播消息,以修正其他节点对本节点的节点状态标记。
[0029]可选的,所述各节点通过相互探测以监控每个节点的节点状态,还包括:
[0030]对于每个节点:
[0031]当本节点离开所述集群时,在所述集群内发送本节点为不可用节点的广播消息。
[0032]可选的,所述系统还包括:
[0033]存储组件,用于存储经所述核心服务集群处理后的数据;
[0034]告警组件,用于当发现被监控对象的日志信息异常、所述集群中出现异常节点和\或所述集群中出现不可用节点时,根据第二预设策略发送告警信息;
[0035]数据可视化组件,用于展示所述日志信息和\或所述告警信息。
[0036]根据本申请实施例的第二方面,提供一种提高日志聚合系统可用性的方法,所述方法用于日志聚合系统中的节点;所述日志聚合系统用于采集被监控对象的日志信息,包括反向代理组件和由多个所述节点组成的核心服务集群;所述反向代理组件用于接收被监
控对象的日志信息,以及根据第一预设策略从多个所述节点中选择一个节点作为目标节点并将所述日志信息发送给所述目标节点;所述节点用于对收到的日志信息进行预设处理,各节点通过相互探测以监控每个节点的节点状态,所述节点状态分为活动节点、异常节点、不可用节点;
[0037]所述方法包括:
[0038]每隔第一预设时长选取其他一个节点作为第一节点,探测所述第一节点是否是活动节点;
[0039]如果所述第一节点不是活动节点,则在本节点中将所述第一节点的节点状态标记为异常节点,并在所述集群内发送所述第一节点为异常节点的广播消息;
[0040]如果在发送所述第一节点为异常节点的广播消息后的第二预设时长内收到所述第一节点为活动节点的广播消息,则将所述第一节点的节点状态标记为活动节点;
[0041]如果所述第二预设时长到期时,本节点中所述第一节点的节点状态仍为异常节点,并且在所述第二预设时长内多次收到其他节点发送的所述第一节点为异常节点的广播消息,则将所述第一节点的节点状态标记为不可用节点,并在所述集群内发送所述第一节点为不可用节点的广播消息。
[0042]可选的,所述多个节点包括至少三个节点。
[0043]可选的,所述探测所述第一节点是否是活动节点,包括:
[0044]向所述第一节点发送探测消息;
[0045]如果未本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种日志聚合系统,其特征在于,所述日志聚合系统用于采集被监控对象的日志信息;所述日志聚合系统包括反向代理组件和由多个节点组成的核心服务集群;所述反向代理组件用于接收被监控对象的日志信息,以及,根据第一预设策略从所述核心服务集群多个节点中选择一个节点作为目标节点,并将所述日志信息发送给所述目标节点;所述核心服务集群的节点用于对收到的日志信息进行预设处理,各节点通过相互探测以监控每个节点的节点状态。2.根据权利要求1所述的系统,其特征在于,所述多个节点包括至少三个节点。3.根据权利要求1所述的系统,其特征在于,所述节点状态分为活动节点、异常节点、不可用节点;所述各节点通过相互探测以监控每个节点的节点状态,包括:对于每个节点:每隔第一预设时长选取其他一个节点作为第一节点,探测所述第一节点是否是活动节点;如果所述第一节点不是活动节点,则在本节点中将所述第一节点的节点状态标记为异常节点,并在所述集群内发送所述第一节点为异常节点的广播消息;如果在发送所述第一节点为异常节点的广播消息后的第二预设时长内收到所述第一节点为活动节点的广播消息,则将所述第一节点的节点状态标记为活动节点;如果所述第二预设时长到期时,本节点中所述第一节点的节点状态仍为异常节点,并且在所述第二预设时长内多次收到其他节点发送的所述第一节点为异常节点的广播消息,则将所述第一节点的节点状态标记为不可用节点,并在所述集群内发送所述第一节点为不可用节点的广播消息。4.根据权利要求3所述的系统,其特征在于,所述探测所述第一节点是否是活动节点,包括:向所述第一节点发送探测消息;如果未收到所述第一节点的正确响应,则再次向所述第一节点发送探测消息,或者,随机选取另外的节点作为第二节点,并向所述第二节点发送间接探测请求,以使所述第二节点向所述第一节点发送探测消息并将探测结果返回给本节点,其中所述间接探测请求中包括所述第一节点的地址;如果仍未收到所述第一节点的正确响应,则判定所述第一节点不是活动节点。5.根据权利要求3所述的系统,其特征在于,在所述第二预设时长内多次收到其他节点发送的所述第一节点为异常节点的广播消息,包括:在发送所述第一节点为异常节点的广播消息后启动计数器;在所述第二预设时长内,每当收到其他节点发送的所述第一节点为异常节点的广播消息则所述计数器加1;当所述计数器大于预设数值时,判定为在所述第二预设时长内多次收到其他节点发送的所述第一节点为异常节点的广播消息。6.根据权利要求3所述的系统,其特征在于,所述各节点通过相互探测以监控每个节点的节点状态,还包括:
对于每个节点:当接收到第三节点为不可用节点的广播消息时,如果所述第三节点未在本节点上被标记为不可用节点,则在本节点上将所述第三节点标记为不可用节点,并在所述集群内发送所述第三节点为不可用节点的广播消息以形成再次传播;当接收到本节点为异常节点的广播消息,或者本节点为不可用节点的广播消息时,在所述集群内发送本节点为活动节点的广播消息,以修正其他节点对本节点的节点状态标记。7.根据权利要求3所述的系统,其特征在于,所述各节点通过相互探测以监控每个节点的节点状态,还包括:对于每个节点:当本节点离开所述集群时,在所述集群内发送本节点为不可用节点的广播消息。8.根据权利要求1所述的系统,其特征在于,所述系统还包括:存储组件,用于存储经所述核心服务集群处理后的数据;告警组件,用于当发现被监控对象的日志信息异常、所述集群中出现异常节点和\或所述集群中出现不可用节点时,根据...

【专利技术属性】
技术研发人员:陆玉平邓瑞明蔡攀龙
申请(专利权)人:上海川源信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1