一种大规模分布式图数据库集群运维管理的方法和系统技术方案

技术编号:35370949 阅读:20 留言:0更新日期:2022-10-29 18:13
本申请涉及一种大规模分布式图数据库集群运维管理的方法和系统,其中,该方法包括:构建控制平面,在控制平面导入分布式图数据库集群,并通过ssh连接信息将控制平面连接到资源平面对应的分布式图数据库集群节点上;通过对应节点上的Nebula代理服务组件获取分布式图数据库集群的监控指标数据,上报到控制平面的prometheus组件进行图数据服务监控;向prometheus组件发送prometheus查询语言语句使监控数据显示并渲染于控制平面的监控显示页面上。通过本申请,解决了运维管理大规模的分布式图数据库集群效率较低的问题,提高了运行效率。行效率。行效率。

【技术实现步骤摘要】
一种大规模分布式图数据库集群运维管理的方法和系统


[0001]本申请涉及计算机
,特别是涉及一种大规模分布式图数据库集群运维管理的方法和系统。

技术介绍

[0002]随着图数据库在社交网络、金融风控、知识图谱等领域的广泛应用,越来越多的企业选择使用图数据库来存储用户数据。而为了快速响应业务流量的激增和减退,并降低系统的总使用成本,分布式图数据库成了最好的选择。其中,基于分布式图数据库存储计算分离的设计架构,可以按需对计算、存储资源分别进行在线的扩容或者缩容,以应对各种类型的业务场景。然而,随着数据量的不断增加,一个分布式图数据库集群往往会包含更多的节点和服务,对于一些复杂的运维操作,如集群扩缩容,版本升级等,就会在操作过程中容易有出错风险。因此,如何高效的运维管理大规模的分布式图数据库集群成了一个难题。

技术实现思路

[0003]本申请实施例提供了一种大规模分布式图数据库集群运维管理的方法和系统,以至少解决相关技术中运维管理大规模的分布式图数据库集群效率较低的问题。
[0004]第一方面,本申请实施例提供了一种大规模分布式图数据库集群运维管理的方法,所述方法包括:构建控制平面,在所述控制平面导入分布式图数据库集群,通过ssh连接信息将所述控制平面连接到资源平面对应的分布式图数据库集群节点上;通过对应节点上的Nebula代理服务组件获取分布式图数据库集群的监控指标数据,上报到所述控制平面的prometheus组件进行图数据服务监控;向prometheus组件发送prometheus查询语言语句使监控数据显示并渲染于所述控制平面的监控显示页面上。
[0005]在其中一些实施例中,所述通过对应节点上的Nebula代理服务组件获取分布式图数据库集群的监控指标数据,上报到所述控制平面的prometheus组件进行图数据服务监控包括:Nebula代理服务组件通过向对应节点的各个图数据库服务定时发送http请求的方式采集图数据库的监控指标数据,并根据IP

端口

组件的结构打上标签;所述控制平面将Nebula代理服务组件配置到prometheus组件的采集目标中,pormetheus定时向Nebula代理服务组件获取采集到的各节点的监控指标数据,并进行汇总和存储,其中,所述标签用于区分不同的节点和服务。
[0006]在其中一些实施例中,在通过监控显示页面监控分布式图数据库集群时,所述方法包括:当分布式图数据库集群出现故障时,通过所述控制平面向所述Nebula代理服务组件下发批量起停的运维指令。
[0007]在其中一些实施例中,在通过监控显示页面监控分布式图数据库集群时,所述方法还包括:当监控到集群负载很高,或者业务流量激增时,通过任务接口在节点上批量下发Execute指令到所述Nebula代理服务组件,增加新的节点资源来扩容集群,并通过平衡图数据指令,将图数据库空间内的分片均匀的分布到新的节点上,来分担分布式图数据库集群各个节点间的访问压力;并在流量高峰过后,多个节点长时间空闲时,对空闲的节点批量下发Execute指令进行缩容。
[0008]在其中一些实施例中,在批量下发指令时,若指令执行失败,则通过Rollback指令进行回滚操作,返回上一步操作。
[0009]在其中一些实施例中,向prometheus组件发送prometheus查询语言语句使监控数据显示并渲染于所述控制平面的监控显示页面上包括:获取图数据库集群的图空间作业管理数据并显示于监控页面,通过NebulaGraph查询语言对图空间作业管理数据进行远程执行和信息查看,并停止和恢复图数据库集群图空间作业管理中的相关接口。
[0010]第二方面,本申请实施例提供了一种大规模分布式图数据库集群运维管理的系统,所述系统包括:通信模块,用于构建控制平面,在所述控制平面导入分布式图数据库集群,通过ssh连接信息将所述控制平面连接到资源平面对应的分布式图数据库集群节点上;监控显示模块,用于通过对应节点上的Nebula代理服务组件获取分布式图数据库集群的监控指标数据,上报到所述控制平面的prometheus组件进行图数据服务监控,向prometheus组件发送prometheus查询语言语句使监控数据显示并渲染于所述控制平面的监控显示页面上。
[0011]在其中一些实施例中,所述监控显示模块,还用于Nebula代理服务组件通过向对应节点的各个图数据库服务定时发送http请求的方式采集图数据库的监控指标数据,并根据IP

端口

组件的结构打上标签,所述控制平面将Nebula代理服务组件配置到prometheus组件的采集目标中,pormetheus定时向Nebula代理服务获取采集到的各节点的监控指标数据,并进行汇总和存储,其中,所述标签用于区分不同的节点和服务。
[0012]第三方面,本申请实施例提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的大规模分布式图数据库集群运维管理的方法。
[0013]第四方面,本申请实施例提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的大规模分布式图数据库集群运维管理的方法。
[0014]相比于相关技术,本申请实施例提供的大规模分布式图数据库集群运维管理的方法,构建控制平面,在控制平面导入分布式图数据库集群,并通过ssh连接信息将控制平面连接到资源平面对应的分布式图数据库集群节点上;通过对应节点上的Nebula代理服务组件获取分布式图数据库集群的监控指标数据,上报到控制平面的prometheus组件进行图数据服务监控;向prometheus组件发送prometheus查询语言语句使监控数据显示并渲染于控
制平面的监控显示页面上。
[0015]本申请将整个运维管理系统抽象化成控制平面和资源平面两部分,控制平面主要负责整个集群的服务监控与告警以及运维指令的批量下发;资源平面以服务器节点为单位,主要负责运行图数据库服务,采集图数据库对应的监控指标以及响应控制平面下发的运维指令。通过这种将控制平面和资源平面分离的方法,可有效降低系统运维管理的复杂度,解决了运维管理大规模的分布式图数据库集群效率较低的问题,提高了运行效率。
附图说明
[0016]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据本申请实施例的大规模分布式图数据库集群运维管理的方法的流程图;图2是根据本申请实施例的大规模分布式图数据库集群运维管理的流程示意图;图3是根据本申请实施例的大规模分布式图数据库集群运维管理的系统的结构框图;图4是根据本申请实施例的电子设备的内部结构示意图。
具体实施方式
[0017]为了使本申请的目的、技术方案及优点更加清楚明白,以下本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种大规模分布式图数据库集群运维管理的方法,其特征在于,所述方法包括:构建控制平面,在所述控制平面导入分布式图数据库集群,通过ssh连接信息将所述控制平面连接到资源平面对应的分布式图数据库集群节点上;通过对应节点上的Nebula代理服务组件获取分布式图数据库集群的监控指标数据,上报到所述控制平面的prometheus组件进行图数据服务监控,向prometheus组件发送prometheus查询语言语句使监控数据显示并渲染于所述控制平面的监控显示页面上。2.根据权利要求1所述的方法,其特征在于,所述通过对应节点上的Nebula代理服务组件获取分布式图数据库集群的监控指标数据,上报到所述控制平面的prometheus组件进行图数据服务监控包括:Nebula代理服务组件通过向对应节点的各个图数据库服务定时发送http请求的方式采集图数据库的监控指标数据,并根据IP

端口

组件的结构打上标签;所述控制平面将Nebula代理服务组件配置到prometheus组件的采集目标中,pormetheus定时向Nebula代理服务组件获取采集到的各节点的监控指标数据,并进行汇总和存储,其中,所述标签用于区分不同的节点和服务。3.根据权利要求1所述的方法,其特征在于,在通过监控显示页面监控分布式图数据库集群时,所述方法包括:当分布式图数据库集群出现故障时,通过所述控制平面向所述Nebula代理服务组件下发批量起停的运维指令。4.根据权利要求1所述的方法,其特征在于,在通过监控显示页面监控分布式图数据库集群时,所述方法还包括:当监控到集群负载很高,或者业务流量激增时,通过任务接口在节点上批量下发Execute指令到所述Nebula代理服务组件,增加新的节点资源来扩容集群,并通过平衡图数据指令,将图数据库空间内的分片均匀的分布到新的节点上,来分担分布式图数据库集群各个节点间的访问压力;并在流量高峰过后,多个节点长时间空闲时,对空闲的节点批量下发Execute指令进行缩容。5.根据权利要求3或4所述的方法,其特征在于,在批量下发指令...

【专利技术属性】
技术研发人员:刘鑫超汪洋李丹骥叶小萌
申请(专利权)人:杭州悦数科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1