System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于ELK的GPU集群数据采集与分析平台制造技术_技高网

一种基于ELK的GPU集群数据采集与分析平台制造技术

技术编号:40949488 阅读:8 留言:0更新日期:2024-04-18 20:24
本发明专利技术公开了一种基于ELK的GPU集群数据采集与分析平台,包括数据收集模块用于收集数据,并进行汇总存储;数据缓存模块用于负责接收数据收集模块传输过来的数据进行集中缓存;数据预处理模块用于负责数据字段解析及分解、属性修改,以及数据转换,进行标准化,并将标准化后的数据转存;数据存储模块用于接收数据收集模块收集到的数据,或者经过数据预处理模块预处理分析和标准化后的数据,并进行存储和索引处理;数据可视化模块用于对存放在数据存储模块的数据进行高级数据分析,以及可视化展示。本发明专利技术通过数据收集和分析平台实现实时高效的日志检索,多维度的指标分析及多角度的数据展示,以快速的定位问题及处理故障。

【技术实现步骤摘要】

本专利技术涉及数据管理、数据分析,特别涉及一种基于elk的gpu集群数据采集与分析平台。


技术介绍

1、随着单位gpu计算平台用户数和业务量的不断增长,平台gpu计算集群的规模也在不断扩大,gpu计算服务器数量不断增多。服务器上的系统日志和业务日志可以帮助研发人员和运维人员了解服务器运行状况及定位故障,找到问题发生的原因,同时,gpu利用率、cpu利用率、显存利用率、内存利用率、磁盘及网卡等指标数据的使用情况可以帮助运维人员了解服务器资源使用情况,及时调整任务调度。无论是各种系统日志和业务日志,还是服务器指标数据和gpu指标数据,都是整个集群需要收集的对象。在服务器数量较少时,运维人员通过登录每台机器的方式查询日志及指标数据即可快速找到问题机器及定位故障原因。但是当集群的服务器数量达到数百台时,继续使用传统的登录机器查询日志和指标的方式已经无法快速、高效的定位问题。面对后端节点过多、日志分散、监控指标多、文本搜索慢等诸多问题,虽然可以使用批处理命令工具来收集和汇总所有服务器上的日志及监控指标,使用linux命令实现检索和统计,但处理数百台服务器生成的日志时,仍然无法解决日志归档、文本检索慢、多维度查询等问题。另外,当运维无法授权研发人员服务器的登陆权限时,如何解决开发人员经常需要实时查看日志的需求也是一个问题。


技术实现思路

1、本专利技术的目的克服现有技术存在的不足,为实现以上目的,采用一种基于elk的gpu集群数据采集与分析平台,以解决上述
技术介绍
中提出的问题。

2、一种基于elk的gpu集群数据采集与分析平台,所述平台包括数据收集模块、数据缓存模块、数据预处理模块、数据存储模块,以及数据可视化模块;

3、所述数据收集模块用于从服务器端收集日志数据、网络数据、服务器各项监控数据,以及gpu监控数据,并进行汇总存储;

4、所述数据缓存模块用于负责接收数据收集模块传输过来的数据进行集中缓存;

5、所述数据预处理模块用于负责数据字段解析及分解、属性修改,以及数据转换,进行标准化,并将标准化后的数据转存;

6、所述数据存储模块用于接收数据收集模块收集到的数据,或者经过数据预处理模块预处理分析和标准化后的数据,并进行存储和索引处理;

7、所述数据可视化模块用于对存放在数据存储模块的数据进行高级数据分析,以及可视化展示。

8、作为本专利技术进一步的方案:所述数据收集模块包括用于进行文件和目录采集的filebeat采集器、用于进行指标采集的metricbeat监控器、用于进行网络抓包的packetbeat分析器、用于进行数据采集的winlogbeat日志捕捉模块、用于系统间连通性检测的heartbeat网络监控器,以及用于对gpu多个指标进行采集的dcgm-exporter。

9、作为本专利技术进一步的方案:所述数据缓存模块包括用于对高并发日志数据进行流量削峰和缓冲的kafka集群、用于接收gpu各项监控指标的prometheus集群,以及用于将prometheus采集到的数据写入到kafka集群的消息队列适配器。

10、作为本专利技术进一步的方案:所述数据预处理模块通过采用logstash读取配置文件中配置的输入源,再利用过滤器根据配置文件中定义的解析和转换规则进行处理。

11、作为本专利技术进一步的方案:所述数据存储模块采用elasticsearch集群部署进行数据的持久化存储和建立索引库。

12、作为本专利技术进一步的方案:所述数据可视化模块包括特定数据收集组件、窗口监视模块、自定义查询模块,以及查询权限管理模块。

13、与现有技术相比,本专利技术存在以下技术效果:

14、采用上述的技术方案,通过构建gpu集群数据采集与分析平台,对大集群多台gpu服务器的各个维度的监控指标和日志数据进行采集,同时对不同类型和格式的海量数据进行标准化及持久化的存储,大大降低重复收集率,减轻目标主机的负担。同时,对于存储的数据可以实现高效的搜索、多维度的可视化展示和分析,有助于快速发现和定位问题和故障,在一定程度上减少运维成本,提高运维人员的工作效率。也实现全面的监控指标及日志数据的收集、实时搜索、性能稳定、数据处理快速且使用非常方便。

本文档来自技高网...

【技术保护点】

1.一种基于ELK的GPU集群数据采集与分析平台,其特征在于,所述平台包括数据收集模块、数据缓存模块、数据预处理模块、数据存储模块,以及数据可视化模块;

2.根据权利要求1所述一种基于ELK的GPU集群数据采集与分析平台,其特征在于,所述数据收集模块包括用于进行文件和目录采集的filebeat采集器、用于进行指标采集的metricbeat监控器、用于进行网络抓包的packetbeat分析器、用于进行数据采集的Winlogbeat日志捕捉模块、用于系统间连通性检测的Heartbeat网络监控器,以及用于对GPU多个指标进行采集的dcgm-exporter。

3.根据权利要求1所述一种基于ELK的GPU集群数据采集与分析平台,其特征在于,所述数据缓存模块包括用于对高并发日志数据进行流量削峰和缓冲的kafka集群、用于接收GPU各项监控指标的prometheus集群,以及用于将prometheus采集到的数据写入到kafka集群的消息队列适配器。

4.根据权利要求1所述一种基于ELK的GPU集群数据采集与分析平台,其特征在于,所述数据预处理模块通过采用Logstash读取配置文件中配置的输入源,再利用过滤器根据配置文件中定义的解析和转换规则进行处理。

5.根据权利要求1所述一种基于ELK的GPU集群数据采集与分析平台,其特征在于,所述数据存储模块采用Elasticsearch集群部署进行数据的持久化存储和建立索引库。

6.根据权利要求1所述一种基于ELK的GPU集群数据采集与分析平台,其特征在于,所述数据可视化模块包括特定数据收集组件、窗口监视模块、自定义查询模块,以及查询权限管理模块。

...

【技术特征摘要】

1.一种基于elk的gpu集群数据采集与分析平台,其特征在于,所述平台包括数据收集模块、数据缓存模块、数据预处理模块、数据存储模块,以及数据可视化模块;

2.根据权利要求1所述一种基于elk的gpu集群数据采集与分析平台,其特征在于,所述数据收集模块包括用于进行文件和目录采集的filebeat采集器、用于进行指标采集的metricbeat监控器、用于进行网络抓包的packetbeat分析器、用于进行数据采集的winlogbeat日志捕捉模块、用于系统间连通性检测的heartbeat网络监控器,以及用于对gpu多个指标进行采集的dcgm-exporter。

3.根据权利要求1所述一种基于elk的gpu集群数据采集与分析平台,其特征在于,所述数据缓存模块包括用于对高并发日志数据进行流量削峰和缓冲的kaf...

【专利技术属性】
技术研发人员:王乐郑歆慰褚海涛光熠
申请(专利权)人:合肥综合性国家科学中心人工智能研究院安徽省人工智能实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1