System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于生成式AI技术的平台运维方法及装置制造方法及图纸_技高网

一种基于生成式AI技术的平台运维方法及装置制造方法及图纸

技术编号:44085024 阅读:1 留言:0更新日期:2025-01-21 12:23
本发明专利技术涉及一种基于生成式AI技术的平台运维方法,其特征在于,所述方法包括:实时采集运行数据并训练预测模型;处理运行数据并提取数据特征;利用AI决策模型,根据数据特征对系统状态进行判断;利用AI监督模型对判断结果进行评估审核;若判断结果通过审核且系统未出现故障,则利用预测模型,预测用户模型的准确率;若判断结果通过审核且系统出现故障或即将出现故障,则触发故障操作;将审核结果反馈回AI决策模型,对AI决策模型进行优化训练。与现有技术相比,本发明专利技术利用生成式AI技术,自动化执行运维任务降低运维成本,同时对用户正在训练中的模型进行准确度预测,提高了用户模型的准确性和稳定性。

【技术实现步骤摘要】

本专利技术涉及信息,尤其是涉及一种基于生成式ai技术的平台运维方法及装置。


技术介绍

1、传统it运维主要依赖人工配置告警,常规的自动化清理脚本。虽然k8s可以做到对服务自动重启,主机隔离等常规操作,但于事实的准确性、信息的及时性、问题的复杂性、数据的安全性要求都比较高的领域需要投入大量人力,简单的自动化脚本难以跟上技术的步伐。

2、目前,传统的平台运维方案主要依赖于人工操作,如图1所示,运维工程师根据其经验对故障情况进行评估,确定平台运维恢复方案,然后手动处理问题执行恢复等。然而,这种方式存在明显的劣势,首先在于处理效率低下。依赖个别工程师的经验判断,可能导致较长的响应时间,延缓了系统从故障中恢复的速度。此外,由于人工操作容易受到主观因素的影响,处理问题准确性也面临一定的风险。更为关键的是,传统人工操作故障操作操作存在潜在的操作失误风险,可能导致数据丢失或业务中断。即便是经验丰富的工程师,也难以避免在应急情况下的紧张与压力,增加了操作错误的可能性。

3、同时,传统运维中,运维平台与用户平台之间并没有太多交互,运维中侧重于在平台出现故障时,对故障做出响应,而用户正常使用平台功能时,并不会对于日常行为加以辅助。

4、现有技术方案主要存在以下几个问题:

5、高成本:需要大量的人力和物理资源,从而导致运维成本高。

6、低效率:依赖于人工,例如手动监控、故障排查和系统升级等,这些工作既耗时又容易出错,效率低下。

7、灵活性不足:难以快速适应业务需求的变化,部署新应用或进行系统升级需要较长时间。

8、可扩展性差:当业务量增长时,传统it基础设施往往难以迅速扩展以满足额外的需求。

9、难以实现精细化管理:数据分析和监控手段的限制,很难对系统进行精确的性能管理和优化。

10、缺乏辅助功能:平台无故障,用户正常使用平台功能时,并不会对于用户使用加以辅助。


技术实现思路

1、本专利技术的目的就是为了提供一种基于生成式ai技术的平台运维方法和装置,通过利用生成式ai技术,自动化执行日常的运维任务,对不同服务器进行针对性运维,在应对故障的同时,对用户正在训练中的模型进行准确度预测,提高用户模型的准确性和稳定性,同时降低运维成本,增加系统的可靠性和稳定性。

2、本专利技术的目的可以通过以下技术方案来实现:

3、一种基于生成式ai技术的平台运维方法,所述方法包括:

4、实时采集运行数据,包括平台数据和用户模型训练状态;

5、利用用户模型训练状态构成训练状态数据集,并利用训练状态集训练预测模型;

6、处理运行数据并进行筛选,提取数据特征;

7、利用ai决策模型,根据数据特征对系统状态进行判断;

8、利用ai监督模型对判断结果进行评估审核;

9、若判断结果通过审核且判断结果为系统未出现故障,则利用预测模型,预测用户模型的准确率;

10、若判断结果通过审核且判断结果为系统出现故障或即将出现故障,则触发故障操作;

11、将审核结果反馈回ai决策模型,对ai决策模型进行优化训练。

12、进一步地,所述平台数据包括:cpu占用率、内存使用率、磁盘i/o、网络带宽、日志信息、用户访问量、应用程序请求量、平台返回的错误代码、平台返回的异常信息、系统负载、磁盘空间使用情况和网络延迟。

13、进一步地,所述预测模型的训练过程包括:

14、定时提取模型的训练状态;

15、将前一时刻的模型训练状态与后一时刻的模型训练状态一一对应,建立训练状态数据集;

16、利用训练状态数据集,通过随机森林算法构建多个决策树的方法,训练预测模型。

17、进一步地,所述对运行数据的处理包括去除异常值、填补缺失数据和数据格式标准化。

18、进一步地,所述ai决策模型的训练过程包括:

19、根据系统接入的服务器类型,进行网络检索和历史数据库检索,构建针对服务器类型的自适应训练数据集;

20、利用自适应训练数据集,训练ai决策模型。

21、进一步地,所述ai决策模型对系统状态进行判断的过程包括:

22、根据数据特征判断系统状态是否出现故障;

23、若判断系统状态出现故障,则进一步分析系统故障类别。

24、更进一步地,所述系统故障类别包括资源调度问题、容器优化问题、监控和预警问题、容错和故障恢复问题、分布式训练问题、模型并行化问题以及数据并行问题。

25、进一步地,所述故障操作包括:

26、根据故障类别,采取历史解决方案解决故障;

27、生成报警通知,通知相关的运维人员和团队解决故障。

28、进一步地,所述ai监督模型通过学习人工经验和历史故障,对判断结果进行评估,若判断结果未通过审核,则生成报警通知,通知相关的运维人员和团队进行检修。

29、一种基于生成式ai技术的平台运维装置,所述装置包括:

30、数据采集模块,实时采集运行数据,包括平台数据和用户模型训练状态;

31、数据处理模块,处理运行数据并进行筛选,提取数据特征;

32、模型训练模块,采集运行数据、历史数据与网络数据,训练预测模型、ai决策模型和ai监督模型;

33、决策模块,利用ai决策模型,根据数据特征对系统状态进行判断;

34、监督模块,利用ai监督模型对判断结果进行评估审核;

35、预测模块,若判断结果通过审核且判断结果为系统未出现故障,则利用预测模型,预测用户模型的准确率;

36、故障响应模块,若判断结果通过审核且判断结果为系统出现故障或即将出现故障,则触发故障操作;

37、模型优化模块,将审核结果反馈回ai决策模型,对ai决策模型进行优化训练。

38、与现有技术相比,本专利技术具有以下有益效果:

39、1.本专利技术通过生成式ai技术,在平台运维时能够进行自决策,自评估和自优化,提高运维效率的同时也降低了运维成本,在面对故障与潜在故障时,能够基于历史数据自动采取措施并报警,增加了系统的可靠性和稳定性,在未检测出故障时,也能够持续对用户在平台中训练的模型进行质量预测,提高用户模型的准确性和稳定性;

40、2.本专利技术通过生成式ai技术,利用ai模型代替人工运维,能够有效地解决人工误操作问题,极大的降低了故障操作操作风险,并对不同场景下的故障操作具有自适应,降低了运维门槛;

41、3.本专利技术根据系统接入的服务器类型,能够训练出针对性的决策模型,使得平台运维具有自适应性,在运维时能够更加准确的进行决策,减少故障的漏判和误判,实现了精细化管理。

本文档来自技高网...

【技术保护点】

1.一种基于生成式AI技术的平台运维方法,其特征在于,所述方法包括:

2.根据权利要求1所述的一种基于生成式AI技术的平台运维方法,其特征在于,所述平台数据包括:CPU占用率、内存使用率、磁盘I/O、网络带宽、日志信息、用户访问量、应用程序请求量、平台返回的错误代码、平台返回的异常信息、系统负载、磁盘空间使用情况和网络延迟。

3.根据权利要求1所述的一种基于生成式AI技术的平台运维方法,其特征在于,所述预测模型的训练过程包括:

4.根据权利要求1所述的一种基于生成式AI技术的平台运维方法,其特征在于,所述处理运行数据并进行筛选的过程包括去除异常值、填补缺失数据和数据格式标准化。

5.根据权利要求1所述的一种基于生成式AI技术的平台运维方法,其特征在于,所述AI决策模型的训练过程包括:

6.根据权利要求1所述的一种基于生成式AI技术的平台运维方法,其特征在于,所述AI决策模型对系统状态进行判断的过程包括:

7.根据权利要求6所述的一种基于生成式AI技术的平台运维方法,其特征在于,所述系统故障类别包括资源调度问题、容器优化问题、监控和预警问题、容错和故障恢复问题、分布式训练问题、模型并行化问题以及数据并行问题。

8.根据权利要求1所述的一种基于生成式AI技术的平台运维方法,其特征在于,所述故障操作包括:

9.根据权利要求1所述的一种基于生成式AI技术的平台运维方法,其特征在于,所述AI监督模型通过学习人工经验和历史故障,对判断结果进行评估,若判断结果未通过审核,则生成报警通知,通知相关的运维人员和团队进行检修。

10.一种基于生成式AI技术的平台运维装置,其特征在于,所述装置包括:

...

【技术特征摘要】

1.一种基于生成式ai技术的平台运维方法,其特征在于,所述方法包括:

2.根据权利要求1所述的一种基于生成式ai技术的平台运维方法,其特征在于,所述平台数据包括:cpu占用率、内存使用率、磁盘i/o、网络带宽、日志信息、用户访问量、应用程序请求量、平台返回的错误代码、平台返回的异常信息、系统负载、磁盘空间使用情况和网络延迟。

3.根据权利要求1所述的一种基于生成式ai技术的平台运维方法,其特征在于,所述预测模型的训练过程包括:

4.根据权利要求1所述的一种基于生成式ai技术的平台运维方法,其特征在于,所述处理运行数据并进行筛选的过程包括去除异常值、填补缺失数据和数据格式标准化。

5.根据权利要求1所述的一种基于生成式ai技术的平台运维方法,其特征在于,所述ai决策模型的训练过程包括:

...

【专利技术属性】
技术研发人员:徐骏石炎军周桦钧苏博
申请(专利权)人:上海天玑科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1