System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及信息,尤其是涉及一种基于生成式ai技术的平台运维方法及装置。
技术介绍
1、传统it运维主要依赖人工配置告警,常规的自动化清理脚本。虽然k8s可以做到对服务自动重启,主机隔离等常规操作,但于事实的准确性、信息的及时性、问题的复杂性、数据的安全性要求都比较高的领域需要投入大量人力,简单的自动化脚本难以跟上技术的步伐。
2、目前,传统的平台运维方案主要依赖于人工操作,如图1所示,运维工程师根据其经验对故障情况进行评估,确定平台运维恢复方案,然后手动处理问题执行恢复等。然而,这种方式存在明显的劣势,首先在于处理效率低下。依赖个别工程师的经验判断,可能导致较长的响应时间,延缓了系统从故障中恢复的速度。此外,由于人工操作容易受到主观因素的影响,处理问题准确性也面临一定的风险。更为关键的是,传统人工操作故障操作操作存在潜在的操作失误风险,可能导致数据丢失或业务中断。即便是经验丰富的工程师,也难以避免在应急情况下的紧张与压力,增加了操作错误的可能性。
3、同时,传统运维中,运维平台与用户平台之间并没有太多交互,运维中侧重于在平台出现故障时,对故障做出响应,而用户正常使用平台功能时,并不会对于日常行为加以辅助。
4、现有技术方案主要存在以下几个问题:
5、高成本:需要大量的人力和物理资源,从而导致运维成本高。
6、低效率:依赖于人工,例如手动监控、故障排查和系统升级等,这些工作既耗时又容易出错,效率低下。
7、灵活性不足:难以快速适应业务需求的变化,部署新应用
8、可扩展性差:当业务量增长时,传统it基础设施往往难以迅速扩展以满足额外的需求。
9、难以实现精细化管理:数据分析和监控手段的限制,很难对系统进行精确的性能管理和优化。
10、缺乏辅助功能:平台无故障,用户正常使用平台功能时,并不会对于用户使用加以辅助。
技术实现思路
1、本专利技术的目的就是为了提供一种基于生成式ai技术的平台运维方法和装置,通过利用生成式ai技术,自动化执行日常的运维任务,对不同服务器进行针对性运维,在应对故障的同时,对用户正在训练中的模型进行准确度预测,提高用户模型的准确性和稳定性,同时降低运维成本,增加系统的可靠性和稳定性。
2、本专利技术的目的可以通过以下技术方案来实现:
3、一种基于生成式ai技术的平台运维方法,所述方法包括:
4、实时采集运行数据,包括平台数据和用户模型训练状态;
5、利用用户模型训练状态构成训练状态数据集,并利用训练状态集训练预测模型;
6、处理运行数据并进行筛选,提取数据特征;
7、利用ai决策模型,根据数据特征对系统状态进行判断;
8、利用ai监督模型对判断结果进行评估审核;
9、若判断结果通过审核且判断结果为系统未出现故障,则利用预测模型,预测用户模型的准确率;
10、若判断结果通过审核且判断结果为系统出现故障或即将出现故障,则触发故障操作;
11、将审核结果反馈回ai决策模型,对ai决策模型进行优化训练。
12、进一步地,所述平台数据包括:cpu占用率、内存使用率、磁盘i/o、网络带宽、日志信息、用户访问量、应用程序请求量、平台返回的错误代码、平台返回的异常信息、系统负载、磁盘空间使用情况和网络延迟。
13、进一步地,所述预测模型的训练过程包括:
14、定时提取模型的训练状态;
15、将前一时刻的模型训练状态与后一时刻的模型训练状态一一对应,建立训练状态数据集;
16、利用训练状态数据集,通过随机森林算法构建多个决策树的方法,训练预测模型。
17、进一步地,所述对运行数据的处理包括去除异常值、填补缺失数据和数据格式标准化。
18、进一步地,所述ai决策模型的训练过程包括:
19、根据系统接入的服务器类型,进行网络检索和历史数据库检索,构建针对服务器类型的自适应训练数据集;
20、利用自适应训练数据集,训练ai决策模型。
21、进一步地,所述ai决策模型对系统状态进行判断的过程包括:
22、根据数据特征判断系统状态是否出现故障;
23、若判断系统状态出现故障,则进一步分析系统故障类别。
24、更进一步地,所述系统故障类别包括资源调度问题、容器优化问题、监控和预警问题、容错和故障恢复问题、分布式训练问题、模型并行化问题以及数据并行问题。
25、进一步地,所述故障操作包括:
26、根据故障类别,采取历史解决方案解决故障;
27、生成报警通知,通知相关的运维人员和团队解决故障。
28、进一步地,所述ai监督模型通过学习人工经验和历史故障,对判断结果进行评估,若判断结果未通过审核,则生成报警通知,通知相关的运维人员和团队进行检修。
29、一种基于生成式ai技术的平台运维装置,所述装置包括:
30、数据采集模块,实时采集运行数据,包括平台数据和用户模型训练状态;
31、数据处理模块,处理运行数据并进行筛选,提取数据特征;
32、模型训练模块,采集运行数据、历史数据与网络数据,训练预测模型、ai决策模型和ai监督模型;
33、决策模块,利用ai决策模型,根据数据特征对系统状态进行判断;
34、监督模块,利用ai监督模型对判断结果进行评估审核;
35、预测模块,若判断结果通过审核且判断结果为系统未出现故障,则利用预测模型,预测用户模型的准确率;
36、故障响应模块,若判断结果通过审核且判断结果为系统出现故障或即将出现故障,则触发故障操作;
37、模型优化模块,将审核结果反馈回ai决策模型,对ai决策模型进行优化训练。
38、与现有技术相比,本专利技术具有以下有益效果:
39、1.本专利技术通过生成式ai技术,在平台运维时能够进行自决策,自评估和自优化,提高运维效率的同时也降低了运维成本,在面对故障与潜在故障时,能够基于历史数据自动采取措施并报警,增加了系统的可靠性和稳定性,在未检测出故障时,也能够持续对用户在平台中训练的模型进行质量预测,提高用户模型的准确性和稳定性;
40、2.本专利技术通过生成式ai技术,利用ai模型代替人工运维,能够有效地解决人工误操作问题,极大的降低了故障操作操作风险,并对不同场景下的故障操作具有自适应,降低了运维门槛;
41、3.本专利技术根据系统接入的服务器类型,能够训练出针对性的决策模型,使得平台运维具有自适应性,在运维时能够更加准确的进行决策,减少故障的漏判和误判,实现了精细化管理。
本文档来自技高网...【技术保护点】
1.一种基于生成式AI技术的平台运维方法,其特征在于,所述方法包括:
2.根据权利要求1所述的一种基于生成式AI技术的平台运维方法,其特征在于,所述平台数据包括:CPU占用率、内存使用率、磁盘I/O、网络带宽、日志信息、用户访问量、应用程序请求量、平台返回的错误代码、平台返回的异常信息、系统负载、磁盘空间使用情况和网络延迟。
3.根据权利要求1所述的一种基于生成式AI技术的平台运维方法,其特征在于,所述预测模型的训练过程包括:
4.根据权利要求1所述的一种基于生成式AI技术的平台运维方法,其特征在于,所述处理运行数据并进行筛选的过程包括去除异常值、填补缺失数据和数据格式标准化。
5.根据权利要求1所述的一种基于生成式AI技术的平台运维方法,其特征在于,所述AI决策模型的训练过程包括:
6.根据权利要求1所述的一种基于生成式AI技术的平台运维方法,其特征在于,所述AI决策模型对系统状态进行判断的过程包括:
7.根据权利要求6所述的一种基于生成式AI技术的平台运维方法,其特征在于,所述系统故障类别包括资源调度问题
8.根据权利要求1所述的一种基于生成式AI技术的平台运维方法,其特征在于,所述故障操作包括:
9.根据权利要求1所述的一种基于生成式AI技术的平台运维方法,其特征在于,所述AI监督模型通过学习人工经验和历史故障,对判断结果进行评估,若判断结果未通过审核,则生成报警通知,通知相关的运维人员和团队进行检修。
10.一种基于生成式AI技术的平台运维装置,其特征在于,所述装置包括:
...【技术特征摘要】
1.一种基于生成式ai技术的平台运维方法,其特征在于,所述方法包括:
2.根据权利要求1所述的一种基于生成式ai技术的平台运维方法,其特征在于,所述平台数据包括:cpu占用率、内存使用率、磁盘i/o、网络带宽、日志信息、用户访问量、应用程序请求量、平台返回的错误代码、平台返回的异常信息、系统负载、磁盘空间使用情况和网络延迟。
3.根据权利要求1所述的一种基于生成式ai技术的平台运维方法,其特征在于,所述预测模型的训练过程包括:
4.根据权利要求1所述的一种基于生成式ai技术的平台运维方法,其特征在于,所述处理运行数据并进行筛选的过程包括去除异常值、填补缺失数据和数据格式标准化。
5.根据权利要求1所述的一种基于生成式ai技术的平台运维方法,其特征在于,所述ai决策模型的训练过程包括:
...
【专利技术属性】
技术研发人员:徐骏,石炎军,周桦钧,苏博,
申请(专利权)人:上海天玑科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。