System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于观测云进行根因分析的结果输出方法及系统技术方案_技高网

一种基于观测云进行根因分析的结果输出方法及系统技术方案

技术编号:40358612 阅读:7 留言:0更新日期:2024-02-09 14:44
本发明专利技术提供一种基于观测云进行根因分析的结果输出方法及系统,方法包括:结果展示、异常告警、方案推荐、外部运维体系对接;结果展示包括:基于链路拓扑图像展示结果;以因果图形式展示上下游影响;提供细节化、可修复化的根因列表;异常告警包括:提供用户自定义根因分析告警策略,智能巡检用户自定义根因分析;方案推荐包括:基于用户自定义策略结合事故现场,通过机器学习方法实现精准方案推荐;外部运维体系对接包括:通过自动化脚本或API接口调用的方式,自动化执行故障自愈动作。本发明专利技术比传统手动定位根因更加全面,快速,便捷,可解释,能够获取高质量高时效的监控数据,实现运维场景的实时感知,提高了对于根因分析结果的处理效率。

【技术实现步骤摘要】

本专利技术涉及根因分析,具体而言,涉及一种基于观测云进行根因分析的结果输出方法及系统


技术介绍

1、根本原因分析(root cause analysis,rca)是一种结构化的问题处理方法,用以逐步找出问题的根本原因并加以解决,而不是仅仅关注问题的表征。根本原因分析是一个系统化的问题处理过程,包括确定和分析问题原因,找出问题解决办法,并制定问题预防措施。

2、根因分析的目标是确定问题的根本原因,以便采取适当的措施来解决问题并防止类似问题再次发生。

3、然而,传统的aiops运维系统在解决运维场景时有着难以逾越的技术问题,比如,如何获取高质量高时效的监控数据。

4、现阶段的机器学习模型往往只能进行单指标预测及异常点的检测,无法实现运维场景的实时感知,无法支持多技术栈和混合架构下的不断增大的复杂性,基于根因分析的处理效果较差。


技术实现思路

1、鉴于此,本专利技术的目的在于提出一种基于观测云进行根因分析的结果输出方法,基于观测云根因分析构建发现问题、分析问题、定位问题的闭环流程,利用观测云serverless引擎func,通过检测函数的开发,满足一站式分析的场景,针对有固定action响应操作的场景也可通过命令函数的方式实现发现、分析、定位、解决问题的闭环处理,提高基于根因分析的处理效果。

2、本专利技术提供一种基于观测云进行根因分析的结果输出方法,包括:结果展示(结果展示是指具备根因分析结果的不同展示形式,根据不同的使用者,可展示不同的信息重点)、异常告警(异常告警是指具备对符合预先配置规则的异常情况进行告警的能力)、方案推荐(是指具备在问题定位与排查过程中积累解决方案,基于根因定位进行推荐的能力)、外部运维体系对接(是指具备基于api接口与消息/通知等形式对接外部运维系统的能力);

3、其中,所述结果展示的方法包括:

4、展示指标、链路、日志等故障现场异常数据;基于链路拓扑图像展示结果;以因果图形式展示上下游影响;展示问题发生的环节与影响范围;提供具备多种观测视图的可视化方案;提供细节化、可修复化的根因列表;提供故障预测,提前告警故障;

5、所述异常告警的方法包括:

6、在符合预设配置规则时产生相应的告警信息,触发告警详情信息并通过邮件、短信、电话或者im信息等通知相关技术人员;在告警同时产生诊断信息,智能巡检触发告警并产生诊断信息;提供用户自定义根因分析告警策略,智能巡检用户自定义根因分析;在告警同时给出推荐的解决方案信息;

7、其中,触发告警详情信息并通过im信息通知的方法包括以下步骤:

8、s1、编写飞书机器人收取issue信息的规则;

9、s2、编写监听脚本;

10、s21、在做好所述收取issue信息的规则配置后,在已经安装配置好的datafluxfunc中编写获取新消息,并通过webhook发送到飞书机器人的脚本;

11、s22、获取所有的频道列表,找出要监听的全部频道;

12、在引入需要的常量后需要两个方法来完成新issue的获取,首先要了解异常追踪的展示逻辑,在异常追踪模块中所有的issue都会被频道管理,但是所有新建的issue都会出现在全部的频道中,所以需要监听全部频道;

13、s23、在获取到需要的频道channel_uuid后,通过频道id查找当前频道中的新增issue,同时将获取到的新issue发送给飞书机器人的webhook;

14、s24、配置定时任务,自动执行获取新issue的任务;

15、在配置好任务后点击执行立即触发一次任务,或当有新issue时自行触发;当异常追踪中有新issue时,能够在配置了机器人应用的飞书群中获取到新issue提醒;

16、s3、在飞书中收取新issue并配置回复流程;

17、s4、编写中转发送评论脚本;

18、本专利技术为方便及时地获取异常追踪中的新issue问题,通过在内部群中创建一个飞书、钉钉或者企业微信的机器人以接受异常追踪中的新issue(问题)的提醒或新回复的提醒,帮助及时处理issue,通过@机器人的方式快速进行issue回复,提高异常处理效率;

19、所述方案推荐的方法包括:

20、基于固定的关联关系与关键词进行粗略的可行性解决方案推荐;基于方案提取关键词,构建问题、根因与解决方案的关联;基于标签与概率分析的更精确的解决方案推荐;基于用户自定义策略结合事故现场,通过机器学习方法实现精准方案推荐;提供联网自动匹配修改建议;

21、所述外部运维体系对接的方法包括:

22、提供以api接口(应用程序编程接口)形式的开放平台;通过所述api接口触发外部运维体系的请求;监听外部运维体系的信息变更并主动触发根因定位分析;采用被调用方式和/或主动发起调用两种方式触发根因分析;调度外部运维体系的能力进行根因定位分析,通过func数据处理平台调用任意外部api进行根因定位;通过自动化脚本或api接口调用的方式,自动化执行故障自愈动作。

23、进一步地,所述s1步骤的编写飞书机器人收取issue信息的规则的方法包括以下步骤:

24、s11、构建收取issue信息的流程以捕获新issue和回复信息;

25、s12、采用网络钩子webhook作为流程触发条件,当监听脚本发现有新issue记录或者回复时,通过调用飞书的webhook触发机器人的消息推送流程;

26、s13、通过配置webhook触发器将issue中的一些参数捕获作为机器人发送飞书消息的输入参数;

27、s14、通过markdown的方式编写想要呈现的消息样式,同时引用在webhook中配置的参数来呈现消息。

28、进一步地,所述s3步骤的在飞书中收取新issue并配置回复流程的方法包括以下步骤:

29、s31、配置飞书机器人应用的回复issue规则,对获取到的新issue记录行回复评论;

30、所述回复issue规则的触发条件是当需要进行issue消息的回复时,@机器人的动作触发,配置在指定群主中生效该规则,或配置指定的触发词条件;

31、s32、在配置好机器人触发规则后创建回复消息的规则,通过api服务作为中转,拆解回复消息中的issueid,向openapi发送添加评论请求;

32、优选地,通过填写api的返回示例,验证添加评论是否成功;

33、s33、当所述添加评论请求发送成功后,通过api获取返回参数,给消息发送者发送消息成功发送的通知。

34、进一步地,所述s4步骤的编写中转发送评论脚本的方法包括以下步骤:

35、s41、在dataflux func中利用授权链接功能创建一个api服务,在收取到消息解析后向openapi发送新增评论的请求,同时添加返回的json本文档来自技高网...

【技术保护点】

1.一种基于观测云进行根因分析的结果输出方法,其特征在于,包括:结果展示、异常告警、方案推荐、外部运维体系对接;

2.根据权利要求1所述的基于观测云进行根因分析的结果输出方法,其特征在于,所述S1步骤的编写飞书机器人收取Issue信息的规则的方法包括以下步骤:

3.根据权利要求1所述的基于观测云进行根因分析的结果输出方法,其特征在于,所述S3步骤的在飞书中收取新issue并配置回复流程的方法包括以下步骤:

4.根据权利要求1所述的基于观测云进行根因分析的结果输出方法,其特征在于,所述S4步骤的编写中转发送评论脚本的方法包括以下步骤:

5.根据权利要求1所述的基于观测云进行根因分析的结果输出方法,其特征在于,所述结果展示的方法中的提供具备多种观测视图的可视化方案包括:提供开发者、决策者视角的视图;所述结果展示的方法中的提供细节化、可修复化的根因列表包括:提供具体到代码级、SQL级的根因分析列表。

6.根据权利要求1所述的基于观测云进行根因分析的结果输出方法,其特征在于,所述方案推荐的方法中的提供联网自动匹配修改建议包括:调用大模型接口,获取大模型分析后的处理意见;所述调用大模型接口的方法包括:在Func数据处理平台里调用大模型,通过Func数据处理平台调用任意外部API进行根因定位。

7.根据权利要求1所述的基于观测云进行根因分析的结果输出方法,其特征在于,所述外部运维体系对接的方法中的自动化执行故障自愈动作包括:产生告警后自动重启,通过Func数据处理平台调用脚本;所述通过Func数据处理平台调用脚本的方法包括:通过Func数据处理平台触发抢占即时型实例的购买。

8.一种基于观测云进行根因分析的结果输出系统,其特征在于,执行如权利要求1-7任一项所述的基于观测云进行根因分析的结果输出方法,包括:

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1-7任一项所述基于观测云进行根因分析的结果输出方法的步骤。

10.一种计算机设备,所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述基于观测云进行根因分析的结果输出方法的步骤。

...

【技术特征摘要】

1.一种基于观测云进行根因分析的结果输出方法,其特征在于,包括:结果展示、异常告警、方案推荐、外部运维体系对接;

2.根据权利要求1所述的基于观测云进行根因分析的结果输出方法,其特征在于,所述s1步骤的编写飞书机器人收取issue信息的规则的方法包括以下步骤:

3.根据权利要求1所述的基于观测云进行根因分析的结果输出方法,其特征在于,所述s3步骤的在飞书中收取新issue并配置回复流程的方法包括以下步骤:

4.根据权利要求1所述的基于观测云进行根因分析的结果输出方法,其特征在于,所述s4步骤的编写中转发送评论脚本的方法包括以下步骤:

5.根据权利要求1所述的基于观测云进行根因分析的结果输出方法,其特征在于,所述结果展示的方法中的提供具备多种观测视图的可视化方案包括:提供开发者、决策者视角的视图;所述结果展示的方法中的提供细节化、可修复化的根因列表包括:提供具体到代码级、sql级的根因分析列表。

6.根据权利要求1所述的基于观测云进行根因分析的结果输出方法,其特征在于,所述方案推荐的方法中的提供联网自动匹配修改建议包括:调用大模...

【专利技术属性】
技术研发人员:范莹莹蒋烁淼
申请(专利权)人:上海观测未来信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1