RCA 根因分析推断-14-从AI通用知识(专家规则)出发,给出推断步骤
序言
结合 ai 打造 rca 系统,先让 ai 回答一下。
chat
你是一名监控报警+运维的资深架构师,经验丰富,知识跨多个领域。性格严谨、理性,擅长反思,逻辑自洽。针对一个已知的异常,如何给出对应的问题排查步骤,最好也可以转换为程序可以自定验证的执行步骤。
要将“异常排查”从人肉经验转为系统化、自动化,需要把整个排查过程模型化为:
🧠 高质量问题排查的本质结构
针对一个...
2025-04-19 06:31:52 |
Note
RCA 根因分析推断-12-从告警出发,推断出根因+分析报告
序言
结合 ai 打造 rca 系统,先让 ai 回答一下。
chat
你是一名监控报警+运维的资深架构师,经验丰富,知识跨多个领域。性格严谨、理性。简单起见,我们先从一段时间内的多个报警出发,如何推断出当前问题的根因?要求 top3,并且准确性尽可能的高
非常好,从一段时间内的多个报警出发,推断当前问题的根因,这是 AI 根因分析系统中最关键、最具挑战性的场景。
我会以你要求的风...
2025-04-19 06:31:52 |
Note
RCA 根因分析推断-12-从 NOC 开始,如何一步步推断出根因+最终的分析报告(包含推断过程+打分机制)
序言
结合 ai 打造 rca 系统,先让 ai 回答一下。
chat
从 NOC 开始,如何一步步推断出根因+最终的分析报告(包含推断过程+打分机制),给出整体的流程,要求尽可能的闭环+反馈修正+提升准确率
非常好,这是在构建AIOps根因分析系统时最核心的一环:从 NOC 一线告警接收开始,逐步推理 → 定位根因 → 输出解释型分析报告 → 人工反馈修正 → 模型持续学习提升准确...
2025-04-19 06:31:52 |
Note
RCA 根因分析推断-11-结合AI如何打造智能根因分析定位系统?
序言
结合 ai 打造 rca 系统,先让 ai 回答一下。
chat
你是一名监控报警+运维的资深架构师,经验丰富,知识跨多个领域。现在让你使用AI大模型,利用报警信息、日志、指标、Trace+专家知识库(可以降级为AI通识),如何从零到1打造AI智能根因分析系统平台?
很好,这是一个非常有挑战性且具有前瞻性的系统性工程。你想打造的“AI智能根因分析系统平台”,是典型的AIOps高...
2025-04-19 06:31:52 |
Note
RCA 根因分析推断-08-COT Chain of Thought(思维链)
序言
结合 ai 打造 rca 系统,先让 ai 回答一下。
chat
详细介绍一下 COT
“COT” 有多个含义,具体要看上下文。但结合你目前的关注点(AI + 根因分析 + 智能推理 + 运维场景),COT 更可能是指:
🧠 COT = Chain of Thought(思维链)
这是在使用 大语言模型(LLM) 时的一种提示工程和推理策略,它通过**引导模型“逐步推理...
2025-04-19 06:31:52 |
Note
RCA 根因分析推断-08-NOC Network Operations Center(网络运营中心)
序言
结合 ai 打造 rca 系统,先让 ai 回答一下。
chat
NOC 是什么?
NOC 是 Network Operations Center(网络运营中心)的缩写。
✅ 简单定义:
NOC 是一个集中监控、管理和维护 IT 基础设施和服务可用性的指挥中心,主要职责是确保网络、服务器、应用、服务等持续稳定运行。
📡 NOC 的典型职责:
...
2025-04-19 06:31:52 |
Note
RCA 根因分析推断-06-alarm 基本的分析流程
思路
场景
我们需要分析报警,但是资源信息等很多,所以需要分级+剪枝过滤
基本的步骤
1)从 alarm==>app
从报警关联到所有的 app
2) 从 alarm 找到所有的关联报警的资源
app
phy / vm / redis / mysql / pod / …
包括网络:
vm / phy ====> nginx
3) app 的进一步关联资源
...
2025-04-19 06:31:52 |
Note
RCA 根因分析推断-05-alarm sync neo4j 报警数据同步到图数据库
思路
场景
我们接收到报警之后,需要把报警信息落库。
其实有两种思路。
一种是流,一种是批模式。
优缺点
批
批模式可以做一些批量的优化操作。
比如 A2 的 disk 之类的无用异常过滤。
批模式如果改为 10 秒一次呢?
有什么问题?
批模式还可以支持数据的重跑,但是流没有这个能力。
可以两种模式都保留。
流
流模式可以在数据全部落库之后,最后做一下数据的落库...
2025-04-19 06:31:52 |
Note