-
RCA 根因分析推断-12-从 NOC 开始,如何一步步推断出根因+最终的分析报告(包含推断过程+打分机制)
序言
结合 ai 打造 rca 系统,先让 ai 回答一下。
chat
从 NOC 开始,如何一步步推断出根因+最终的分析报告(包含推断过程+打分机制),给出整体的流程,要求尽可能的闭环+反馈修正+提升准确率
非常好,这是在构建AIOps根因分析系统时最核心的一环:从 NOC 一线告警接收开始,逐步推理 → 定位根因 → 输出解释型分析报告 → 人工反馈修正 → 模型持续学习提升准确...
2025-04-19 06:31:52 |
Note
-
RCA 根因分析推断-11-结合AI如何打造智能根因分析定位系统?
序言
结合 ai 打造 rca 系统,先让 ai 回答一下。
chat
你是一名监控报警+运维的资深架构师,经验丰富,知识跨多个领域。现在让你使用AI大模型,利用报警信息、日志、指标、Trace+专家知识库(可以降级为AI通识),如何从零到1打造AI智能根因分析系统平台?
很好,这是一个非常有挑战性且具有前瞻性的系统性工程。你想打造的“AI智能根因分析系统平台”,是典型的AIOps高...
2025-04-19 06:31:52 |
Note
-
RCA 根因分析推断-08-COT Chain of Thought(思维链)
序言
结合 ai 打造 rca 系统,先让 ai 回答一下。
chat
详细介绍一下 COT
“COT” 有多个含义,具体要看上下文。但结合你目前的关注点(AI + 根因分析 + 智能推理 + 运维场景),COT 更可能是指:
🧠 COT = Chain of Thought(思维链)
这是在使用 大语言模型(LLM) 时的一种提示工程和推理策略,它通过**引导模型“逐步推理...
2025-04-19 06:31:52 |
Note
-
RCA 根因分析推断-08-NOC Network Operations Center(网络运营中心)
序言
结合 ai 打造 rca 系统,先让 ai 回答一下。
chat
NOC 是什么?
NOC 是 Network Operations Center(网络运营中心)的缩写。
✅ 简单定义:
NOC 是一个集中监控、管理和维护 IT 基础设施和服务可用性的指挥中心,主要职责是确保网络、服务器、应用、服务等持续稳定运行。
📡 NOC 的典型职责:
...
2025-04-19 06:31:52 |
Note
-
RCA 根因分析推断-06-alarm 基本的分析流程
思路
场景
我们需要分析报警,但是资源信息等很多,所以需要分级+剪枝过滤
基本的步骤
1)从 alarm==>app
从报警关联到所有的 app
2) 从 alarm 找到所有的关联报警的资源
app
phy / vm / redis / mysql / pod / …
包括网络:
vm / phy ====> nginx
3) app 的进一步关联资源
...
2025-04-19 06:31:52 |
Note
-
RCA 根因分析推断-05-alarm sync neo4j 报警数据同步到图数据库
思路
场景
我们接收到报警之后,需要把报警信息落库。
其实有两种思路。
一种是流,一种是批模式。
优缺点
批
批模式可以做一些批量的优化操作。
比如 A2 的 disk 之类的无用异常过滤。
批模式如果改为 10 秒一次呢?
有什么问题?
批模式还可以支持数据的重跑,但是流没有这个能力。
可以两种模式都保留。
流
流模式可以在数据全部落库之后,最后做一下数据的落库...
2025-04-19 06:31:52 |
Note
-
RCA 根因分析推断-04-应用到物理机的基本资源?
思路
应用
从报警的应用触发,经过 3 层左右,关联到所有报警的物理机器资源?
通用性
可以考虑将开头的 appList 放在入参,和目标存在问题的资源 ipList 放在那里?
精致的细分
可以把各种资源还是区分开?
统一调整一下【查看子图】的具体实现逻辑?
去重
去重的时候,不要把 app 之类的给去没有了??
参考资料
思路
应用
...
2025-04-19 06:31:52 |
Note
-
RCA 根因分析推断-03-变更事件的内因+依赖资源的异常
变更事件
说明
要考虑哪些异常的内因呢?
同时考虑一些依赖资源的异常。
现状
特别精确的时间范围控制,会导致无法准确的命中。
内因
磁盘 一般 A2 以及以下可以忽略
mem 内存 A2 以及以下可以忽略?
disk ?
cpu ?
可以看一下 A2 以及以下的是不是没什么用?
GC
服务不可用
依赖资源
公共资源
app
vm
phy
redis
m...
2025-04-19 06:31:52 |
Note