个人简介

Echo Blog


江湖无名 安心练剑
  • RCA 根因分析推断-12-从 NOC 开始,如何一步步推断出根因+最终的分析报告(包含推断过程+打分机制)
    序言 结合 ai 打造 rca 系统,先让 ai 回答一下。 chat 从 NOC 开始,如何一步步推断出根因+最终的分析报告(包含推断过程+打分机制),给出整体的流程,要求尽可能的闭环+反馈修正+提升准确率 非常好,这是在构建AIOps根因分析系统时最核心的一环:从 NOC 一线告警接收开始,逐步推理 → 定位根因 → 输出解释型分析报告 → 人工反馈修正 → 模型持续学习提升准确...
    2025-04-19 06:31:52 | Note
  • RCA 根因分析推断-11-结合AI如何打造智能根因分析定位系统?
    序言 结合 ai 打造 rca 系统,先让 ai 回答一下。 chat 你是一名监控报警+运维的资深架构师,经验丰富,知识跨多个领域。现在让你使用AI大模型,利用报警信息、日志、指标、Trace+专家知识库(可以降级为AI通识),如何从零到1打造AI智能根因分析系统平台? 很好,这是一个非常有挑战性且具有前瞻性的系统性工程。你想打造的“AI智能根因分析系统平台”,是典型的AIOps高...
    2025-04-19 06:31:52 | Note
  • RCA 根因分析推断-08-COT Chain of Thought(思维链)
    序言 结合 ai 打造 rca 系统,先让 ai 回答一下。 chat 详细介绍一下 COT “COT” 有多个含义,具体要看上下文。但结合你目前的关注点(AI + 根因分析 + 智能推理 + 运维场景),COT 更可能是指: 🧠 COT = Chain of Thought(思维链) 这是在使用 大语言模型(LLM) 时的一种提示工程和推理策略,它通过**引导模型“逐步推理...
    2025-04-19 06:31:52 | Note
  • RCA 根因分析推断-08-NOC Network Operations Center(网络运营中心)
    序言 结合 ai 打造 rca 系统,先让 ai 回答一下。 chat NOC 是什么? NOC 是 Network Operations Center(网络运营中心)的缩写。 ✅ 简单定义: NOC 是一个集中监控、管理和维护 IT 基础设施和服务可用性的指挥中心,主要职责是确保网络、服务器、应用、服务等持续稳定运行。 📡 NOC 的典型职责: ...
    2025-04-19 06:31:52 | Note
  • RCA 根因分析推断-06-alarm 基本的分析流程
    思路 场景 我们需要分析报警,但是资源信息等很多,所以需要分级+剪枝过滤 基本的步骤 1)从 alarm==>app 从报警关联到所有的 app 2) 从 alarm 找到所有的关联报警的资源 app phy / vm / redis / mysql / pod / … 包括网络: vm / phy ====> nginx 3) app 的进一步关联资源 ...
    2025-04-19 06:31:52 | Note
  • RCA 根因分析推断-05-alarm sync neo4j 报警数据同步到图数据库
    思路 场景 我们接收到报警之后,需要把报警信息落库。 其实有两种思路。 一种是流,一种是批模式。 优缺点 批 批模式可以做一些批量的优化操作。 比如 A2 的 disk 之类的无用异常过滤。 批模式如果改为 10 秒一次呢? 有什么问题? 批模式还可以支持数据的重跑,但是流没有这个能力。 可以两种模式都保留。 流 流模式可以在数据全部落库之后,最后做一下数据的落库...
    2025-04-19 06:31:52 | Note
  • RCA 根因分析推断-04-应用到物理机的基本资源?
    思路 应用 从报警的应用触发,经过 3 层左右,关联到所有报警的物理机器资源? 通用性 可以考虑将开头的 appList 放在入参,和目标存在问题的资源 ipList 放在那里? 精致的细分 可以把各种资源还是区分开? 统一调整一下【查看子图】的具体实现逻辑? 去重 去重的时候,不要把 app 之类的给去没有了?? 参考资料 思路 应用 ...
    2025-04-19 06:31:52 | Note
  • RCA 根因分析推断-03-变更事件的内因+依赖资源的异常
    变更事件 说明 要考虑哪些异常的内因呢? 同时考虑一些依赖资源的异常。 现状 特别精确的时间范围控制,会导致无法准确的命中。 内因 磁盘 一般 A2 以及以下可以忽略 mem 内存 A2 以及以下可以忽略? disk ? cpu ? 可以看一下 A2 以及以下的是不是没什么用? GC 服务不可用 依赖资源 公共资源 app vm phy redis m...
    2025-04-19 06:31:52 | Note