运维体系（Ops / SRE Platform）

目标：让系统“可发布、可回滚、可治理、可恢复”

P0（基础运维）
├── CMDB
├── 容器平台（K8s）
├── 发布平台
├── 配置中心

P1（稳定运行）
├── 服务治理（Service Mesh / Dubbo / SpringCloud）
├── 运维工具集

P2（事件驱动）
├── 事件中心（告警 / 事件 / 变更）
├── 灰度平台（Feature Flag）
├── 变更管理平台

P3（可靠性工程）
├── 自动化运维 / 自愈
├── 容量 & 成本管理
├── 运维审计 / 合规

下面我用工程化、平台化、可落地的方式，把预测性运维（Predictive Operations / Predictive Maintenance in IT）讲清楚，重点放在它到底预测什么、怎么做、和传统运维/SRE 的本质差异，以及如何在你当前的平台体系中自然演进出来。

一、一句话定义（先给结论）

预测性运维：基于历史与实时运行数据，通过统计模型 / 机器学习 / 时序分析，提前预测系统未来的故障风险、性能退化或容量瓶颈，并在问题发生之前触发预防性或自动化干预的运维模式。

核心关键词只有四个： 提前（Before）｜概率（Risk）｜趋势（Trend）｜干预（Action）

二、预测性运维 vs 传统运维 / SRE

维度	传统运维	SRE	预测性运维
触发方式	故障后	告警触发	风险触发
时间点	After	During	Before
决策依据	经验	指标 & SLO	趋势 & 概率
处理方式	人工	自动化	预防性 / 自愈
目标	恢复	控制 MTTR	避免事故发生

一句话差异：

SRE 关注“出事了怎么快恢复”，预测性运维关注“别让它出事”。

三、预测性运维到底在“预测什么”？

不是“算命”，而是高度工程化的预测对象。

1️⃣ 故障风险预测（Failure Prediction）

预测：

服务在未来 T 时间窗口内 发生故障的概率

典型场景：

JVM Full GC 频率持续升高
线程数 / FD 数逼近上限
Error Rate 未超阈值，但趋势异常

输出不是“会不会挂”，而是：

Service A
未来 6 小时内故障概率：72%
主要风险因子：内存碎片化、GC 暴涨

2️⃣ 性能退化预测（Performance Degradation）

预测：

RT 是否会在未来逐步恶化
P99 延迟趋势是否不可逆

场景示例：

缓存命中率缓慢下降
DB 慢 SQL 占比上升
依赖服务 RT 抖动传导

3️⃣ 容量与资源瓶颈预测（Capacity Prediction）

预测：

CPU / 内存 / 磁盘 / 连接数何时耗尽
K8s 集群是否即将过载

典型输出：

当前增长趋势下：
Kafka Broker 磁盘将在 3.2 天后达到 85%

4️⃣ 故障演化路径预测（Failure Propagation）

预测：

一个局部异常，是否会演变成系统级事故

例如：

Auth Service RT ↑
→ Login Success Rate ↓
→ Order Create Error ↑
→ GMV 风险

这是你后面 AI 根因分析 / 拓扑推理 的重要前置能力。

四、预测性运维的技术基础（不神秘）

1️⃣ 数据基础（必须具备）

预测性运维 100% 建立在可观测性之上：

Metrics（时序）
Logs（事件）
Traces（调用因果）
Changes（变更）
Topology（依赖）

👉 没有数据打通，谈预测性运维就是 PPT。

2️⃣ 常见预测方法（工程可落地）

（1）统计与时序模型（第一阶段最实用）

移动平均
指数平滑
ARIMA / Holt-Winters
趋势外推

优点：

易解释
易落地
运维接受度高

（2）异常检测（Anomaly Detection）

Seasonal Decomposition
Isolation Forest
基于 SLI 的基线偏移

重点不是“是否异常”，而是：

异常是否持续 + 是否放大

（3）风险评分模型（Risk Scoring）

将多个信号融合：

Risk Score =
  CPU Trend
+ Memory Fragmentation
+ Error Rate Gradient
+ Change Impact

输出一个可排序的风险列表，而不是一堆告警。

（4）机器学习（进阶阶段）

LSTM / Prophet（时序）
GBDT / XGBoost（特征融合）
图推理（依赖传播）

⚠️ 注意： ML 是“放大器”，不是起点。

五、预测性运维不是“看”，而是“动”

这是和“分析型平台”最大的区别。

预测 → 决策 → 行动（闭环）

示例 1：容量预测

预测：3 天后磁盘不足
→ 自动扩容
→ 同步调整 HPA
→ 标记成本变更

示例 2：性能退化

预测：P99 RT 持续恶化
→ 降级非核心功能
→ 限流
→ 暂停高风险变更

示例 3：故障风险

预测：Service X 风险高
→ 提前拉响“风险告警”（非事故）
→ 值班关注
→ 预执行 Runbook

六、在你整体运维体系中的位置

你可以这样理解演进关系：

监控
 → 告警
   → 事件
     → 自动化
       → SRE
         → 预测性运维
           → 智能自愈

📌 预测性运维是 SRE 的“下一层能力”，不是替代。

七、为什么很多公司“做不起来”

典型失败原因：

数据不干净、不统一
没有 Service 视角
只做预测，不敢自动执行
解释性差，运维不信

成功路径只有一条：

先“准”，再“早”，最后“自动”。

运维体系（Ops / SRE Platform）
下面我用工程化、平台化、可落地的方式，把预测性运维（Predictive Operations / Predictive Maintenance in IT）讲清楚，重点放在它到底预测什么、怎么做、和传统运维/SRE 的本质差异，以及如何在你当前的平台体系中自然演进出来。

成熟企业级技术平台-051-预测性运维（Predictive Operations / Predictive Maintenance in IT）