运维体系(Ops / SRE Platform)

目标:让系统“可发布、可回滚、可治理、可恢复”

P0(基础运维)
├── CMDB
├── 容器平台(K8s)
├── 发布平台
├── 配置中心

P1(稳定运行)
├── 服务治理(Service Mesh / Dubbo / SpringCloud)
├── 运维工具集

P2(事件驱动)
├── 事件中心(告警 / 事件 / 变更)
├── 灰度平台(Feature Flag)
├── 变更管理平台

P3(可靠性工程)
├── 自动化运维 / 自愈
├── 容量 & 成本管理
├── 运维审计 / 合规

服务治理

下面我将以“治理能力本身”而非具体框架为主线,对服务治理(Service Governance)做一次体系化、平台化、可演进的完整拆解,并把 Service Mesh、Dubbo、Spring Cloud 放在同一张能力坐标系中进行对比与落地说明,避免“工具即架构”的误区。


一、什么是服务治理(先立共识)

1️⃣ 一句话定义

服务治理,是在分布式系统中,对“服务之间的调用关系、通信行为与运行风险”进行统一控制、观测和演进的能力体系。

核心对象不是“服务”,而是:

  • 调用
  • 流量
  • 失败
  • 演进节奏

2️⃣ 服务治理要解决的本质问题

  1. 服务如何被发现
  2. 请求如何被路由
  3. 失败如何被隔离
  4. 流量如何被控制
  5. 变更如何被平滑演进
  6. 问题如何被快速定位

二、服务治理的核心能力拆解(与技术无关)

能力域 说明
服务发现 服务注册、心跳、下线
路由治理 版本路由、标签路由
负载均衡 本地 / 全局策略
弹性治理 超时、重试、熔断、隔离
流量治理 限流、降级、灰度
可观测性 Metrics / Traces
安全治理 mTLS、认证
演进治理 蓝绿、金丝雀

👉 这张表就是“服务治理平台”的能力清单。


三、三种技术路线的本质差异

1️⃣ Dubbo / Spring Cloud(SDK 型治理)

架构特点

  • 治理能力 内嵌在业务进程中
  • 通过 SDK / Starter 实现

优点

  • 性能损耗低
  • 语义清晰
  • 上手成本低

局限

  • 强语言绑定
  • 升级成本高
  • 治理策略分散在代码中

2️⃣ Service Mesh(Sidecar / Ambient)

架构特点

  • 治理能力 下沉到基础设施层
  • 通过代理(Envoy)实现

优点

  • 语言无关
  • 策略集中
  • 对业务零侵入

局限

  • 架构复杂
  • 运维成本高
  • 性能与可观测性成本

3️⃣ 本质差异总结

维度 Dubbo / SC Service Mesh
治理位置 应用内 基础设施层
侵入性
语言依赖
升级难度
适用阶段 中小规模 大规模、多语言

四、核心治理能力逐项展开(重点)

1️⃣ 服务发现与注册

  • 服务实例注册
  • 健康检查
  • 动态上下线

Mesh 中由控制面维护,SDK 中由客户端完成。


2️⃣ 路由与流量治理(治理的灵魂)

常见规则

  • 按版本
  • 按标签
  • 按请求头
  • 按用户

典型场景

  • 金丝雀发布
  • A/B 测试
  • 灰度回滚

3️⃣ 弹性与容错治理

标准能力

  • Timeout
  • Retry
  • Circuit Breaker
  • Bulkhead

没有弹性治理的微服务,一定会“雪崩”。


4️⃣ 限流与降级

  • 全局限流
  • 单服务限流
  • 熔断后自动降级

5️⃣ 可观测性(治理的眼睛)

  • QPS / RT / Error
  • 依赖拓扑
  • 异常传播路径

📌 Mesh 天然更适合统一观测。


6️⃣ 安全治理(零信任基础)

  • 服务身份
  • mTLS
  • 调用鉴权

五、治理与平台的协同关系(你关心的重点)

与发布平台

  • 发布策略驱动路由规则
  • 自动灰度

与配置中心

  • 治理规则配置化
  • 动态生效

与 SRE

  • SLO 触发限流 / 降级

与 CMDB

  • 服务拓扑与归属关系

六、落地策略(非常现实)

1️⃣ 不要“全量 Mesh 化”

  • 从入口 / 核心链路开始
  • 混合治理是常态

2️⃣ 统一“治理抽象”

  • 规则模型统一
  • 执行方式可多样

3️⃣ 治理规则必须可回滚


七、成熟度演进模型

L1:基础发现与负载

  • SDK 模式

L2:弹性治理

  • 超时 / 熔断

L3:流量治理

  • 灰度 / 限流

L4:平台治理

  • Mesh / 控制面

L5:智能治理