运维体系(Ops / SRE Platform)
目标:让系统“可发布、可回滚、可治理、可恢复”
P0(基础运维)
├── CMDB
├── 容器平台(K8s)
├── 发布平台
├── 配置中心
P1(稳定运行)
├── 服务治理(Service Mesh / Dubbo / SpringCloud)
├── 运维工具集
P2(事件驱动)
├── 事件中心(告警 / 事件 / 变更)
├── 灰度平台(Feature Flag)
├── 变更管理平台
P3(可靠性工程)
├── 自动化运维 / 自愈
├── 容量 & 成本管理
├── 运维审计 / 合规
容器平台(K8s)
下面我将从体系定位 → 核心架构 → 关键能力 → 运维与治理 → 安全与成本 → 与周边平台协同 → 成熟度演进七个维度,对容器平台(Kubernetes / K8s)做一次平台化、工程化、可治理的完整拆解,重点放在企业级落地与平台视角,而不仅是组件说明。
一、容器平台的定位(为什么是 K8s)
1️⃣ 一句话定义
Kubernetes 是一个以“声明式 + 控制循环”为核心的分布式系统操作系统,用于统一管理容器化工作负载的生命周期。
关键词:
- 声明式(Desired State)
- 控制循环(Reconcile)
- 去中心调度
- 自愈
2️⃣ K8s 解决的本质问题
| 传统部署 | 容器平台 |
|---|---|
| 主机为中心 | 服务为中心 |
| 脚本驱动 | 控制器驱动 |
| 人管状态 | 系统管状态 |
| 静态容量 | 弹性资源 |
二、Kubernetes 核心架构(必须理解)
1️⃣ 控制面(Control Plane)
API Server
- 唯一入口
- 认证 / 鉴权 / 准入控制
- 所有状态都通过 API 改变
etcd
- 集群状态数据库
- 强一致(Raft)
Scheduler
- 负责 Pod → Node 的调度决策
Controller Manager
- 各类控制器(Deployment / Node / Job)
2️⃣ 数据面(Data Plane)
Node 组件
- kubelet:执行 Pod
- kube-proxy:Service 网络
- Container Runtime(containerd)
三、核心资源模型(平台设计核心)
1️⃣ Pod(最小运行单元)
- 一个或多个容器
- 共享网络 / 存储
2️⃣ Workload 控制器
- Deployment(无状态)
- StatefulSet(有状态)
- DaemonSet(节点级)
- Job / CronJob(任务)
3️⃣ Service & Ingress
- Service:服务发现 & 负载均衡
- Ingress / Gateway:流量入口
4️⃣ 配置与密钥
- ConfigMap
- Secret
四、K8s 的“工程能力”
1️⃣ 声明式发布与回滚
replicas: 3
image: app:v2
系统自动完成:
- 创建
- 对齐
- 回滚
2️⃣ 自愈能力(Self-Healing)
- Pod Crash → 自动重建
- Node NotReady → Pod 迁移
- 健康探针驱动恢复
3️⃣ 弹性伸缩
- HPA:基于指标
- VPA:资源推荐
- Cluster Autoscaler
五、企业级平台能力(K8s 本身不提供)
1️⃣ 多租户与资源隔离
- Namespace
- ResourceQuota
- NetworkPolicy
2️⃣ 发布治理
- 金丝雀 / 蓝绿
- 流量灰度
- 发布门禁
3️⃣ 可观测性
- Metrics(Prometheus)
- Logs(EFK / Loki)
- Traces(Jaeger)
六、安全体系(企业级重点)
1️⃣ 身份与权限
- RBAC
- ServiceAccount
- OIDC
2️⃣ 运行时安全
- 镜像扫描
- Admission Controller
- Pod Security Standards
3️⃣ 网络安全
- NetworkPolicy
- Service Mesh
七、K8s 与周边平台的协同
1️⃣ CMDB
- Cluster / Node / Pod 资产
- 服务 → 实例关系
2️⃣ CI/CD
- 镜像构建
- YAML 渲染
- 发布控制
3️⃣ Ops / SRE 平台
- 告警
- 事件
- 自动化 Runbook
八、典型企业级平台架构视角
开发者平台(PaaS)
├── 应用中心
├── 发布中心
├── 配置中心
└── 运维中心
└── Kubernetes
├── 多集群管理
├── 安全治理
├── 成本治理
九、K8s 的常见坑(现实经验)
- YAML 地狱
- 资源申请不合理
- 集群当 VM 用
- 没有治理直接上生产
十、成熟度演进路径
L1:基础容器化
- 单集群
- 手工部署
L2:平台化
- 多集群
- 统一发布
L3:治理化
- 安全 / 配额 / 发布规范
L4:SRE 化
- SLO
- 自动扩缩
- 故障自愈
