运维体系(Ops / SRE Platform)

目标:让系统“可发布、可回滚、可治理、可恢复”

P0(基础运维)
├── CMDB
├── 容器平台(K8s)
├── 发布平台
├── 配置中心

P1(稳定运行)
├── 服务治理(Service Mesh / Dubbo / SpringCloud)
├── 运维工具集

P2(事件驱动)
├── 事件中心(告警 / 事件 / 变更)
├── 灰度平台(Feature Flag)
├── 变更管理平台

P3(可靠性工程)
├── 自动化运维 / 自愈
├── 容量 & 成本管理
├── 运维审计 / 合规

运维审计 / 合规(Ops Audit & Compliance)

下面我从“可追责、可证明、可持续合规”的视角,对 **运维审计 / 合规(Ops Audit & Compliance)进行一次**企业级、平台化、强治理的系统性拆解。

重点不是“查日志”,而是:如何在高频变更、高度自动化的系统中,持续满足内控、合规与安全要求


一、运维审计 / 合规的本质定位

1️⃣ 一句话定义

运维审计 / 合规,是对“谁在什么时间、以什么权限、对哪些生产资源、做了什么、结果如何”的全链路、不可抵赖记录与持续验证体系。

核心关键词:

  • Traceability(可追溯)
  • Non-repudiation(不可抵赖)
  • Continuous Compliance(持续合规)

2️⃣ 审计 vs 合规(不要混)

维度 审计(Audit) 合规(Compliance)
关注点 事实记录 规则符合性
时间 事后 事前 + 事中 + 事后
问题 发生了什么 是否被允许
输出 审计证据 合规证明

一句话:

审计回答“发生了什么”,合规回答“能不能这样发生”。


二、运维审计的核心对象(必须统一)

1️⃣ 人(Who)

  • 运维人员
  • 系统账号
  • 自动化系统(机器人)

2️⃣ 权限(With What Authority)

  • RBAC / ABAC
  • 临时授权
  • 最小权限

3️⃣ 资源(On What)

  • 主机
  • 集群
  • 应用
  • 数据

4️⃣ 行为(Did What)

  • 登录
  • 操作命令
  • API 调用
  • 自动化执行

5️⃣ 结果(With What Result)

  • 成功 / 失败
  • 影响范围
  • 变更结果

三、运维审计平台的核心能力模块

1️⃣ 身份与访问审计

  • 登录审计(人 / 机器)
  • MFA 记录
  • 异常登录检测

2️⃣ 操作行为审计(重中之重)

常见审计对象

  • Shell 命令
  • K8s 操作(kubectl)
  • CI/CD 操作
  • 自动化 Runbook

高级能力

  • 命令回放
  • 敏感操作标记
  • 实时阻断

3️⃣ 变更审计

  • 发布记录
  • 配置变更
  • Feature Flag 开关

📌 没有变更审计,合规是空谈。


4️⃣ 自动化 / 自愈审计

  • 谁定义的规则
  • 何时触发
  • 执行了什么动作
  • 是否自动回滚

5️⃣ 数据与日志不可篡改

  • WORM 存储
  • Hash 校验
  • 时间戳签名

四、合规能力(从“检查清单”到“持续验证”)

1️⃣ 合规规则建模

  • 安全基线
  • 操作规范
  • 变更流程

规则示例:

生产环境
→ 禁止直接登录
→ 必须经堡垒机
→ 必须有审批

2️⃣ 合规检查方式

类型 示例
配置合规 安全参数
行为合规 是否绕流程
权限合规 是否越权
时间合规 是否在冻结期

3️⃣ 持续合规(非常关键)

  • 定期扫描
  • 实时校验
  • 自动纠偏

五、与周边平台的强耦合关系

1️⃣ 与 IAM / RBAC

  • 权限审计
  • 访问控制

2️⃣ 与堡垒机

  • 操作记录
  • 会话回放

3️⃣ 与变更管理

  • 合规门禁
  • 审计证据

4️⃣ 与自动化 / 自愈

  • 自动化行为审计
  • 风险限制

六、典型合规场景(企业必备)

1️⃣ 生产操作合规

  • 禁止直连
  • 全程留痕

2️⃣ 发布合规

  • 审批链完整
  • 可回溯

3️⃣ 权限合规

  • 临时授权
  • 自动回收

4️⃣ 审计取证

  • 事故取证
  • 外部审计

七、常见失败模式(真实踩坑)

  1. 日志太多,没人能用
  2. 自动化行为无审计
  3. 合规靠人工抽查
  4. 审计影响效率

八、成熟度演进模型

L1:日志留存

  • 被动记录

L2:集中审计

  • 可检索

L3:规则合规

  • 自动校验

L4:持续合规

  • 实时监控

L5:合规即代码

  • Policy as Code

九、一句话总结(非常适合对内 / 对外)

运维审计与合规,不是为了“限制人”,而是为了:让系统在高速变化中,依然能够被信任。