运维体系(Ops / SRE Platform)
目标:让系统“可发布、可回滚、可治理、可恢复”
P0(基础运维)
├── CMDB
├── 容器平台(K8s)
├── 发布平台
├── 配置中心
P1(稳定运行)
├── 服务治理(Service Mesh / Dubbo / SpringCloud)
├── 运维工具集
P2(事件驱动)
├── 事件中心(告警 / 事件 / 变更)
├── 灰度平台(Feature Flag)
├── 变更管理平台
P3(可靠性工程)
├── 自动化运维 / 自愈
├── 容量 & 成本管理
├── 运维审计 / 合规
运维审计 / 合规(Ops Audit & Compliance)
下面我从“可追责、可证明、可持续合规”的视角,对 **运维审计 / 合规(Ops Audit & Compliance)进行一次**企业级、平台化、强治理的系统性拆解。
重点不是“查日志”,而是:如何在高频变更、高度自动化的系统中,持续满足内控、合规与安全要求。
一、运维审计 / 合规的本质定位
1️⃣ 一句话定义
运维审计 / 合规,是对“谁在什么时间、以什么权限、对哪些生产资源、做了什么、结果如何”的全链路、不可抵赖记录与持续验证体系。
核心关键词:
- Traceability(可追溯)
- Non-repudiation(不可抵赖)
- Continuous Compliance(持续合规)
2️⃣ 审计 vs 合规(不要混)
| 维度 | 审计(Audit) | 合规(Compliance) |
|---|---|---|
| 关注点 | 事实记录 | 规则符合性 |
| 时间 | 事后 | 事前 + 事中 + 事后 |
| 问题 | 发生了什么 | 是否被允许 |
| 输出 | 审计证据 | 合规证明 |
一句话:
审计回答“发生了什么”,合规回答“能不能这样发生”。
二、运维审计的核心对象(必须统一)
1️⃣ 人(Who)
- 运维人员
- 系统账号
- 自动化系统(机器人)
2️⃣ 权限(With What Authority)
- RBAC / ABAC
- 临时授权
- 最小权限
3️⃣ 资源(On What)
- 主机
- 集群
- 应用
- 数据
4️⃣ 行为(Did What)
- 登录
- 操作命令
- API 调用
- 自动化执行
5️⃣ 结果(With What Result)
- 成功 / 失败
- 影响范围
- 变更结果
三、运维审计平台的核心能力模块
1️⃣ 身份与访问审计
- 登录审计(人 / 机器)
- MFA 记录
- 异常登录检测
2️⃣ 操作行为审计(重中之重)
常见审计对象
- Shell 命令
- K8s 操作(kubectl)
- CI/CD 操作
- 自动化 Runbook
高级能力
- 命令回放
- 敏感操作标记
- 实时阻断
3️⃣ 变更审计
- 发布记录
- 配置变更
- Feature Flag 开关
📌 没有变更审计,合规是空谈。
4️⃣ 自动化 / 自愈审计
- 谁定义的规则
- 何时触发
- 执行了什么动作
- 是否自动回滚
5️⃣ 数据与日志不可篡改
- WORM 存储
- Hash 校验
- 时间戳签名
四、合规能力(从“检查清单”到“持续验证”)
1️⃣ 合规规则建模
- 安全基线
- 操作规范
- 变更流程
规则示例:
生产环境
→ 禁止直接登录
→ 必须经堡垒机
→ 必须有审批
2️⃣ 合规检查方式
| 类型 | 示例 |
|---|---|
| 配置合规 | 安全参数 |
| 行为合规 | 是否绕流程 |
| 权限合规 | 是否越权 |
| 时间合规 | 是否在冻结期 |
3️⃣ 持续合规(非常关键)
- 定期扫描
- 实时校验
- 自动纠偏
五、与周边平台的强耦合关系
1️⃣ 与 IAM / RBAC
- 权限审计
- 访问控制
2️⃣ 与堡垒机
- 操作记录
- 会话回放
3️⃣ 与变更管理
- 合规门禁
- 审计证据
4️⃣ 与自动化 / 自愈
- 自动化行为审计
- 风险限制
六、典型合规场景(企业必备)
1️⃣ 生产操作合规
- 禁止直连
- 全程留痕
2️⃣ 发布合规
- 审批链完整
- 可回溯
3️⃣ 权限合规
- 临时授权
- 自动回收
4️⃣ 审计取证
- 事故取证
- 外部审计
七、常见失败模式(真实踩坑)
- 日志太多,没人能用
- 自动化行为无审计
- 合规靠人工抽查
- 审计影响效率
八、成熟度演进模型
L1:日志留存
- 被动记录
L2:集中审计
- 可检索
L3:规则合规
- 自动校验
L4:持续合规
- 实时监控
L5:合规即代码
- Policy as Code
九、一句话总结(非常适合对内 / 对外)
运维审计与合规,不是为了“限制人”,而是为了:让系统在高速变化中,依然能够被信任。
