在微服务架构中,监控指标是了解系统健康状况和性能表现的重要手段。设计高效的监控指标和制定合理的告警策略,能够帮助团队及时发现和解决问题,保障系统的稳定运行。本章将深入探讨监控指标的设计原则、最佳实践以及告警策略的制定方法。
监控指标设计原则
四个黄金信号
Google SRE提出的四个黄金信号是监控指标设计的核心:
# 1. 延迟(Latency)- 请求处理时间
histogram_quantile(0.95, sum(rate(http_request_duration_seconds_bucket[5m])) by (le, service))
# 2. 流量(Traffic)- 请求量
rate(http_requests_total[5m])
# 3. 错误(Errors)- 错误率
rate(http_requests_total{status=~"5.."}[5m])
# 4. 饱和度(Saturation)- 资源利用率
rate(node_cpu_seconds_total{mode!="idle"}[5m])
2025/8/31大约 7 分钟
