个人简介

Echo Blog


江湖无名 安心练剑
  • 监控报警系统-10-监控系统应该关注哪些指标?USE、RED、黄金四象限(Four Golden Signals)的思维模型
    chat 这3种方法论最底层的思维是什么? 这3种方法论(黄金四象限、RED、USE)的底层思维本质上是通过分层抽象和量化指标,将复杂系统的健康状态简化为可观测、可行动的通用模型。 它们的核心逻辑可以从以下三个维度拆解: 1. 分治思维:分层抽象,缩小问题域 所有监控方法论的本质是将复杂系统分解为可管理的层级,避免“眉毛胡子一把抓”的混乱: 黄金四象限:覆盖全栈监控,从用户...
    2021-06-20 08:52:15 | APM
  • 监控报警系统-10-监控系统应该关注哪些指标?USE方法论使用率(Utilization)、饱和度(Saturation)、错误(Errors)
    chat 详细介绍一下 USE方法 USE方法由性能工程专家Brendan Gregg提出,是一种专注于硬件资源与基础设施监控的策略,其名称USE代表三个核心维度: 使用率(Utilization)、饱和度(Saturation)、错误(Errors)。 该方法通过量化资源负载与异常,帮助快速定位系统瓶颈,尤其适用于物理服务器、虚拟机、存储设备及网络设备等底层资源的健康监控。 一...
    2021-06-20 08:52:15 | APM
  • 监控报警系统-08-监控系统应该关注哪些指标?RED方法 请求速率(Rate)、错误(Errors)、持续时间(Duration)
    chat 详细介绍一下 RED方法 RED方法详解:微服务监控的核心方法论 RED方法是一种广泛应用于微服务及云原生架构的监控策略,由Weaveworks的Tom Wilkie于2016年提出。 其名称RED代表三个核心指标: 请求速率(Rate)、错误(Errors)、持续时间(Duration)。 该方法聚焦于服务层面的可观测性,旨在通过简单直观的指标快速判断服务健康状况,尤其...
    2021-06-20 08:52:15 | APM
  • 监控报警系统-08-监控系统应该关注哪些指标?四大黄金指标 延迟(Latency)、流量(Traffic)、错误(Errors)、饱和度(Saturation) Four Golden Signals
    chat 哪些监控指标最重要? 根据多份资料的综合分析,业界监控系统的黄金4象限(即四大黄金指标)包括以下四个核心维度: 延迟(Latency)、流量(Traffic)、错误(Errors)、饱和度(Saturation)。 以下是对这四个指标的详细解读: 1. 延迟(Latency) 定义:衡量请求从发出到获得响应所需的时间,需区分成功请求与失败请求的延迟。例如,HTTP请求的...
    2021-06-20 08:52:15 | APM
  • 监控报警系统-06-自愈(Self-healing)或自动恢复(Auto-recovery)自愈系统设计
    chat 详细介绍一下监控系统中的自愈/自动恢复 在监控系统中,自愈(Self-healing)或自动恢复(Auto-recovery)是指系统在检测到故障或异常时,能够自动采取措施以恢复正常状态的能力。 这种机制旨在提高系统的可靠性和可用性,减少人工干预的需要。 以下是一些关键点: 1. 监控和检测 实时监控:系统通过监控工具实时收集性能数据和状态信息。 异常检测:使用...
    2021-06-20 08:52:15 | APM
  • 监控报警系统-06-database 数据库设计
    组件 apache calcite 作为统一的组件 连接池 执行计划 执行成本 数据源 数据源管理:cmdb 数据库 jdbcUrl/username/password/drivername password 数据库的密码管理,可以参考 druid 查询 orm linq mybatis 报警服务 基础指标==》VM 指标数据库 规则驱动==》规则引擎 报警...
    2021-06-20 08:52:15 | APM
  • 监控报警系统-05-dispersion 离散度
    chat 详细介绍一下离散度 离散度(Dispersion)是描述数据集中的数据值分散程度的统计指标。它反映了数据值在多大程度上偏离中心位置。常用的离散度指标包括极差、方差、标准差、变异系数、四分位距等。 极差(Range): 定义:数据集中最大值与最小值之间的差。 公式:极差 = 最大值 - 最小值 优点:计算简单,易于理解。 ...
    2021-06-20 08:52:15 | APM
  • 监控报警系统-04-监控报警系统处理流程
    概览 普米 grafana 【技术分享】企业IT事中故障处理四个关键环节如何控制 https://forum.huawei.com/enterprise/zh/thread/580933924354408448 TBF(无故障时长)和TTR(故障修复时长)是业务连续性管理两个重要指标,故障处置管理的目标就是为了最大限度的增加TBF和缩短TTR。在具体管理中,我们通常会根据故障应急处...
    2021-06-20 08:52:15 | APM