TBF（无故障时长）和TTR（故障修复时长）是业务连续性管理两个重要指标，故障处置管理的目标就是为了最大限度的增加TBF和缩短TTR。在具体管理中，我们通常会根据故障应急处置时间轴扩展以下指标：MTBF（无故障时长）、MTTI（平均故障发现时长）、MTTK（故障定位时长）、MTTF（平均故障处理时长）、MTTR(平均故障响应时长)，MTTF(平均故障恢复时长)的思路，从故障发生时间、发现时间、响应时间、尝试处置时间、诊断时间、生效应急处置开始时间、故障恢复时间等梳理应急处置的关键节点。通常，MTTI=发现时间-发生时间；MTTR =响应时间-发现时间；MTTK =定位时间-发现时间；MTTF =恢复时间-定位时间。

老马啸西风2021年6月20日大约 28 分钟

监控报警系统-05-dispersion 离散度

详细介绍一下离散度

离散度（Dispersion）是描述数据集中的数据值分散程度的统计指标。它反映了数据值在多大程度上偏离中心位置。常用的离散度指标包括极差、方差、标准差、变异系数、四分位距等。

极差（Range）：
- 定义：数据集中最大值与最小值之间的差。
- 公式：极差 = 最大值 - 最小值
- 优点：计算简单，易于理解。
- 缺点：受极端值影响较大，不能反映数据的整体分散程度。
方差（Variance）：
- 定义：数据值与其平均值之间差值的平方的平均数。
- 公式：[ \text{方差} = \frac{1}{N} \sum_{i=1}^{N} (x_i - \bar{x})^2 ]，其中 ( N ) 是数据点的数量，( x_i ) 是第 ( i ) 个数据点，( \bar{x} ) 是数据的平均值。
- 优点：考虑了所有数据点，反映了数据的整体分散程度。
- 缺点：单位是数据原单位的平方，不易解释。
标准差（Standard Deviation）：
- 定义：方差的平方根。
- 公式：[ \text{标准差} = \sqrt{\text{方差}} ]
- 优点：与方差相比，标准差的单位与数据原单位相同，易于解释。
- 缺点：与方差一样，受极端值影响较大。
变异系数（Coefficient of Variation）：
- 定义：标准差与平均值的比值。
- 公式：[ \text{变异系数} = \frac{\text{标准差}}{\bar{x}} ]
- 优点：无量纲，可以比较不同量纲的数据集的离散程度。
- 缺点：当平均值接近零时，变异系数可能不稳定。
四分位距（Interquartile Range, IQR）：
- 定义：上四分位数（Q3）与下四分位数（Q1）之间的差。
- 公式：四分位距 = Q3 - Q1
- 优点：不受极端值影响，适用于描述非正态分布的数据。
- 缺点：只考虑了中间50%的数据，忽略了两端的情况。

老马啸西风2021年6月20日大约 15 分钟

监控报警系统-06-database 数据库设计

apache calcite 作为统一的组件

连接池

执行计划

执行成本

数据源

数据源管理：cmdb

数据库

jdbcUrl/username/password/drivername

password 数据库的密码管理，可以参考 druid

查询

orm

linq

mybatis

报警服务

基础指标==》VM 指标数据库

规则驱动==》规则引擎

报警中心

老马啸西风2021年6月20日大约 1 分钟

监控报警系统-06-自愈（Self-healing）或自动恢复（Auto-recovery）自愈系统设计

详细介绍一下监控系统中的自愈/自动恢复

在监控系统中，自愈（Self-healing）或自动恢复（Auto-recovery）是指系统在检测到故障或异常时，能够自动采取措施以恢复正常状态的能力。

这种机制旨在提高系统的可靠性和可用性，减少人工干预的需要。

以下是一些关键点：

1. 监控和检测

实时监控：系统通过监控工具实时收集性能数据和状态信息。
异常检测：使用阈值、模式识别或机器学习算法识别出异常情况，如高延迟、服务崩溃等。

2. 自愈机制

老马啸西风2021年6月20日大约 18 分钟

监控报警系统-08-监控系统应该关注哪些指标？四大黄金指标延迟（Latency）、流量（Traffic）、错误（Errors）、饱和度（Saturation） Four Golden Signals

哪些监控指标最重要？

根据多份资料的综合分析，业界监控系统的黄金4象限（即四大黄金指标）包括以下四个核心维度： 延迟（Latency）、流量（Traffic）、错误（Errors）、饱和度（Saturation）。

以下是对这四个指标的详细解读：

1. 延迟（Latency）

定义：衡量请求从发出到获得响应所需的时间，需区分成功请求与失败请求的延迟。例如，HTTP请求的平均响应时间或数据库查询耗时。
关键点：

老马啸西风2021年6月20日大约 4 分钟

监控报警系统-08-监控系统应该关注哪些指标？RED方法请求速率（Rate）、错误（Errors）、持续时间（Duration）

详细介绍一下 RED方法

RED方法详解：微服务监控的核心方法论

RED方法是一种广泛应用于微服务及云原生架构的监控策略，由Weaveworks的Tom Wilkie于2016年提出。

其名称RED代表三个核心指标： 请求速率（Rate）、错误（Errors）、持续时间（Duration）。

该方法聚焦于服务层面的可观测性，旨在通过简单直观的指标快速判断服务健康状况，尤其适合分布式系统的实时监控和故障排查。

老马啸西风2021年6月20日大约 5 分钟

监控报警系统-10-监控系统应该关注哪些指标？USE方法论使用率（Utilization）、饱和度（Saturation）、错误（Errors）

详细介绍一下 USE方法

USE方法由性能工程专家Brendan Gregg提出，是一种专注于硬件资源与基础设施监控的策略，其名称USE代表三个核心维度： 使用率（Utilization）、饱和度（Saturation）、错误（Errors）。

该方法通过量化资源负载与异常，帮助快速定位系统瓶颈，尤其适用于物理服务器、虚拟机、存储设备及网络设备等底层资源的健康监控。

一、USE方法的核心指标解析

老马啸西风2021年6月20日大约 5 分钟