-
监控报警系统-16-报警规则配置之简单有效的配置 异常数(Anomaly Count)/ 同比(Year-over-Year, YoY)/ 环比(Month-over-Month/Week-over-Week, MoM/WoW)
前言
大家好,我是老马。
本文为大家介绍一些简单有效的配置指标。
chat
介绍软件监控中简单的配置,比如异常数,同比,环比
一、核心指标定义
异常数(Anomaly Count)
定义:单位时间内超出预设阈值(如固定值、标准差、箱线图Whisker线)的数据点数量。
用途:快速定位系统异常波动(如API错误率激增、CPU使用率突增)。
...
2021-06-20 08:52:15 |
APM
-
监控报警系统-16-报警规则配置之 Whisker线(箱线图)(Box and Whisker Plot) 箱体(Box)和触须线(Whiskers)
前言
一般而言,我们希望监控可以指标,比如交易的成功率。
成功率 = (成功数 / 交易总数) * 100%
然后配置阈值 成功率 < 80%,我们就报警。
但实际可能会存在问题,比如交易数过低问题、或者某些时间段就是特别低,一直如此。
经常性的问题,我们就不认为这个有问题。
有没有什么好的方法,可以解决这个问题?
有的:
预期成功率 = 成功率 / 模型预期成功率
...
2021-06-20 08:52:15 |
APM
-
监控报警系统-15-报警中心系统设计实战之实时链路实现
系统拓扑
alarm-admin===>控台
alarm-executor===>核心实现====》goutong-center(依赖渠道中心)
==> cmdb 等基础数据信息
说明
做一下简单的核心实现。
申请系统表
说明
记录申请的系统表,以及对应的接口能力。
实现
接口可以选择是否控制,一般也可以不控制这么细致。
报警信息
核心表
事件表
...
2021-06-20 08:52:15 |
APM
-
监控报警系统-13-报警中心系统设计实战接口定义
前言
说明
好的接口设计,不要有任何的歧义。
用户送的尽可能的少。
保证安全性、拓展性。方便问题的排查等等。
安全性
所有的系统,必须有对应的申请记录。方能调用,不然后续会非常乱。
系统的申请
appKey
appSecret
这个一般可以和审批系统结合,或者初期管理员人工添加。
频率不高,但是比较重要。
鉴权
提供对应的 client 包,初期可以实现 java 等...
2021-06-20 08:52:15 |
APM
-
监控报警系统-12-系统设计实战概览报警中心要有哪些核心能力?
整体概览
指标===》规则(预警、告警)==》告警中心(/多通道/信息精简/聚合/限流/分级/)
路由:通过 app 等信息,找到对应的收件人(cmdb 支撑)
管理闭环:忽略、关闭、升级、转事件、转需求、自愈联动
RCA: 根因分析
复盘+SOP
度量+成本+大盘
报警系统
指标采集==》指标存储==》规则报警
这部分足够庞大,完全可以是一个独立的系统。
抵达用户
报...
2021-06-20 08:52:15 |
APM
-
监控报警系统-11-监控系统应该关注哪些指标?USE、RED、黄金四象限(Four Golden Signals)的思维模型
chat
这3种方法论最底层的思维是什么?
这3种方法论(黄金四象限、RED、USE)的底层思维本质上是通过分层抽象和量化指标,将复杂系统的健康状态简化为可观测、可行动的通用模型。
它们的核心逻辑可以从以下三个维度拆解:
1. 分治思维:分层抽象,缩小问题域
所有监控方法论的本质是将复杂系统分解为可管理的层级,避免“眉毛胡子一把抓”的混乱:
黄金四象限:覆盖全栈监控,从用户...
2021-06-20 08:52:15 |
APM
-
监控报警系统-10-监控系统应该关注哪些指标?USE方法论使用率(Utilization)、饱和度(Saturation)、错误(Errors)
chat
详细介绍一下 USE方法
USE方法由性能工程专家Brendan Gregg提出,是一种专注于硬件资源与基础设施监控的策略,其名称USE代表三个核心维度: 使用率(Utilization)、饱和度(Saturation)、错误(Errors)。
该方法通过量化资源负载与异常,帮助快速定位系统瓶颈,尤其适用于物理服务器、虚拟机、存储设备及网络设备等底层资源的健康监控。
一...
2021-06-20 08:52:15 |
APM
-
监控报警系统-08-监控系统应该关注哪些指标?RED方法 请求速率(Rate)、错误(Errors)、持续时间(Duration)
chat
详细介绍一下 RED方法
RED方法详解:微服务监控的核心方法论
RED方法是一种广泛应用于微服务及云原生架构的监控策略,由Weaveworks的Tom Wilkie于2016年提出。
其名称RED代表三个核心指标: 请求速率(Rate)、错误(Errors)、持续时间(Duration)。
该方法聚焦于服务层面的可观测性,旨在通过简单直观的指标快速判断服务健康状况,尤其...
2021-06-20 08:52:15 |
APM