指标===》规则(预警、告警)==》告警中心(/多通道/信息精简/聚合/限流/分级/)
路由:通过 app 等信息,找到对应的收件人(cmdb 支撑)
管理闭环:忽略、关闭、升级、转事件、转需求、自愈联动
RCA: 根因分析
复盘+SOP
度量+成本+大盘
报警系统
指标采集==》指标存储==》规则报警
这部分足够庞大,完全可以是一个独立的系统。
抵达用户
报警信息===》(渠道)====》抵达到用户
报警的接收
2021年6月20日大约 2 分钟
指标===》规则(预警、告警)==》告警中心(/多通道/信息精简/聚合/限流/分级/)
路由:通过 app 等信息,找到对应的收件人(cmdb 支撑)
管理闭环:忽略、关闭、升级、转事件、转需求、自愈联动
RCA: 根因分析
复盘+SOP
度量+成本+大盘
指标采集==》指标存储==》规则报警
这部分足够庞大,完全可以是一个独立的系统。
报警信息===》(渠道)====》抵达到用户
好的接口设计,不要有任何的歧义。
用户送的尽可能的少。
保证安全性、拓展性。方便问题的排查等等。
所有的系统,必须有对应的申请记录。方能调用,不然后续会非常乱。
appKey
appSecret
这个一般可以和审批系统结合,或者初期管理员人工添加。
频率不高,但是比较重要。
提供对应的 client 包,初期可以实现 java 等。
启动启动时,做一次统一的鉴权。
针对我们的需求,我们设计一些核心的表。
满足我们的需求。
记录申请的系统表,以及对应的接口能力。
drop table if exists alarm_system_info;
CREATE TABLE alarm_system_info (
id bigint(20) PRIMARY KEY auto_increment comment '主键',
system_id varchar(64) NOT NULL comment '系统标识',
system_name varchar(64) NOT NULL comment '系统名称',
config_status varchar(512) NULL comment '配置状态',
config_remark varchar(512) NULL comment '配置备注',
create_time datetime comment '创建时间',
update_time datetime comment '更新时间',
create_by VARCHAR(64) comment '创建人',
update_by VARCHAR(64) comment '更新人',
UNIQUE KEY (config_name)
) COMMENT '报警系统信息';
alarm-admin===>控台
alarm-executor===>核心实现====》goutong-center(依赖渠道中心)
==> cmdb 等基础数据信息
做一下简单的核心实现。
记录申请的系统表,以及对应的接口能力。
接口可以选择是否控制,一般也可以不控制这么细致。
初期可以简单些,直接根据用户传入的为准。
一般而言,我们希望监控可以指标,比如交易的成功率。
成功率 = (成功数 / 交易总数) * 100%
大家好,我是老马。
本文为大家介绍一些简单有效的配置指标。
异常数(Anomaly Count)
同比(Year-over-Year, YoY)
(当前值 - 去年同期值) / 去年同期值 × 100%
环比(Month-over-Month/Week-over-Week, MoM/WoW)
(当前值 - 上周期值) / 上周期值 × 100%