-
监控报警系统-06-自愈(Self-healing)或自动恢复(Auto-recovery)自愈系统设计
chat
详细介绍一下监控系统中的自愈/自动恢复
在监控系统中,自愈(Self-healing)或自动恢复(Auto-recovery)是指系统在检测到故障或异常时,能够自动采取措施以恢复正常状态的能力。
这种机制旨在提高系统的可靠性和可用性,减少人工干预的需要。
以下是一些关键点:
1. 监控和检测
实时监控:系统通过监控工具实时收集性能数据和状态信息。
异常检测:使用...
2021-06-20 08:52:15 |
APM
-
监控报警系统-06-database 数据库设计
组件
apache calcite 作为统一的组件
连接池
执行计划
执行成本
数据源
数据源管理:cmdb
数据库
jdbcUrl/username/password/drivername
password 数据库的密码管理,可以参考 druid
查询
orm
linq
mybatis
报警服务
基础指标==》VM 指标数据库
规则驱动==》规则引擎
报警...
2021-06-20 08:52:15 |
APM
-
监控报警系统-05-dispersion 离散度
chat
详细介绍一下离散度
离散度(Dispersion)是描述数据集中的数据值分散程度的统计指标。它反映了数据值在多大程度上偏离中心位置。常用的离散度指标包括极差、方差、标准差、变异系数、四分位距等。
极差(Range):
定义:数据集中最大值与最小值之间的差。
公式:极差 = 最大值 - 最小值
优点:计算简单,易于理解。
...
2021-06-20 08:52:15 |
APM
-
监控报警系统-04-监控报警系统处理流程
概览
普米
grafana
【技术分享】企业IT事中故障处理四个关键环节如何控制
https://forum.huawei.com/enterprise/zh/thread/580933924354408448
TBF(无故障时长)和TTR(故障修复时长)是业务连续性管理两个重要指标,故障处置管理的目标就是为了最大限度的增加TBF和缩短TTR。在具体管理中,我们通常会根据故障应急处...
2021-06-20 08:52:15 |
APM
-
监控报警系统-03-监控报警系统根因分析?归因分析? 故障定位
概览
普米
grafana
什么是根因分析
https://originx.kindlingx.com/blog/%E4%BB%80%E4%B9%88%E6%98%AF%E6%A0%B9%E5%9B%A0%E5%88%86%E6%9E%90/
根因分析(Root Cause Analysis,RCA)是一种问题解决方法,用于识别问题的根本原因,然后通过解决这些原因来防止问题再次发生...
2021-06-20 08:52:15 |
APM
-
监控报警系统-02-如何设计监控报警系统报警合并和抑制?
概览
普米
grafana
智能运维在百度日常业务监控中的探索
https://blog.51cto.com/u_15471709/4868953
三、运维中面临的监控问题
当前,面对复杂的业务监控和问题诊断,运维人员想找到指标和事件之间的关联关系,进行因果关系推导,并最终定位故障,基本依靠人的经验来进行。但随着业务和监控规模的膨胀,运维也希望能够更加自动化、智能化地达成保证服务...
2021-06-20 08:52:15 |
APM
-
监控报警系统-01-如何设计监控报警系统?01-概览
概览
普米
grafana
zabbix
流程
用户侧:规则配置 + 接收处理报警 + 调整规则
处理时:需要用到抑制+升级 归因分析 自动处理 历史经验
指标采集=》规则配置
闭环:审计 FATAL===> 事件
pdf
分布式系统稳定性建设
工业边缘数据管理与分析技术白皮书
chat
Q1: 如何设计监控报警系统?
监控报警系统的设计是一个复杂...
2021-06-20 08:52:15 |
APM
-
你真的理解 mysql 的 insert 吗?
业务场景
表信息
假设我们有一张如下的表:
create table user
(
id int unsigned auto_increment comment '自增主键' primary key,
user_id varchar(32) not null comment '用户标识',
user_name varchar(32) not null comme...
2021-06-05 08:52:15 |
Database