普米
grafana
zabbix
流程
用户侧:规则配置 + 接收处理报警 + 调整规则
处理时:需要用到抑制+升级 归因分析 自动处理 历史经验
指标采集=》规则配置
闭环:审计 FATAL===> 事件
普米
grafana
zabbix
用户侧:规则配置 + 接收处理报警 + 调整规则
处理时:需要用到抑制+升级 归因分析 自动处理 历史经验
指标采集=》规则配置
闭环:审计 FATAL===> 事件
普米
grafana
https://blog.51cto.com/u_15471709/4868953
三、运维中面临的监控问题
当前,面对复杂的业务监控和问题诊断,运维人员想找到指标和事件之间的关联关系,进行因果关系推导,并最终定位故障,基本依靠人的经验来进行。但随着业务和监控规模的膨胀,运维也希望能够更加自动化、智能化地达成保证服务高可用性的目标,即快速的问题发现、分析定位或止损。
普米
grafana
https://originx.kindlingx.com/blog/什么是根因分析/
根因分析(Root Cause Analysis,RCA)是一种问题解决方法,用于识别问题的根本原因,然后通过解决这些原因来防止问题再次发生。
普米
grafana
https://forum.huawei.com/enterprise/zh/thread/580933924354408448
TBF(无故障时长)和TTR(故障修复时长)是业务连续性管理两个重要指标,故障处置管理的目标就是为了最大限度的增加TBF和缩短TTR。在具体管理中,我们通常会根据故障应急处置时间轴扩展以下指标:MTBF(无故障时长)、MTTI(平均故障发现时长)、MTTK(故障定位时长)、MTTF(平均故障处理时长)、MTTR(平均故障响应时长),MTTF(平均故障恢复时长)的思路,从故障发生时间、发现时间、响应时间、尝试处置时间、诊断时间、生效应急处置开始时间、故障恢复时间等梳理应急处置的关键节点。通常,MTTI=发现时间-发生时间;MTTR =响应时间-发现时间;MTTK =定位时间-发现时间;MTTF =恢复时间-定位时间。
离散度(Dispersion)是描述数据集中的数据值分散程度的统计指标。它反映了数据值在多大程度上偏离中心位置。常用的离散度指标包括极差、方差、标准差、变异系数、四分位距等。
极差(Range):
方差(Variance):
标准差(Standard Deviation):
变异系数(Coefficient of Variation):
四分位距(Interquartile Range, IQR):
apache calcite 作为统一的组件
连接池
执行计划
执行成本
数据源管理:cmdb
jdbcUrl/username/password/drivername
password 数据库的密码管理,可以参考 druid
orm
linq
mybatis
基础指标==》VM 指标数据库
规则驱动==》规则引擎
报警中心
在监控系统中,自愈(Self-healing)或自动恢复(Auto-recovery)是指系统在检测到故障或异常时,能够自动采取措施以恢复正常状态的能力。
这种机制旨在提高系统的可靠性和可用性,减少人工干预的需要。
以下是一些关键点:
根据多份资料的综合分析,业界监控系统的黄金4象限(即四大黄金指标)包括以下四个核心维度: 延迟(Latency)、流量(Traffic)、错误(Errors)、饱和度(Saturation)。
以下是对这四个指标的详细解读:
定义:衡量请求从发出到获得响应所需的时间,需区分成功请求与失败请求的延迟。例如,HTTP请求的平均响应时间或数据库查询耗时。
关键点:
RED方法是一种广泛应用于微服务及云原生架构的监控策略,由Weaveworks的Tom Wilkie于2016年提出。
其名称RED代表三个核心指标: 请求速率(Rate)、错误(Errors)、持续时间(Duration)。
该方法聚焦于服务层面的可观测性,旨在通过简单直观的指标快速判断服务健康状况,尤其适合分布式系统的实时监控和故障排查。
USE方法由性能工程专家Brendan Gregg提出,是一种专注于硬件资源与基础设施监控的策略,其名称USE代表三个核心维度: 使用率(Utilization)、饱和度(Saturation)、错误(Errors)。
该方法通过量化资源负载与异常,帮助快速定位系统瓶颈,尤其适用于物理服务器、虚拟机、存储设备及网络设备等底层资源的健康监控。