普米
grafana
zabbix
流程
用户侧:规则配置 + 接收处理报警 + 调整规则
处理时:需要用到抑制+升级 归因分析 自动处理 历史经验
指标采集=》规则配置
闭环:审计 FATAL===> 事件
普米
grafana
智能运维在百度日常业务监控中的探索
https://blog.51cto.com/u_15471709/4868953
三、运维中面临的监控问题
当前,面对复杂的业务监控和问题诊断,运维人员想找到指标和事件之间的关联关系,进行因果关系推导,并最终定位故障,基本依靠人的经验来进行。但随着业务和监控规模的膨胀,运维也希望能够更加自动化、智能化地达成保证服务高可用性的目标,即快速的问题发现、分析定位或止损。
普米
grafana
什么是根因分析
https://originx.kindlingx.com/blog/什么是根因分析/
根因分析(Root Cause Analysis,RCA)是一种问题解决方法,用于识别问题的根本原因,然后通过解决这些原因来防止问题再次发生。
普米
grafana
【技术分享】企业IT事中故障处理四个关键环节如何控制
https://forum.huawei.com/enterprise/zh/thread/580933924354408448
TBF(无故障时长)和TTR(故障修复时长)是业务连续性管理两个重要指标,故障处置管理的目标就是为了最大限度的增加TBF和缩短TTR。在具体管理中,我们通常会根据故障应急处置时间轴扩展以下指标:MTBF(无故障时长)、MTTI(平均故障发现时长)、MTTK(故障定位时长)、MTTF(平均故障处理时长)、MTTR(平均故障响应时长),MTTF(平均故障恢复时长)的思路,从故障发生时间、发现时间、响应时间、尝试处置时间、诊断时间、生效应急处置开始时间、故障恢复时间等梳理应急处置的关键节点。通常,MTTI=发现时间-发生时间;MTTR =响应时间-发现时间;MTTK =定位时间-发现时间;MTTF =恢复时间-定位时间。
详细介绍一下离散度
离散度(Dispersion)是描述数据集中的数据值分散程度的统计指标。它反映了数据值在多大程度上偏离中心位置。常用的离散度指标包括极差、方差、标准差、变异系数、四分位距等。
-
极差(Range):
- 定义:数据集中最大值与最小值之间的差。
- 公式:极差 = 最大值 - 最小值
- 优点:计算简单,易于理解。
- 缺点:受极端值影响较大,不能反映数据的整体分散程度。
-
方差(Variance):
- 定义:数据值与其平均值之间差值的平方的平均数。
- 公式:[ \text{方差} = \frac{1}{N} \sum_{i=1}^{N} (x_i - \bar{x})^2 ],其中 ( N ) 是数据点的数量,( x_i ) 是第 ( i ) 个数据点,( \bar{x} ) 是数据的平均值。
- 优点:考虑了所有数据点,反映了数据的整体分散程度。
- 缺点:单位是数据原单位的平方,不易解释。
-
标准差(Standard Deviation):
- 定义:方差的平方根。
- 公式:[ \text{标准差} = \sqrt{\text{方差}} ]
- 优点:与方差相比,标准差的单位与数据原单位相同,易于解释。
- 缺点:与方差一样,受极端值影响较大。
-
变异系数(Coefficient of Variation):
- 定义:标准差与平均值的比值。
- 公式:[ \text{变异系数} = \frac{\text{标准差}}{\bar{x}} ]
- 优点:无量纲,可以比较不同量纲的数据集的离散程度。
- 缺点:当平均值接近零时,变异系数可能不稳定。
-
四分位距(Interquartile Range, IQR):
- 定义:上四分位数(Q3)与下四分位数(Q1)之间的差。
- 公式:四分位距 = Q3 - Q1
- 优点:不受极端值影响,适用于描述非正态分布的数据。
- 缺点:只考虑了中间50%的数据,忽略了两端的情况。
apache calcite 作为统一的组件
连接池
执行计划
执行成本
数据源
数据源管理:cmdb
数据库
jdbcUrl/username/password/drivername
password 数据库的密码管理,可以参考 druid
查询
orm
linq
mybatis
报警服务
基础指标==》VM 指标数据库
规则驱动==》规则引擎
报警中心