根因分析
相关内容以前记录的比较多。
逐渐级别推断
资源
应用视角==》单个报警
alarm 报警
报警的主视角
metric 指标
普米: (cpu/mem/disk/net)
SQL: SQL 报警
CAT
log===>异常日志
知识库
日志
top3 去重的异常日志?
Trace
cmdb
rpc
事件
变更(标准化)
监听深入
变化值
相对的变化值?
更细致 更加准确?
开始+结束的时间
是否和 alarm 重复?
资源集中度(离散度)
pageRank 算法
当前报警的 ip
app
app 和资源之间的关系
分析策略
下钻
规则==》到具体的指标===
上探
上游的流量增加
共同依赖
依赖的资源 pageRank
离散度
异常的分布性
机器
机房