思路
场景
我们需要分析报警,但是资源信息等很多,所以需要分级+剪枝过滤
基本的步骤
1)从 alarm==>app
从报警关联到所有的 app
2) 从 alarm 找到所有的关联报警的资源
app
phy / vm / redis / mysql / pod / …
包括网络:
vm / phy ====> nginx
3) app 的进一步关联资源
app—-> 上面的关联资源
app—-> 应用之间的调用 Trace
4) 资源本身的物理机 / vm
进一步,从 i_app i_redis i_database i_nginx 等出发,看对应的 phy / vm
过滤的核心
找到资源之间的关系 看有异常的节点
根据权重排序,找到根因