基本的监控属性会有哪些

Static Relationship: 静态资源:cmdb

Dynamic Relationship: 动态关系:Trace

Events 事件变更:应用发布 + 配置变更 + 数据库变更===》背后需要统一的审批流程+流水线支撑

Alarm: 报警信息:普米/CAT/DB/日志

Mertric: 以及对应的指标信息

通知:一些变更的通知 停水/停电/机房搬迁?

关系

所有的静态资源

通过 cmdb,从上到下,方向的关联起来。

比如:dns==>网络==》应用====》虚拟机==》物理机===》交换机。。。

网络:dns域名 IP映射 网络服务器 业务层:收单 航旅 。。。 核心支撑:收银台 余额 出款 对账 风控 中间件:redis mongodb mysql mq 应用自身:disk cpu mem gc net

通道

主流的通道:

IM: 自建 app,或者是钉钉,打通?

email: 邮件?

电话

短信?

这些基本被垄断了,但是基本是必须的。

RCA 根因分析

可以根据上面的图。

把所有的 event/alarm 直接关联到对应的 ip 上面,然后通过图的关系,画出对应的图。

可以考虑借助 apoc algo gds 等内置库

可以考虑前期剪枝

参考资料

https://www.zabbix.com/documentation/4.0/zh/manual/introduction/about