整体概览

指标===》规则(预警、告警)==》告警中心(/多通道/信息精简/聚合/限流/分级/)

路由:通过 app 等信息,找到对应的收件人(cmdb 支撑)

管理闭环:忽略、关闭、升级、转事件、转需求、自愈联动

RCA: 根因分析

复盘+SOP

度量+成本+大盘

报警系统

指标采集==》指标存储==》规则报警

这部分足够庞大,完全可以是一个独立的系统。

抵达用户

报警信息===》(渠道)====》抵达到用户

报警的接收

1)支持 http / rpc / mq 等方式

优先支持 http,适用性更加广泛。

通知的内容

模板支持?

报警的聚合、屏蔽、限流

支持报警的聚合、屏蔽策略、限流等策略。

最核心的是屏蔽。

标准操作、快捷操作、全局操作等等。

报警的渠道

按照级别,找到对应的渠道。

比如 email / sms / phone / im

这里下沉到沟通中心。

通知给谁

初期可以简单一些,比如指定收件的手机号、email 等

后续可以根据应用==》动态获取收件人。

报警的闭环

报警的处理

忽略、关闭、升级 等,可以和内部系统打通。

用户

监控室

开发

报警的后置动作处理

和其他平台联动,比如拉起服务等等====》一个作业调度平台。

系统拓扑

admin===>控台

service===>核心实现====》goutong-center(依赖渠道中心)

==> cmdb 等基础数据信息

指标体系

CAT

SQL

普米

日志

血缘

指标+规则之间的血缘关系

数据大盘

各种报表+数据大盘

参考资料