整体概览
指标===》规则(预警、告警)==》告警中心(/多通道/信息精简/聚合/限流/分级/)
路由:通过 app 等信息,找到对应的收件人(cmdb 支撑)
管理闭环:忽略、关闭、升级、转事件、转需求、自愈联动
RCA: 根因分析
复盘+SOP
度量+成本+大盘
报警系统
指标采集==》指标存储==》规则报警
这部分足够庞大,完全可以是一个独立的系统。
抵达用户
报警信息===》(渠道)====》抵达到用户
报警的接收
1)支持 http / rpc / mq 等方式
优先支持 http,适用性更加广泛。
通知的内容
模板支持?
报警的聚合、屏蔽、限流
支持报警的聚合、屏蔽策略、限流等策略。
最核心的是屏蔽。
标准操作、快捷操作、全局操作等等。
报警的渠道
按照级别,找到对应的渠道。
比如 email / sms / phone / im
这里下沉到沟通中心。
通知给谁
初期可以简单一些,比如指定收件的手机号、email 等
后续可以根据应用==》动态获取收件人。
报警的闭环
报警的处理
忽略、关闭、升级 等,可以和内部系统打通。
用户
监控室
开发
报警的后置动作处理
和其他平台联动,比如拉起服务等等====》一个作业调度平台。
系统拓扑
admin===>控台
service===>核心实现====》goutong-center(依赖渠道中心)
==> cmdb 等基础数据信息
指标体系
CAT
SQL
普米
日志
血缘
指标+规则之间的血缘关系
数据大盘
各种报表+数据大盘