监控系统实战-13-RCA 根本原因分析(Root Cause Analysis) 如何实现?基于指标的根因分析
前言
AI paper 的一些,主要看一下思路。
基于 Metrics 的根因定位 (一):故障刻画
“ Metrics, Traces, Logs 被誉为可观测性的三大支柱。
Metrics 又是三者中在根因定位中最常用的数据源,阅读本文可快速了解当前学术界热门的基于 Metric 的根因定位算法类型——故障刻画。”
故障刻画是指通过提取历史的故障发生时不同 Metric 变化的...
2018-11-25 01:14:43 |
Devops
监控系统实战-12-indicator 指标 + rule 规则
指标
所有的数据都可以认为是指标:sql / 日志 / prome / cat / net / …
SQL 指标
basic: 业务域+应用名+名称+标签+remark
核心
数据源:初期可以配置,手动输入。
API: 后续可以考虑 cmdb 动态维护,比较难实现。
属性
调度时间:cron fixed
下次执行时间
执行时间 offset
预执行
提前执行,验证正确...
2018-11-25 01:14:43 |
Devops
监控系统实战-11-RCA 根本原因分析(Root Cause Analysis) 如何实现?整体的思路
整体的思路
最好的方式是基于图数据库
cmdb + 图数据库(neo4j) + 逻辑推断(权重)+报警结合
切为子图
ui ==》接口==》实现
关系
资源 + 机器 + 报警
关系
app -- 资源 --- 机器 -- 报警
app 和其他资源
app -- database
|
|
redis
底层对应的 vm / phy 等物理资源。
异常过滤
聚集性的...
2018-11-25 01:14:43 |
Devops
监控系统实战-11-RCA 根本原因分析(Root Cause Analysis) 如何实现?AIOps在小红书的探索与实践——故障定位与诊断
背景
1.1 AIOps是什么?
AIOps(Artificial Intelligence for IT Operations),是基于已有的可观测和运维数据(指标、Trace、变更、日志、告警等),通过机器学习相关算法进行数据分析与决策,来解决运维工具没办法解决的问题,让运维相关工作从工具化过渡到智能化。
随着整个互联网业务急剧膨胀,以及服务类型的复杂多样,基于人为指定规则的专家系...
2018-11-25 01:14:43 |
Devops
监控系统实战-11-RCA 根本原因分析(Root Cause Analysis) 如何实现?亿级vivo 故障定位平台的探索与实践
一、背景介绍
1.1 程序员的困扰
作为一名IT从业人员,比如开发和运维,多少有过类似的经历:睡觉的时候被电话叫醒,过节的时候在值班,游玩的时候被通知处理故障。
作为一名程序员,我们时时刻刻都在想着运用信息技术,为别人解决问题,提升效率,节省成本。
随着微服务架构的快速发展,带来一系列复杂的调用链路和海量的数据。
对于我们来说,排查问题是一个大挑战,寻找故障原因犹如大海捞针,需要花...
2018-11-25 01:14:43 |
Devops
监控系统实战-11-RCA 根本原因分析(Root Cause Analysis) 如何实现?如何快速定位异常?去哪儿网根因分析实践攻略
一、背景
随着去哪儿网业务的发展和微服务架构的普及,公司内微服务的拆分粒度越来越细,导致服务间的调用错综复杂。
比如机票和酒店的下单场景,就会涉及到成百上千个应用的调用,而当此类场景出现异常产生报警甚至产生故障时,对开学同学来说查找并定位问题是个很大的挑战。
去哪儿网构建了自己的 APM 系统,包括监控(metric)、日志(logging)和调用链路(Tracing),帮助开发同学定...
2018-11-25 01:14:43 |
Devops
监控系统实战-11-RCA 根本原因分析(Root Cause Analysis) 如何实现?阿里本地生活EMonitor根因分析大揭秘
阿里本地生活EMonitor根因分析大揭秘
阿里集团针对故障处理提出了“1/5/10”的目标– 1 分钟发现、5 分钟定位、10 分钟恢复,这对我们的定位能力提出了更高的要求。
EMonitor 是一款集成 Tracing 和 Metrics、服务于饿了么所有技术部门的一站式监控系统,其覆盖了
前端监控、接入层监控;
业务 Trace 和 Metric 监控;
所有的中间件监控;
...
2018-11-25 01:14:43 |
Devops
监控系统实战-10-RCA 根本原因分析(Root Cause Analysis)
根本原因分析
根本原因的分析
根本原因分析(RCA)是一项结构化的问题处理法,用以逐步找出问题的根本原因并加以解决, 而不是仅仅关注问题的表征。
根本原因分析是一个系统化的问题处理过程,包括确定和分析问题原因,找出问题解决办法,并制定问题预防措施。
在组织管理领域内,根本原因分析能够帮助利益相关者发现组织问题的症结,并找出根本性的解决方案。
根本原因分析的应用
组织的多数疑难杂症...
2018-11-25 01:14:43 |
Devops