监控系统实战-13-RCA 根本原因分析(Root Cause Analysis) 如何实现?基于Trace的根因分析
前言
AI paper 的一些,主要看一下思路。
Trace 的演进之路
接下来的几个月里,将继续不定期总结基于 Traces 的根因定位方法。
Trace 记录了请求在分布式应用程序中运行的轨迹,能够完整的串联起请求的上下文关系,在大规模分布式系统根因定位中的作用举足轻重 。
在讨论基于 Traces 的根因定位之前,本文先简单介绍 Trace 的出现及其演进的过程。
02_D...
2018-11-25 01:14:43 |
Devops
监控系统实战-14-RCA 根本原因分析(Root Cause Analysis) 如何实现?多模态融合
前言
AI paper 的一些,主要看一下思路。
基于多模态运维数据的根因定位(一):异构数据时序化
为了使故障诊断方法能够诊断更多种类的故障,融合多模态运维数据进行自动化故障诊断,已经成为当前学术界和工业界的重要研究热点。
将文本类型的 Log 和 Trace 转换成与 Metric 同构的时间序列表示,然后输入到故障诊断算法中进行分析,是融合多模态运维数据分析最直接的方式,今天将...
2018-11-25 01:14:43 |
Devops
监控系统实战-13-RCA 根本原因分析(Root Cause Analysis) 如何实现?基于指标的根因分析
前言
AI paper 的一些,主要看一下思路。
基于 Metrics 的根因定位 (一):故障刻画
“ Metrics, Traces, Logs 被誉为可观测性的三大支柱。
Metrics 又是三者中在根因定位中最常用的数据源,阅读本文可快速了解当前学术界热门的基于 Metric 的根因定位算法类型——故障刻画。”
故障刻画是指通过提取历史的故障发生时不同 Metric 变化的...
2018-11-25 01:14:43 |
Devops
监控系统实战-12-indicator 指标 + rule 规则
指标
所有的数据都可以认为是指标:sql / 日志 / prome / cat / net / …
SQL 指标
basic: 业务域+应用名+名称+标签+remark
核心
数据源:初期可以配置,手动输入。
API: 后续可以考虑 cmdb 动态维护,比较难实现。
属性
调度时间:cron fixed
下次执行时间
执行时间 offset
预执行
提前执行,验证正确...
2018-11-25 01:14:43 |
Devops
监控系统实战-11-RCA 根本原因分析(Root Cause Analysis) 如何实现?整体的思路
整体的思路
最好的方式是基于图数据库
cmdb + 图数据库(neo4j) + 逻辑推断(权重)+报警结合
切为子图
ui ==》接口==》实现
关系
资源 + 机器 + 报警
关系
app -- 资源 --- 机器 -- 报警
app 和其他资源
app -- database
|
|
redis
底层对应的 vm / phy 等物理资源。
异常过滤
聚集性的...
2018-11-25 01:14:43 |
Devops
监控系统实战-11-RCA 根本原因分析(Root Cause Analysis) 如何实现?AIOps在小红书的探索与实践——故障定位与诊断
背景
1.1 AIOps是什么?
AIOps(Artificial Intelligence for IT Operations),是基于已有的可观测和运维数据(指标、Trace、变更、日志、告警等),通过机器学习相关算法进行数据分析与决策,来解决运维工具没办法解决的问题,让运维相关工作从工具化过渡到智能化。
随着整个互联网业务急剧膨胀,以及服务类型的复杂多样,基于人为指定规则的专家系...
2018-11-25 01:14:43 |
Devops
监控系统实战-11-RCA 根本原因分析(Root Cause Analysis) 如何实现?亿级vivo 故障定位平台的探索与实践
一、背景介绍
1.1 程序员的困扰
作为一名IT从业人员,比如开发和运维,多少有过类似的经历:睡觉的时候被电话叫醒,过节的时候在值班,游玩的时候被通知处理故障。
作为一名程序员,我们时时刻刻都在想着运用信息技术,为别人解决问题,提升效率,节省成本。
随着微服务架构的快速发展,带来一系列复杂的调用链路和海量的数据。
对于我们来说,排查问题是一个大挑战,寻找故障原因犹如大海捞针,需要花...
2018-11-25 01:14:43 |
Devops
监控系统实战-11-RCA 根本原因分析(Root Cause Analysis) 如何实现?如何快速定位异常?去哪儿网根因分析实践攻略
一、背景
随着去哪儿网业务的发展和微服务架构的普及,公司内微服务的拆分粒度越来越细,导致服务间的调用错综复杂。
比如机票和酒店的下单场景,就会涉及到成百上千个应用的调用,而当此类场景出现异常产生报警甚至产生故障时,对开学同学来说查找并定位问题是个很大的挑战。
去哪儿网构建了自己的 APM 系统,包括监控(metric)、日志(logging)和调用链路(Tracing),帮助开发同学定...
2018-11-25 01:14:43 |
Devops