个人简介

Echo Blog


江湖无名 安心练剑
  • 监控系统实战-13-RCA 根本原因分析(Root Cause Analysis) 如何实现?基于指标的根因分析
    前言 AI paper 的一些,主要看一下思路。 基于 Metrics 的根因定位 (一):故障刻画 “ Metrics, Traces, Logs 被誉为可观测性的三大支柱。 Metrics 又是三者中在根因定位中最常用的数据源,阅读本文可快速了解当前学术界热门的基于 Metric 的根因定位算法类型——故障刻画。” 故障刻画是指通过提取历史的故障发生时不同 Metric 变化的...
    2018-11-25 01:14:43 | Devops
  • 监控系统实战-12-indicator 指标 + rule 规则
    指标 所有的数据都可以认为是指标:sql / 日志 / prome / cat / net / … SQL 指标 basic: 业务域+应用名+名称+标签+remark 核心 数据源:初期可以配置,手动输入。 API: 后续可以考虑 cmdb 动态维护,比较难实现。 属性 调度时间:cron fixed 下次执行时间 执行时间 offset 预执行 提前执行,验证正确...
    2018-11-25 01:14:43 | Devops
  • 监控系统实战-11-RCA 根本原因分析(Root Cause Analysis) 如何实现?整体的思路
    整体的思路 最好的方式是基于图数据库 cmdb + 图数据库(neo4j) + 逻辑推断(权重)+报警结合 切为子图 ui ==》接口==》实现 关系 资源 + 机器 + 报警 关系 app -- 资源 --- 机器 -- 报警 app 和其他资源 app -- database | | redis 底层对应的 vm / phy 等物理资源。 异常过滤 聚集性的...
    2018-11-25 01:14:43 | Devops
  • 监控系统实战-11-RCA 根本原因分析(Root Cause Analysis) 如何实现?AIOps在小红书的探索与实践——故障定位与诊断
    背景 1.1 AIOps是什么? AIOps(Artificial Intelligence for IT Operations),是基于已有的可观测和运维数据(指标、Trace、变更、日志、告警等),通过机器学习相关算法进行数据分析与决策,来解决运维工具没办法解决的问题,让运维相关工作从工具化过渡到智能化。 随着整个互联网业务急剧膨胀,以及服务类型的复杂多样,基于人为指定规则的专家系...
    2018-11-25 01:14:43 | Devops
  • 监控系统实战-11-RCA 根本原因分析(Root Cause Analysis) 如何实现?亿级vivo 故障定位平台的探索与实践
    一、背景介绍 1.1 程序员的困扰 作为一名IT从业人员,比如开发和运维,多少有过类似的经历:睡觉的时候被电话叫醒,过节的时候在值班,游玩的时候被通知处理故障。 作为一名程序员,我们时时刻刻都在想着运用信息技术,为别人解决问题,提升效率,节省成本。 随着微服务架构的快速发展,带来一系列复杂的调用链路和海量的数据。 对于我们来说,排查问题是一个大挑战,寻找故障原因犹如大海捞针,需要花...
    2018-11-25 01:14:43 | Devops
  • 监控系统实战-11-RCA 根本原因分析(Root Cause Analysis) 如何实现?如何快速定位异常?去哪儿网根因分析实践攻略
    一、背景 随着去哪儿网业务的发展和微服务架构的普及,公司内微服务的拆分粒度越来越细,导致服务间的调用错综复杂。 比如机票和酒店的下单场景,就会涉及到成百上千个应用的调用,而当此类场景出现异常产生报警甚至产生故障时,对开学同学来说查找并定位问题是个很大的挑战。 去哪儿网构建了自己的 APM 系统,包括监控(metric)、日志(logging)和调用链路(Tracing),帮助开发同学定...
    2018-11-25 01:14:43 | Devops
  • 监控系统实战-11-RCA 根本原因分析(Root Cause Analysis) 如何实现?阿里本地生活EMonitor根因分析大揭秘
    阿里本地生活EMonitor根因分析大揭秘 阿里集团针对故障处理提出了“1/5/10”的目标– 1 分钟发现、5 分钟定位、10 分钟恢复,这对我们的定位能力提出了更高的要求。 EMonitor 是一款集成 Tracing 和 Metrics、服务于饿了么所有技术部门的一站式监控系统,其覆盖了 前端监控、接入层监控; 业务 Trace 和 Metric 监控; 所有的中间件监控; ...
    2018-11-25 01:14:43 | Devops
  • 监控系统实战-10-RCA 根本原因分析(Root Cause Analysis)
    根本原因分析 根本原因的分析 根本原因分析(RCA)是一项结构化的问题处理法,用以逐步找出问题的根本原因并加以解决, 而不是仅仅关注问题的表征。 根本原因分析是一个系统化的问题处理过程,包括确定和分析问题原因,找出问题解决办法,并制定问题预防措施。 在组织管理领域内,根本原因分析能够帮助利益相关者发现组织问题的症结,并找出根本性的解决方案。 根本原因分析的应用 组织的多数疑难杂症...
    2018-11-25 01:14:43 | Devops