个人简介

Echo Blog


江湖无名 安心练剑
  • 监控系统实战-13-RCA 根本原因分析(Root Cause Analysis) 如何实现?基于Trace的根因分析
    前言 AI paper 的一些,主要看一下思路。 Trace 的演进之路 接下来的几个月里,将继续不定期总结基于 Traces 的根因定位方法。 Trace 记录了请求在分布式应用程序中运行的轨迹,能够完整的串联起请求的上下文关系,在大规模分布式系统根因定位中的作用举足轻重 。 在讨论基于 Traces 的根因定位之前,本文先简单介绍 Trace 的出现及其演进的过程。 02_D...
    2018-11-25 01:14:43 | Devops
  • 监控系统实战-14-RCA 根本原因分析(Root Cause Analysis) 如何实现?多模态融合
    前言 AI paper 的一些,主要看一下思路。 基于多模态运维数据的根因定位(一):异构数据时序化 为了使故障诊断方法能够诊断更多种类的故障,融合多模态运维数据进行自动化故障诊断,已经成为当前学术界和工业界的重要研究热点。 将文本类型的 Log 和 Trace 转换成与 Metric 同构的时间序列表示,然后输入到故障诊断算法中进行分析,是融合多模态运维数据分析最直接的方式,今天将...
    2018-11-25 01:14:43 | Devops
  • 监控系统实战-13-RCA 根本原因分析(Root Cause Analysis) 如何实现?基于指标的根因分析
    前言 AI paper 的一些,主要看一下思路。 基于 Metrics 的根因定位 (一):故障刻画 “ Metrics, Traces, Logs 被誉为可观测性的三大支柱。 Metrics 又是三者中在根因定位中最常用的数据源,阅读本文可快速了解当前学术界热门的基于 Metric 的根因定位算法类型——故障刻画。” 故障刻画是指通过提取历史的故障发生时不同 Metric 变化的...
    2018-11-25 01:14:43 | Devops
  • 监控系统实战-12-indicator 指标 + rule 规则
    指标 所有的数据都可以认为是指标:sql / 日志 / prome / cat / net / … SQL 指标 basic: 业务域+应用名+名称+标签+remark 核心 数据源:初期可以配置,手动输入。 API: 后续可以考虑 cmdb 动态维护,比较难实现。 属性 调度时间:cron fixed 下次执行时间 执行时间 offset 预执行 提前执行,验证正确...
    2018-11-25 01:14:43 | Devops
  • 监控系统实战-11-RCA 根本原因分析(Root Cause Analysis) 如何实现?整体的思路
    整体的思路 最好的方式是基于图数据库 cmdb + 图数据库(neo4j) + 逻辑推断(权重)+报警结合 切为子图 ui ==》接口==》实现 关系 资源 + 机器 + 报警 关系 app -- 资源 --- 机器 -- 报警 app 和其他资源 app -- database | | redis 底层对应的 vm / phy 等物理资源。 异常过滤 聚集性的...
    2018-11-25 01:14:43 | Devops
  • 监控系统实战-11-RCA 根本原因分析(Root Cause Analysis) 如何实现?AIOps在小红书的探索与实践——故障定位与诊断
    背景 1.1 AIOps是什么? AIOps(Artificial Intelligence for IT Operations),是基于已有的可观测和运维数据(指标、Trace、变更、日志、告警等),通过机器学习相关算法进行数据分析与决策,来解决运维工具没办法解决的问题,让运维相关工作从工具化过渡到智能化。 随着整个互联网业务急剧膨胀,以及服务类型的复杂多样,基于人为指定规则的专家系...
    2018-11-25 01:14:43 | Devops
  • 监控系统实战-11-RCA 根本原因分析(Root Cause Analysis) 如何实现?亿级vivo 故障定位平台的探索与实践
    一、背景介绍 1.1 程序员的困扰 作为一名IT从业人员,比如开发和运维,多少有过类似的经历:睡觉的时候被电话叫醒,过节的时候在值班,游玩的时候被通知处理故障。 作为一名程序员,我们时时刻刻都在想着运用信息技术,为别人解决问题,提升效率,节省成本。 随着微服务架构的快速发展,带来一系列复杂的调用链路和海量的数据。 对于我们来说,排查问题是一个大挑战,寻找故障原因犹如大海捞针,需要花...
    2018-11-25 01:14:43 | Devops
  • 监控系统实战-11-RCA 根本原因分析(Root Cause Analysis) 如何实现?如何快速定位异常?去哪儿网根因分析实践攻略
    一、背景 随着去哪儿网业务的发展和微服务架构的普及,公司内微服务的拆分粒度越来越细,导致服务间的调用错综复杂。 比如机票和酒店的下单场景,就会涉及到成百上千个应用的调用,而当此类场景出现异常产生报警甚至产生故障时,对开学同学来说查找并定位问题是个很大的挑战。 去哪儿网构建了自己的 APM 系统,包括监控(metric)、日志(logging)和调用链路(Tracing),帮助开发同学定...
    2018-11-25 01:14:43 | Devops