个人简介

Echo Blog


江湖无名 安心练剑
  • 监控系统实战-11-RCA 根本原因分析(Root Cause Analysis) 如何实现?阿里本地生活EMonitor根因分析大揭秘
    阿里本地生活EMonitor根因分析大揭秘 阿里集团针对故障处理提出了“1/5/10”的目标– 1 分钟发现、5 分钟定位、10 分钟恢复,这对我们的定位能力提出了更高的要求。 EMonitor 是一款集成 Tracing 和 Metrics、服务于饿了么所有技术部门的一站式监控系统,其覆盖了 前端监控、接入层监控; 业务 Trace 和 Metric 监控; 所有的中间件监控; ...
    2018-11-25 01:14:43 | Devops
  • 监控系统实战-10-RCA 根本原因分析(Root Cause Analysis)
    根本原因分析 根本原因的分析 根本原因分析(RCA)是一项结构化的问题处理法,用以逐步找出问题的根本原因并加以解决, 而不是仅仅关注问题的表征。 根本原因分析是一个系统化的问题处理过程,包括确定和分析问题原因,找出问题解决办法,并制定问题预防措施。 在组织管理领域内,根本原因分析能够帮助利益相关者发现组织问题的症结,并找出根本性的解决方案。 根本原因分析的应用 组织的多数疑难杂症...
    2018-11-25 01:14:43 | Devops
  • 监控系统实战-09-什么是风险?什么又是报警呢?
    核心理念 AI 不谈。谈一下专家规则。 风控 比如功能+黑名单+限额限次 这些是比较固定的。 规则比如交易频次同比之类的差异过大等等 报警 报警也是类似的。 比如有 Exception 的 ERROR 日志,请求等波动比例。都可以认为是异常, 服务不可用,交易量跌 0 等等。 整体流程 数据的源头===》指标 风险识别==》规则 对应的策略:通过/拒绝/报警/验证/处...
    2018-11-25 01:14:43 | Devops
  • 监控系统实战-09-一些笔记 SQL 指标可能会被忽略的事情
    前言 指标的执行,看起来也很简单。 但是存在一些问题 数据源 数据源的过期+替换等问题 耗时 慢SQL对于整体平台的影响 过慢的要告警+禁用 可监控 对于监控平台自身的监控??? 性能 适当的 cache 个人理解 前言 数据源 耗时 可监控 性能 个人理解
    2018-11-25 01:14:43 | Devops
  • 监控系统实战-08-指标与规则
    indicator? cat event sql event trace cmdb measurement(度量) rule? how to use indicator? what is risk/alarm 其实按照这个角度,风控和报警的设计理念是一样的。 包括度量平台也是。 拆分开的优缺点 优点 规则和指标不需要强耦合。 指标可以从很多地方来,比如客诉+舆...
    2018-11-25 01:14:43 | Devops
  • 监控系统实战-07-长文本的截断+任务过多的丢弃+资源消耗过多的禁用
    舍得 在提供平台的服务时,我们要学会舍得。 这种智慧提现在很多地方。 比如: 1)日志 ES 落库太长,截断落库。 2)日志脱敏等处理,日志太长,截断+舍弃 3)任务如果执行耗时特别长、特别吃性能,考虑将数据直接禁用掉,避免影响其他服务。 隔离+限制 当然类似的还有限流 资源隔离 限制 cpu/mem 等等 预警 还有需要有对应的预警配套措施。 小结 舍得 舍得 ...
    2018-11-25 01:14:43 | Devops
  • 监控系统实战-05-分布式调度等如何实现 HA? 跨机房
    背景 分布式调度,要如何保证多机房可用? HA 高可用篇之异地多活异地双活入门介绍 拓展阅读 schedule-00-任务调度整体概览 分布式锁-02-SQL 数据库实现分布式锁 分布式锁-01-基于 Zookeeper 实现分布式锁 分布式锁-03-基于 mysql 实现分布式锁 项目 基于数据库最简单的分布式任务调度。(The simplest distributed...
    2018-11-25 01:14:43 | Devops
  • 监控系统实战-05-任务的分布式调度
    背景 在单机时代,我们如果想实现一个调度系统,那么并不难。 但是在分布式服务的今天,如何实现一个分布式调度的服务呢? 拓展阅读 schedule-00-任务调度整体概览 分布式锁-02-SQL 数据库实现分布式锁 分布式锁-01-基于 Zookeeper 实现分布式锁 分布式锁-03-基于 mysql 实现分布式锁 项目 基于数据库最简单的分布式任务调度。(The simp...
    2018-11-25 01:14:43 | Devops