个人简介

Echo Blog


江湖无名 安心练剑
  • 监控系统实战-01-如何减少监控指标的数据?
    背景 网关希望根据 IP 限制一些恶意的 IP。 要求是 1min 内出现 5000 次的,被视为恶意 IP。 那么应该如何实现大量的 IP 信息累加呢? Redis 累加 一种方式是基于 redis 累加,比如 IP 作为 key,然后定时过期累加。 好处是 redis 相对来说比较节省空间。 不过当时的系统架构并没引入 redis。 而是时序数据库,那么如何优化,降低存储...
    2018-11-25 01:14:43 | Devops
  • 监控系统 AIOps-04-网易游戏AIOps实践:异常检测的优化策略与平台化建设
    是什么? 本次分享主要介绍如下几点: AIOps路线规划 异常检测 平台化建设 故障管理智能化 AIOps即智能运维,是 Gartner 在2016年提出的概念。最初的定义是Algorithm IT Operations,指通过机器学习,数据仓库以及大数据等技术手段,将人工智能应用于运维领域,基于运维产生的数据(日志,监控,应用等)进行分析决策,得出最佳的运维策略,并随着技术的成熟,最...
    2018-11-25 01:14:43 | Devops
  • 监控系统 AIOps-03-AIOps在小红书的探索与实践——故障定位与诊断
    前言 文章详细介绍了小红书在AIOps领域的相关探索与实践,重点介绍了微服务体系下故障定位方面的探索与落地。   AIOps通过结合机器学习算法和运维数据,旨在解决传统运维工具难以应对的复杂问题,实现运维工作的智能化。基于小红书已有的DevOps基础,通过打通基础数据能力、算法能力和应用场景,与IaaS/PaaS层的合作,逐步推进公司在稳定性保障、成本管理和效率提升三个核心方向的发展。...
    2018-11-25 01:14:43 | Devops
  • 监控系统 AIOps-02-持续交付-AIOps-探索-实践-故障发现-美团技术团队
    一、背景 AIOps,最初的定义是Algorithm IT Operations,是利用运维算法来实现运维的自动化,最终走向无人化运维。 随着技术成熟,逐步确定为Artificial Intelligence for IT Operations——智能运维,将人工智能应用于运维领域,基于已有的运维数据(日志、监控信息、应用信息等),通过机器学习的方式来进一步解决自动化运维无法解决的问题。...
    2018-11-25 01:14:43 | Devops
  • 监控系统 AIOps-01-overview 概览
    # 参考资料 https://www.zabbix.com/documentation/4.0/zh/manual/introduction/about 参考资料
    2018-11-25 01:14:43 | Devops
  • Zipkin
    Zipkin Zipkin 是一种分布式跟踪系统。它有助于收集解决微服务架构中的延迟问题所需的时序数据。它管理这些数据的收集和查找。 Zipkin的设计基于Google Dapper论文。 应用程序用于向Zipkin报告时序数据。 Zipkin UI还提供了一个依赖关系图,显示了每个应用程序通过的跟踪请求数。如果要解决延迟问题或错误,可以根据应用程序,跟踪长度,注释或时间戳对所有跟踪...
    2018-11-25 01:14:43 | Devops
  • Redis Monitor
    Redis监控告警的价值 Redis监控告警的价值对每个角色都不同,重要的几个方面: redis故障快速通知,定位故障点;对于DBA,redis的可用性和性能故障需快速发现和定位解决。 分析redis故障的Root cause redis容量规划和性能管理 redis硬件资源利用率和成本 redis故障...
    2018-11-25 01:14:43 | NoSQL
  • Openstry
    Openstry OpenResty®是一个成熟的网络平台,集成了标准的Nginx核心,LuaJIT,许多精心编写的Lua库,许多高质量的第三方Nginx模块以及大多数外部依赖项。它旨在帮助开发人员轻松构建可伸缩的Web应用程序,Web服务和动态Web网关。 通过利用各种精心设计的Nginx模块(其中大部分由OpenResty团队自己开发),OpenResty®有效地将nginx服务器转...
    2018-11-25 01:14:43 | Web