监控系统 AIOps-03-AIOps在小红书的探索与实践——故障定位与诊断
前言
文章详细介绍了小红书在AIOps领域的相关探索与实践,重点介绍了微服务体系下故障定位方面的探索与落地。
AIOps通过结合机器学习算法和运维数据,旨在解决传统运维工具难以应对的复杂问题,实现运维工作的智能化。基于小红书已有的DevOps基础,通过打通基础数据能力、算法能力和应用场景,与IaaS/PaaS层的合作,逐步推进公司在稳定性保障、成本管理和效率提升三个核心方向的发展。...
2018-11-25 01:14:43 |
Devops
监控系统 AIOps-02-持续交付-AIOps-探索-实践-故障发现-美团技术团队
一、背景
AIOps,最初的定义是Algorithm IT Operations,是利用运维算法来实现运维的自动化,最终走向无人化运维。
随着技术成熟,逐步确定为Artificial Intelligence for IT Operations——智能运维,将人工智能应用于运维领域,基于已有的运维数据(日志、监控信息、应用信息等),通过机器学习的方式来进一步解决自动化运维无法解决的问题。...
2018-11-25 01:14:43 |
Devops
监控系统 AIOps-01-overview 概览
基本的监控属性会有哪些
Static Relationship: 静态资源:cmdb
Dynamic Relationship: 动态关系:Trace
Events 事件变更:应用发布 + 配置变更 + 数据库变更===》背后需要统一的审批流程+流水线支撑
Alarm: 报警信息:普米/CAT/DB/日志
Mertric: 以及对应的指标信息
通知:一些变更的通知 停水/停电/机...
2018-11-25 01:14:43 |
Devops
监控系统 AIOps-00-blue-print 蓝图
IT服务管理
企业和IT服务管理
ServiceDesk Plus:面向具有集成ITAM功能的企业的全栈ITSM套件(本地
云
MSP)
客户服务管理
SupportCenter Plus:基于web的客户支持活动目录集成(本地)
IT资产管理
AssetExplorer:内置CMDB的ITAM(本地)
身...
2018-11-25 01:14:43 |
Devops
Redis Monitor
Redis监控告警的价值
Redis监控告警的价值对每个角色都不同,重要的几个方面:
redis故障快速通知,定位故障点;对于DBA,redis的可用性和性能故障需快速发现和定位解决。
分析redis故障的Root cause
redis容量规划和性能管理
redis硬件资源利用率和成本
redis故障...
2018-11-25 01:14:43 |
NoSQL
Openstry-01-入门介绍 集成了标准的Nginx核心,LuaJIT,许多精心编写的Lua库
Openstry
OpenResty®是一个成熟的网络平台,集成了标准的Nginx核心,LuaJIT,许多精心编写的Lua库,许多高质量的第三方Nginx模块以及大多数外部依赖项。它旨在帮助开发人员轻松构建可伸缩的Web应用程序,Web服务和动态Web网关。
通过利用各种精心设计的Nginx模块(其中大部分由OpenResty团队自己开发),OpenResty®有效地将nginx服务器转...
2018-11-25 01:14:43 |
Web
Openstry-02-聊一聊 Openstry
chat
是什么?
OpenResty(用户问题中可能存在拼写误差,正确名称为OpenResty)是一个基于Nginx与Lua的高性能Web平台,通过扩展Nginx的功能,使其从传统的静态服务器或反向代理升级为全功能的Web应用服务器。
以下从多个维度详细解析其核心特性、发展历程、应用场景及生态体系。
一、定义与核心特性
技术定位
OpenResty整合了Ngin...
2018-11-25 01:14:43 |
Web
Open-Falcon
Open-Falcon
Open-Falcon is a Distributed and High-Performance Monitoring System.
特性
可扩展性
可扩展的监控系统是支持快速业务增长所必需的。 Open-Falcon的每个模块都非常容易水平扩展。
性能
使用RRA(Round Robin Archive)机制,可以在一秒钟内返回100多个指标的一年历...
2018-11-25 01:14:43 |
Devops