监控系统 AIOps-05-如何保障闭环?
所谓的闭环,就是指告警发出、认领、协作处理、问题恢复、复盘改进的整个过程。
排班,专人做专事
这个手段听起来并不高大上,但确实非常有效。值班期间虽然提心吊胆的,生怕背锅,但因为是轮班制,心里总有个盼头,挺过这个周期就好了。
轮班的人在值班期间是第一责任人,会拿出 120% 的精力来处理问题,责任到人显然更容易推进问题解决,其他不值班的人则可以心无旁骛地做一些长线的事情,不至于总是被告...
2018-11-25 01:14:43 |
Devops
监控系统 AIOps-04-网易游戏AIOps实践:异常检测的优化策略与平台化建设
是什么?
本次分享主要介绍如下几点:
AIOps路线规划
异常检测
平台化建设
故障管理智能化
AIOps即智能运维,是 Gartner 在2016年提出的概念。最初的定义是Algorithm IT Operations,指通过机器学习,数据仓库以及大数据等技术手段,将人工智能应用于运维领域,基于运维产生的数据(日志,监控,应用等)进行分析决策,得出最佳的运维策略,并随着技术的成熟,最...
2018-11-25 01:14:43 |
Devops
监控系统 AIOps-03-AIOps在小红书的探索与实践——故障定位与诊断
前言
文章详细介绍了小红书在AIOps领域的相关探索与实践,重点介绍了微服务体系下故障定位方面的探索与落地。
AIOps通过结合机器学习算法和运维数据,旨在解决传统运维工具难以应对的复杂问题,实现运维工作的智能化。基于小红书已有的DevOps基础,通过打通基础数据能力、算法能力和应用场景,与IaaS/PaaS层的合作,逐步推进公司在稳定性保障、成本管理和效率提升三个核心方向的发展。...
2018-11-25 01:14:43 |
Devops
监控系统 AIOps-02-持续交付-AIOps-探索-实践-故障发现-美团技术团队
一、背景
AIOps,最初的定义是Algorithm IT Operations,是利用运维算法来实现运维的自动化,最终走向无人化运维。
随着技术成熟,逐步确定为Artificial Intelligence for IT Operations——智能运维,将人工智能应用于运维领域,基于已有的运维数据(日志、监控信息、应用信息等),通过机器学习的方式来进一步解决自动化运维无法解决的问题。...
2018-11-25 01:14:43 |
Devops
监控系统 AIOps-01-overview 概览
基本的监控属性会有哪些
Static Relationship: 静态资源:cmdb
Dynamic Relationship: 动态关系:Trace
Events 事件变更:应用发布 + 配置变更 + 数据库变更===》背后需要统一的审批流程+流水线支撑
Alarm: 报警信息:普米/CAT/DB/日志
Mertric: 以及对应的指标信息
通知:一些变更的通知 停水/停电/机...
2018-11-25 01:14:43 |
Devops
监控系统 AIOps-00-blue-print 蓝图
IT服务管理
企业和IT服务管理
ServiceDesk Plus:面向具有集成ITAM功能的企业的全栈ITSM套件(本地
云
MSP)
客户服务管理
SupportCenter Plus:基于web的客户支持活动目录集成(本地)
IT资产管理
AssetExplorer:内置CMDB的ITAM(本地)
身...
2018-11-25 01:14:43 |
Devops
Redis Monitor
Redis监控告警的价值
Redis监控告警的价值对每个角色都不同,重要的几个方面:
redis故障快速通知,定位故障点;对于DBA,redis的可用性和性能故障需快速发现和定位解决。
分析redis故障的Root cause
redis容量规划和性能管理
redis硬件资源利用率和成本
redis故障...
2018-11-25 01:14:43 |
NoSQL
Openstry-01-入门介绍 集成了标准的Nginx核心,LuaJIT,许多精心编写的Lua库
Openstry
OpenResty®是一个成熟的网络平台,集成了标准的Nginx核心,LuaJIT,许多精心编写的Lua库,许多高质量的第三方Nginx模块以及大多数外部依赖项。它旨在帮助开发人员轻松构建可伸缩的Web应用程序,Web服务和动态Web网关。
通过利用各种精心设计的Nginx模块(其中大部分由OpenResty团队自己开发),OpenResty®有效地将nginx服务器转...
2018-11-25 01:14:43 |
Web