监控系统 AIOps webbank-01-整体概览
webank 系列
智能运维系列(一)
AIOps 的崛起与实践:https://www.infoq.cn/article/fqUfkjhecOla1zKUKycN
智能运维系列(二)
智能化监控领域探索:https://www.infoq.cn/article/Qta6VCyjvHdoiJg5wKze
...
2018-11-25 01:14:43 |
Devops
监控系统 AIOps SRE-01-SRE(Site Reliability Engineering,站点可靠性工程)基本介绍
chat
软件中的 SRE 是什么?
SRE(Site Reliability Engineering,站点可靠性工程)是一种通过软件工程的方式来确保系统可靠性、可扩展性和可维护性的实践。
SRE起源于Google,旨在通过自动化和工程化手段减少系统故障、提高服务的可用性、处理能力,并实现快速响应和修复问题。
SRE的核心目标是结合开发和运维,创建一个高效、可持续的生产环境。
它将...
2018-11-25 01:14:43 |
Devops
监控系统 AIOps-05-如何保障闭环?
所谓的闭环,就是指告警发出、认领、协作处理、问题恢复、复盘改进的整个过程。
排班,专人做专事
这个手段听起来并不高大上,但确实非常有效。值班期间虽然提心吊胆的,生怕背锅,但因为是轮班制,心里总有个盼头,挺过这个周期就好了。
轮班的人在值班期间是第一责任人,会拿出 120% 的精力来处理问题,责任到人显然更容易推进问题解决,其他不值班的人则可以心无旁骛地做一些长线的事情,不至于总是被告...
2018-11-25 01:14:43 |
Devops
监控系统 AIOps-04-网易游戏AIOps实践:异常检测的优化策略与平台化建设
是什么?
本次分享主要介绍如下几点:
AIOps路线规划
异常检测
平台化建设
故障管理智能化
AIOps即智能运维,是 Gartner 在2016年提出的概念。最初的定义是Algorithm IT Operations,指通过机器学习,数据仓库以及大数据等技术手段,将人工智能应用于运维领域,基于运维产生的数据(日志,监控,应用等)进行分析决策,得出最佳的运维策略,并随着技术的成熟,最...
2018-11-25 01:14:43 |
Devops
监控系统 AIOps-03-AIOps在小红书的探索与实践——故障定位与诊断
前言
文章详细介绍了小红书在AIOps领域的相关探索与实践,重点介绍了微服务体系下故障定位方面的探索与落地。
AIOps通过结合机器学习算法和运维数据,旨在解决传统运维工具难以应对的复杂问题,实现运维工作的智能化。基于小红书已有的DevOps基础,通过打通基础数据能力、算法能力和应用场景,与IaaS/PaaS层的合作,逐步推进公司在稳定性保障、成本管理和效率提升三个核心方向的发展。...
2018-11-25 01:14:43 |
Devops
监控系统 AIOps-02-持续交付-AIOps-探索-实践-故障发现-美团技术团队
一、背景
AIOps,最初的定义是Algorithm IT Operations,是利用运维算法来实现运维的自动化,最终走向无人化运维。
随着技术成熟,逐步确定为Artificial Intelligence for IT Operations——智能运维,将人工智能应用于运维领域,基于已有的运维数据(日志、监控信息、应用信息等),通过机器学习的方式来进一步解决自动化运维无法解决的问题。...
2018-11-25 01:14:43 |
Devops
监控系统 AIOps-01-overview 概览
基本的监控属性会有哪些
Static Relationship: 静态资源:cmdb
Dynamic Relationship: 动态关系:Trace
Events 事件变更:应用发布 + 配置变更 + 数据库变更===》背后需要统一的审批流程+流水线支撑
Alarm: 报警信息:普米/CAT/DB/日志
Mertric: 以及对应的指标信息
通知:一些变更的通知 停水/停电/机...
2018-11-25 01:14:43 |
Devops
监控系统 AIOps-00-blue-print 蓝图
IT服务管理
企业和IT服务管理
ServiceDesk Plus:面向具有集成ITAM功能的企业的全栈ITSM套件(本地
云
MSP)
客户服务管理
SupportCenter Plus:基于web的客户支持活动目录集成(本地)
IT资产管理
AssetExplorer:内置CMDB的ITAM(本地)
身...
2018-11-25 01:14:43 |
Devops