监控系统实战-16-RCA 根本原因分析(Root Cause Analysis) 如何实现?华为 网络云根因智荐的探索与实践
背景与痛点
NFV将云计算技术引入到电信网络中来,推动电信网络IT化、设备软件化、硬件标准化变革,形成以“功能软件化”、“业务统一编排”和“硬件云资源池”为主要特征的网络云化体系,大幅提升网络的灵活性,助力新业务的开发和部署,提升网络的管理和运营效率。
也正因此,云化虚拟化网络颠覆了过去电信设备一种功能一种设备形态的传统维护模式,需要电信运营商的运维系统基于业务负载的实时动态智能资源配置...
2018-11-25 01:14:43 |
Devops
监控系统实战-15-RCA 根本原因分析(Root Cause Analysis) 如何实现?数据库异常智能分析与诊断 美团
DAS
DAS(Database Autonomy Service, 数据库自治服务)面向研发和DBA,是一款为用户提供数据库性能分析、故障诊断、安全管理等功能的数据库自治服务。
DAS利用大数据手段、机器学习、专家经验,帮助用户消除数据库管理的复杂性及人工操作引发的服务故障,有效保障数据库服务的稳定和高效运行。
本文主要讲述DAS的历史背景、演进策略、重要功能及实现思路,希望能对从事...
2018-11-25 01:14:43 |
Devops
监控系统实战-13-RCA 根本原因分析(Root Cause Analysis) 如何实现?基于Trace的根因分析
前言
AI paper 的一些,主要看一下思路。
Trace 的演进之路
接下来的几个月里,将继续不定期总结基于 Traces 的根因定位方法。
Trace 记录了请求在分布式应用程序中运行的轨迹,能够完整的串联起请求的上下文关系,在大规模分布式系统根因定位中的作用举足轻重 。
在讨论基于 Traces 的根因定位之前,本文先简单介绍 Trace 的出现及其演进的过程。
02_D...
2018-11-25 01:14:43 |
Devops
监控系统实战-14-RCA 根本原因分析(Root Cause Analysis) 如何实现?多模态融合
前言
AI paper 的一些,主要看一下思路。
基于多模态运维数据的根因定位(一):异构数据时序化
为了使故障诊断方法能够诊断更多种类的故障,融合多模态运维数据进行自动化故障诊断,已经成为当前学术界和工业界的重要研究热点。
将文本类型的 Log 和 Trace 转换成与 Metric 同构的时间序列表示,然后输入到故障诊断算法中进行分析,是融合多模态运维数据分析最直接的方式,今天将...
2018-11-25 01:14:43 |
Devops
监控系统实战-13-RCA 根本原因分析(Root Cause Analysis) 如何实现?基于指标的根因分析
前言
AI paper 的一些,主要看一下思路。
基于 Metrics 的根因定位 (一):故障刻画
“ Metrics, Traces, Logs 被誉为可观测性的三大支柱。
Metrics 又是三者中在根因定位中最常用的数据源,阅读本文可快速了解当前学术界热门的基于 Metric 的根因定位算法类型——故障刻画。”
故障刻画是指通过提取历史的故障发生时不同 Metric 变化的...
2018-11-25 01:14:43 |
Devops
监控系统实战-12-indicator 指标 + rule 规则
指标
所有的数据都可以认为是指标:sql / 日志 / prome / cat / net / …
SQL 指标
basic: 业务域+应用名+名称+标签+remark
核心
数据源:初期可以配置,手动输入。
API: 后续可以考虑 cmdb 动态维护,比较难实现。
属性
调度时间:cron fixed
下次执行时间
执行时间 offset
预执行
提前执行,验证正确...
2018-11-25 01:14:43 |
Devops
监控系统实战-11-RCA 根本原因分析(Root Cause Analysis) 如何实现?整体的思路
整体的思路
最好的方式是基于图数据库
cmdb + 图数据库(neo4j) + 逻辑推断(权重)+报警结合
切为子图
ui ==》接口==》实现
关系
资源 + 机器 + 报警
关系
app -- 资源 --- 机器 -- 报警
app 和其他资源
app -- database
|
|
redis
底层对应的 vm / phy 等物理资源。
异常过滤
聚集性的...
2018-11-25 01:14:43 |
Devops
监控系统实战-11-RCA 根本原因分析(Root Cause Analysis) 如何实现?AIOps在小红书的探索与实践——故障定位与诊断
背景
1.1 AIOps是什么?
AIOps(Artificial Intelligence for IT Operations),是基于已有的可观测和运维数据(指标、Trace、变更、日志、告警等),通过机器学习相关算法进行数据分析与决策,来解决运维工具没办法解决的问题,让运维相关工作从工具化过渡到智能化。
随着整个互联网业务急剧膨胀,以及服务类型的复杂多样,基于人为指定规则的专家系...
2018-11-25 01:14:43 |
Devops