RCA 根因分析推断-04-应用到物理机的基本资源?
思路
应用
从报警的应用触发,经过 3 层左右,关联到所有报警的物理机器资源?
通用性
可以考虑将开头的 appList 放在入参,和目标存在问题的资源 ipList 放在那里?
精致的细分
可以把各种资源还是区分开?
统一调整一下【查看子图】的具体实现逻辑?
去重
去重的时候,不要把 app 之类的给去没有了??
参考资料
思路
应用
...
2025-04-19 06:31:52 |
Note
RCA 根因分析推断-03-变更事件的内因+依赖资源的异常
变更事件
说明
要考虑哪些异常的内因呢?
同时考虑一些依赖资源的异常。
现状
特别精确的时间范围控制,会导致无法准确的命中。
内因
磁盘 一般 A2 以及以下可以忽略
mem 内存 A2 以及以下可以忽略?
disk ?
cpu ?
可以看一下 A2 以及以下的是不是没什么用?
GC
服务不可用
依赖资源
公共资源
app
vm
phy
redis
m...
2025-04-19 06:31:52 |
Note
RCA 根因分析推断-02-变更事件笔记 appChangeRecord
变更事件
说明
如果一个变更,可能会导致对应的异常。
标准化
首先要对报警的数据进行标准的格式化处理。
比如应用名,执行时间等等
变更的内容
ip + appName
时间范围
如果页面选择了一个时间范围
比如:18:00~18:30
那么,对应的变更事件应该怎么办呢?
1)create_time
事件的创建时间刚好介于 18:00~18:30
16:00 and...
2025-04-19 06:31:52 |
Note
RCA 根因分析推断笔记
根因分析
相关内容以前记录的比较多。
逐渐级别推断
资源
应用视角==》单个报警
alarm 报警
报警的主视角
metric 指标
普米: (cpu/mem/disk/net)
SQL: SQL 报警
CAT
log===>异常日志
知识库
日志
top3 去重的异常日志?
Trace
cmdb
rpc
事件
变更(标准化)
监听深入
变化值...
2025-04-19 06:31:52 |
Note
devops 开发流水线笔记 pipeline 流水线
一般的研发流程
用户痛点===》业务需求===》研发实现===》测试验证(功能/性能)===》QA(安全性、代码质量、依赖冲突等)===》上线发布===》日常运维===》(可观测)
可观测
Trace
日志
Metric
变更 Event
CMDB 拓扑
知识库(SOP 预案)
影响面分析
Trace
skywalking
普米、zabbix
CAT
切面日志
...
2025-04-19 06:31:52 |
Note
飞致云的一些优秀开源项目介绍-04-Halo,强大易用的开源建站工具。
HALO
官网
文档
社区
Gitee
Telegram 频道
快速开始
如果你的设备有 Docker 环境,可以使用以下命令快速启动一个 Halo 的体验环境:
docker run -d --name halo -p 8090:8090 -v ~/.halo2:/root/.halo2 halohub/halo:2.20
或者点击下方按钮使用 Gitpod 启动一个体验环...
2025-04-15 09:51:19 |
Github
飞致云的一些优秀开源项目介绍-03-JumpServer 一款开源的PAM工具(堡垒主机)
## 一款开源的PAM工具(堡垒主机)
什么是JumpServer?
JumpServer是一款开源的特权访问管理(PAM)工具,为DevOps和IT团队提供通过网页浏览器对SSH、RDP、Kubernetes、数据库和远程应用程序终端的按需和安全访问。
快速开始
准备一台干净的Linux服务器(64位,>= 4c8g)
cu...
2025-04-15 09:51:19 |
Github
飞致云的一些优秀开源项目介绍-1Panel-现代化、开源的 Linux 服务器运维管理面板
1Panel
Top-Rated Web-based Linux Server Management Tool
现代化、开源的 Linux 服务器运维管理面板
什么是 1Panel?
1Panel 是新一代的 Linux 服务器运维管理面板。
高效管理:用户可以通过 Web 界面轻松管理 Linux 服务器,如主机监控、文件管理、数据库管理、容器管理等;
快速建站:深度集...
2025-04-15 09:51:19 |
Github