运维必须刻进 DNA 里的 20 条故障保命法则
前言
在企业的日常运维工作中,经常会遇到各种各样的故障。
这些故障如果不及时排查和修复,可能会影响业务的正常运行,甚至导致数据丢失或系统崩溃。
因此,掌握常见故障的排查和修复方法,对于运维人员来说至关重要。
本文将介绍20个日常运维工作中常见的高频故障及其排查和修复方法,希望能为运维人员提供一些实用的参考。
1、服务器无法访问
故障现象:服务器无法通过网络访问。
排查步骤:
...
2025-04-29 01:06:44 |
Ops
支付基本概念入门
支付
支付的本质是货币在收付款人之间的转移,那么为什么要转移呢?
因为发生了经济活动,在活动中产生了交易,交易的完成依赖支付。
就如我们口渴了去超市买了一瓶水,整件事就是经济活动,买水就是一次交易,我们使用银行卡(支付工具)在超市的pos机(收单工具)上通过刷卡(支付动作)完成了支付。
在这个过程中转移的是电子账户货币——也就是我们的银行结算账户里的钱,最终转移到了商户的银行结算...
2025-04-21 03:26:50 |
Pay
个人的资源保护+创建
前言
开源的作用在于初期的宣传+验证+推动发展
但是不会给开源者带来太多的收入,基本为 0, 纯属热爱
开发者应该为自己规划一条,如果我要从零开始创业,我需要哪些基础服务?
然后围绕着这些服务,来创建自己的基础设施。
痛点
解决用户的痛点
到底有什么业务价值
站在公司的用户思考,未来要如何发展???
生态
生态很重要
轮子
基础建设,可以拿来、二开、商业
一些价值
...
2025-04-19 06:31:52 |
Note
RCA 根因分析推断-16-最有可能的根因节点列表
背景
如何从告警出发,找到所有的告警关联信息。
然后通过 pageRank 获取到最可能得根因呢。
chat
也不需要 java 去做。这些步骤都是 neo4j +apoc+gds 实现也行。java 只是调用触发。重新给出实现
下面给你一套 完全“图数据库内完成”、Java 只负责触发 的做法:
报警 → 找关联节点 → 压缩图 → 在临时子图上跑 GDS 算法 → 得到根因节...
2025-04-19 06:31:52 |
Note
RCA 根因分析推断-15-AI 推断如何与专家规则算法整合
背景
系统已经打造了一款基于专家算法规则的RCA根因分析策略。
算法规则很快,每次大面积异常时,基本可以秒级推断获得结果。
但是算法的信息不够人性化,所以希望结合 AI 大模型,将异常的 cmdb/Trace 关系,报警信息+变更事件+指标+日志上下文丢给大模型分析,但是这个过程非常慢。
所以每次页面请求专家算法推断之后,希望异步调用AI解析。后续如果解析完成,可以查库填充相关信息。...
2025-04-19 06:31:52 |
Note
RCA 根因分析推断-14-从AI通用知识(专家规则)出发,给出推断步骤
序言
结合 ai 打造 rca 系统,先让 ai 回答一下。
chat
你是一名监控报警+运维的资深架构师,经验丰富,知识跨多个领域。性格严谨、理性,擅长反思,逻辑自洽。针对一个已知的异常,如何给出对应的问题排查步骤,最好也可以转换为程序可以自定验证的执行步骤。
要将“异常排查”从人肉经验转为系统化、自动化,需要把整个排查过程模型化为:
🧠 高质量问题排查的本质结构
针对一个...
2025-04-19 06:31:52 |
Note
RCA 根因分析推断-12-从告警出发,推断出根因+分析报告
序言
结合 ai 打造 rca 系统,先让 ai 回答一下。
chat
你是一名监控报警+运维的资深架构师,经验丰富,知识跨多个领域。性格严谨、理性。简单起见,我们先从一段时间内的多个报警出发,如何推断出当前问题的根因?要求 top3,并且准确性尽可能的高
非常好,从一段时间内的多个报警出发,推断当前问题的根因,这是 AI 根因分析系统中最关键、最具挑战性的场景。
我会以你要求的风...
2025-04-19 06:31:52 |
Note
RCA 根因分析推断-12-从 NOC 开始,如何一步步推断出根因+最终的分析报告(包含推断过程+打分机制)
序言
结合 ai 打造 rca 系统,先让 ai 回答一下。
chat
从 NOC 开始,如何一步步推断出根因+最终的分析报告(包含推断过程+打分机制),给出整体的流程,要求尽可能的闭环+反馈修正+提升准确率
非常好,这是在构建AIOps根因分析系统时最核心的一环:从 NOC 一线告警接收开始,逐步推理 → 定位根因 → 输出解释型分析报告 → 人工反馈修正 → 模型持续学习提升准确...
2025-04-19 06:31:52 |
Note