运维必须刻进 DNA 里的 20 条故障保命法则
前言
在企业的日常运维工作中,经常会遇到各种各样的故障。
这些故障如果不及时排查和修复,可能会影响业务的正常运行,甚至导致数据丢失或系统崩溃。
因此,掌握常见故障的排查和修复方法,对于运维人员来说至关重要。
本文将介绍20个日常运维工作中常见的高频故障及其排查和修复方法,希望能为运维人员提供一些实用的参考。
1、服务器无法访问
故障现象:服务器无法通过网络访问。
排查步骤:
...
2025-04-29 01:06:44 |
Ops
支付基本概念入门
支付
支付的本质是货币在收付款人之间的转移,那么为什么要转移呢?
因为发生了经济活动,在活动中产生了交易,交易的完成依赖支付。
就如我们口渴了去超市买了一瓶水,整件事就是经济活动,买水就是一次交易,我们使用银行卡(支付工具)在超市的pos机(收单工具)上通过刷卡(支付动作)完成了支付。
在这个过程中转移的是电子账户货币——也就是我们的银行结算账户里的钱,最终转移到了商户的银行结算...
2025-04-21 03:26:50 |
Pay
个人的资源保护+创建
前言
开源的作用在于初期的宣传+验证+推动发展
但是不会给开源者带来太多的收入,基本为 0, 纯属热爱
开发者应该为自己规划一条,如果我要从零开始创业,我需要哪些基础服务?
然后围绕着这些服务,来创建自己的基础设施。
痛点
解决用户的痛点
到底有什么业务价值
站在公司的用户思考,未来要如何发展???
生态
生态很重要
轮子
基础建设,可以拿来、二开、商业
一些价值
...
2025-04-19 06:31:52 |
Note
RCA 根因分析推断-15-AI 推断如何与专家规则算法整合
背景
系统已经打造了一款基于专家算法规则的RCA根因分析策略。
算法规则很快,每次大面积异常时,基本可以秒级推断获得结果。
但是算法的信息不够人性化,所以希望结合 AI 大模型,将异常的 cmdb/Trace 关系,报警信息+变更事件+指标+日志上下文丢给大模型分析,但是这个过程非常慢。
所以每次页面请求专家算法推断之后,希望异步调用AI解析。后续如果解析完成,可以查库填充相关信息。...
2025-04-19 06:31:52 |
Note
RCA 根因分析推断-14-从AI通用知识(专家规则)出发,给出推断步骤
序言
结合 ai 打造 rca 系统,先让 ai 回答一下。
chat
你是一名监控报警+运维的资深架构师,经验丰富,知识跨多个领域。性格严谨、理性,擅长反思,逻辑自洽。针对一个已知的异常,如何给出对应的问题排查步骤,最好也可以转换为程序可以自定验证的执行步骤。
要将“异常排查”从人肉经验转为系统化、自动化,需要把整个排查过程模型化为:
🧠 高质量问题排查的本质结构
针对一个...
2025-04-19 06:31:52 |
Note
RCA 根因分析推断-12-从告警出发,推断出根因+分析报告
序言
结合 ai 打造 rca 系统,先让 ai 回答一下。
chat
你是一名监控报警+运维的资深架构师,经验丰富,知识跨多个领域。性格严谨、理性。简单起见,我们先从一段时间内的多个报警出发,如何推断出当前问题的根因?要求 top3,并且准确性尽可能的高
非常好,从一段时间内的多个报警出发,推断当前问题的根因,这是 AI 根因分析系统中最关键、最具挑战性的场景。
我会以你要求的风...
2025-04-19 06:31:52 |
Note
RCA 根因分析推断-12-从 NOC 开始,如何一步步推断出根因+最终的分析报告(包含推断过程+打分机制)
序言
结合 ai 打造 rca 系统,先让 ai 回答一下。
chat
从 NOC 开始,如何一步步推断出根因+最终的分析报告(包含推断过程+打分机制),给出整体的流程,要求尽可能的闭环+反馈修正+提升准确率
非常好,这是在构建AIOps根因分析系统时最核心的一环:从 NOC 一线告警接收开始,逐步推理 → 定位根因 → 输出解释型分析报告 → 人工反馈修正 → 模型持续学习提升准确...
2025-04-19 06:31:52 |
Note
RCA 根因分析推断-11-结合AI如何打造智能根因分析定位系统?
序言
结合 ai 打造 rca 系统,先让 ai 回答一下。
chat
你是一名监控报警+运维的资深架构师,经验丰富,知识跨多个领域。现在让你使用AI大模型,利用报警信息、日志、指标、Trace+专家知识库(可以降级为AI通识),如何从零到1打造AI智能根因分析系统平台?
很好,这是一个非常有挑战性且具有前瞻性的系统性工程。你想打造的“AI智能根因分析系统平台”,是典型的AIOps高...
2025-04-19 06:31:52 |
Note