根本原因分析
根本原因的分析
根本原因分析(RCA)是一项结构化的问题处理法,用以逐步找出问题的根本原因并加以解决, 而不是仅仅关注问题的表征。
根本原因分析是一个系统化的问题处理过程,包括确定和分析问题原因,找出问题解决办法,并制定问题预防措施。
在组织管理领域内,根本原因分析能够帮助利益相关者发现组织问题的症结,并找出根本性的解决方案。
根本原因分析的应用
组织的多数疑难杂症都有不止于一种应对之法, 这些各不相同的解决之法,对于组织来说亦有不同程度的资源需求。
因为这种关联性的存在,就需要有一种最为有利的方案,能够快速解决妥善地解决问题。
因此,只顾解决表面原因、而不管根本原因的解决之法成为一种普遍现象,就不足为怪了。
然而,选择这种急功近利的问题解决办法,治标不治本,问题免不了要复发,其结果是组织不得不一而再、再而三地重复应对同一个问题。
可以想象,这些方法的累积成本肯定是惊人的。
根本原因分析法的目标是找出:
-
问题(发生了什么);
-
原因(为什么发生);
-
措施(什么办法能够阻止问题再次发生)。
所谓根本原因,就是导致我们所关注的问题发生的最基本的原因。
因为引起问题的原因通常有很多,物理条件、人为因素、系统行为、或者流程因素等等,通过科学分析,有可能发现不止一个根源性原因。
根本原因分析法的步骤
根本原因分析法最常见的一项内容是,提问为什么会发生当前情况, 并对可能的答案进行记录。
然而,再逐一对每个答案问一个为什么,并记录下原因。根本原因分析法的目的就是要努力找出问题的作用因素,并对所有的原因进行分析。
这种方法通过反复问一个为什么,能够把问题逐渐引向深入,直到你发现根本原因。
找到根本原因后,就要进行下一个步骤: 评估改变根本原因的最佳方法,从而从根本上解决问题。
这是另一个独立的过程,一般被称之为 改正和预防。当我们在寻找根本原因的时候,必须要记住对每一个业已找出的原因也要进行评估,给出改正的办法,因为这样做也将有助于整体改善和提高。
根本原因分析作为一个一般性的术语,存在着一系列不尽相同的结构化的具体方法,用于解决具体的组织问题。
根本原因分析的工具
1.因果图。
这是一种描述一个结果和所有可能对它有影响的原因之间的关系的方法,其步骤包括:定义问题,作图,描述所有相关的任务,复核图表,确定纠正行动。
2.头脑风暴法。
头脑风暴法是揭示所有可能的原因和所有的选择方案并导出纠正措施的最有效的一种方法。
头脑风暴法规则:决不批评任何一个想法;快速地写下每个想法并保持思维流畅;鼓励在他人的意见的基础上提出想法;鼓励发散性的思考;将规则张贴在团队成员都能看见的地方。指派一个记录员将各种想法写在纸上,要使讨论充满乐趣,记住即使愚蠢的想法也可能引发他人想到一个有用的点子。
3.因果分析——鱼骨图。
(1)清楚地陈述问题或目标;
(2)确认三到六个主要的原因类别;
(3)运用头脑风暴法在每个类别下填写原因,并将每个原因联系到主要类别上去;
(4)针对每个原因思考可能对其起作用的因素,把这些因素放在从原因出发的一条线上;
(5)讨论每个因素和它如何对某个原因起作用,将该信息列在原因旁;
(6)对最可能的原因达成一致,将它们圈出来,寻找那些重复出现的原因;
(7)同意将采取的步骤,以收集数据确认原因或通过采取纠正措施消除原因。
4.因果分析——WHY-WHY图。
这是一种简单却有效的方法,通过层层分解原因找出导致一个问题不断发生的根本原因,主要有四个步骤:选择问题,该问题为何出现,那些原因为何发生,找出最重要的原由(可能不只一个)。
WHY-WHY图使用概述:
(1)确定问题或目标的,把它写在图的最左边的一个方框内,要确保所有成员都知道这个问题或目标。
(2)确定原因或任务,写在方框的右边的分枝上。
(3)继续阐明原因或任务,并在右边画上新的分枝。
(4)重复上述步骤直到每个分枝到达它的逻辑终点。
(5)检查树状图,确定是否需要增加其它信息或者在层次上是否有欠缺的地方。
(6)制定行动计划。
根本原因分析的案例分析
RCA分析工作包括对问题的复查和评估问题的可能原因,过程的每一步都要注重效果、关注有数据支持的目标,深入分析这些“因”怎么导出故障的“果”。
RCA过程如图所示,简单描述如下:
1) 界定问题,明确与问题相关的条件,找出哪些可能和哪些不可能与特定问题有关的因素。
2) 描述并界定特定问题的可能原因。通过背景资料和数据(可来自FTA、FMEA或其他工程失效分析结论、试验结果、仿真研究结论、预试验结果等)说明每个原因。为了挖掘根本原因及其影响,可能需要预先进行假设,并对假设进行定量或者定性的验证。
3) 通过统计分析工具或者工程判断将可能原因列表,评估后判定最有可能的根本原因。采用的评估判定方法可以是诸如假设检验,或利用试验分析技术进行定量统计,如果数据本来就是定量的,那么就运用决策技术(可有统计数据,也可无)以找出主要原因,或采取格式化的(决策树或效益矩阵)或者非格式化的(比较分析)决策技术来缩小根本原因所在的范围。
4) 通过现场试验、实验室试验或者过程描述提供准确定位真正原因的有效信息,用有助于再现问题的手段,在不同的环境条件下多次模拟可以提高置信水平。
RCA提供了一个分析问题的简单易行的方法,该方法通过正确的提问来引导思考,快速有效的定位问题的原因。这个分析工具可用于产品的设计和生产阶段的失效模式鉴别,做好RCA工作的几点好处是:
1) 提供了一个鉴定和证实特定问题原因的逻辑思维方法;
2) 有助于使组织并完成失效模式鉴定的方式规范化,有助于证实产品设计和生产过程中的FMEA分析的失效模式,进而更准确的进行风险评估;
3) 提供了一个简单、恰当的决定和评估可能原因的方式;
4) 适用于产品研发过程的各个阶段,有助于许多工程领域问题的根本原因分析。
什么是根因分析
根因分析(Root Cause Analysis,RCA)是一种问题解决方法,用于识别问题的根本原因,然后通过解决这些原因来防止问题再次发生。
它是一种回溯性过程,旨在发现问题的深层原因,而不仅仅是处理表面的症状或后果。
在可观测领域和IT领域内,根因分析是指在软件工程和系统管理中,当服务或应用出现故障时,通过监控和日志数据来识别导致问题的基本原因的过程。
可观测性通常涉及三个主要的数据源:日志(记录事件的详细信息)、指标(系统性能的定量数据)和跟踪(记录请求流程的路径)。
不同人眼中的根因分析
运维工程师眼中的根因分析
在运维工程师或SRE部门承担着业务稳定的职责,所以出现问题之后,第一职责是确认到底该如何操作才能恢复业务。那么这里面需要根因分析吗?可能会有部分人认为运维不需要对故障做根因分析,只需关注进程是否存在,机器是否正常就好了,如果没有问题,就无脑重启业务就应该恢复业务了。 在一些IT架构不复杂,问题故障原因单一的情况下,很多时候是可以通过重启、回滚等手段恢复,但是IT架构一旦庞大起来,或问题根因比较复杂,特别是以微服务架构运行在云原生环境中时,重启能够恢复业务的几率就大大降低了,往往重启也只是一种无目的的猜测手段了。 在云原生环境中,运维工程师需要通过根因分析来达到恢复业务的目的。所谓根因就是运维工程师在故障发生时能够依据的结论,其后依靠这些结论来指导业务的恢复和故障的处置。 在这里例举下运维工程师可以采取的恢复手段,即使同类故障仍旧会在不久的将来再次发生。
识别是代码缺陷,例如内存泄露、GC频率过高等,重启恢复业务。
识别是代码缺陷导致CPU飙升、数据库QPS过高,在允许代码回滚的情况下通过回滚恢复业务。 识别是流量过大的问题,如果确认是流量过大超过系统设计负载能力,在不变更架构设计的情况下,只能通过扩容或者限流措施来快速恢复业务。 识别是共享资源的问题,取得明确的证据,减少跨公司跨团队的协作沟通成本,提交工单提供数据或相关日志,协助公有云或者云供应商更快的解决故障,恢复业务。 识别是第三方软件依赖的问题,取得明确的证据,减少跨公司跨团队的协作沟通成本,督促第三方软件依赖快速解决故障,恢复业务。 运维工程师不可能在不了解故障根因的情况下,依靠穷举猜测试验的方式恢复故障,所以运维工程师非常需要了解到底发生了什么故障,该故障的根因是什么,才能真正的快速恢复业务,做到快速止血。所以针对运维工程师,故障根因结论是以下几种:
位于哪个微服务节点的内存泄露、代码死锁——重启能够解决,确认是否能够重启还是扩容机器,减少风险。 位于哪个服务节点的CPU飙升——确认是否能够回滚,或者扩容机器,减少风险。 访问量激增——确认是扩容哪些节点还是限流某些节点来恢复业务。 共享资源的问题 如果是网络问题,确定哪个节点与节点之间的网络有问题,还是整个网段都有网络问题,提取证据,提交给公有云或者云供应商。 如果是存储问题,确定是何种存储,提取证据,提交给供应商解决。 如果是节点硬件或者配置故障,迁移机器。 第三方依赖的问题,提交证据,交于第三方依赖厂商解决问题。
开发工程师眼中的根因分析
开发工程师往往承担业务实现的职责,但在系统故障时常需协助运维工程师定位运维中的根本原因。
同时,开发工程师还需要承担软件缺陷和架构设计问题所致故障的复盘工作,以避免未来类似故障再次发生,并确保对系统及时进行优化。
因此,开发工程师视角下的根因分析需要有效指导故障复盘,能更好地还原故障现场,帮助开发人员理解故障发生的代码层或配置层原因,并及早发现业务架构设计层面的潜在风险。
常见的开发人员视角下的根因包括:
代码死锁现象——开发工程师想知道的根因是锁住的代码块是哪些,代码分别持有锁的时间长度是多久。 CPU飙升——开发工程师想知道哪段代码导致的CPU飙升。 内存泄露——开发工程师想知道哪些函数申请的内存具体多少。 网络问题——开发工程师想知道具体访问哪些请求,做了哪些操作从而提取优化思路。 存储问题——开发工程师想知道具体访问了什么文件,I/O是多少,访问频度如何,从而提前设计优化方案。
故障根因分析实践中的困境
虽然在现代IT系统中,各环境参与人员都急需合适的根因分析工具介入来提高效率,优化故障处置流程,但是目前根因分析在真正落地实施时面临多种挑战和困境:
复杂性
现代系统的分布式和微服务架构增加了系统的复杂性,特别是云原生环境下资源服务的动态变化和基础设施故障也会对定位造成干扰,这些都使得故障的定位和根因分析难以实现。
信噪比
系统可能会产生大量的日志和各类指标数据,特别是发生故障时尤为突出,但并非所有数据都与问题相关。过滤出有用信息并从中识别和定位出故障根因非常具有挑战性。
文化和流程
组织文化和相关流程需要能够有所支持,一方面组织内部必须能够切实有效的认识到根因分析对于提高系统可靠性和发生故障时真正快速止血的必要性,另一方面团队内部也需要有适宜的协作机制和流程,促进各团队间能够快速修复问题,并且深入挖掘其根本原因,能够做到快速止血的同时也能够彻底解除隐患,落地实践 1-5-10 等高效的故障处置流程。
通过示例和方法说明了解根本原因分析
要理解根本原因分析,最简单的方法是考虑常见问题。如果我们生病了并在工作时呕吐,我们会去看医生,让医生找出病根。如果我们的汽车抛锚了,我们会让汽修师找出问题的根本原因。如果我们的业务在某个地区的业绩超出或低于预期,我们会尝试找出原因。
在以上每个例子中,我们都可以通过简单的方法来应付表面的问题。如果不想在上班时呕吐,我们可以待在家中并准备好痰盂。如果要在私家车无法启动时外出,我们可以坐公交车,把坏车留在家中。但这些办法治标而不治本 — 需要治疗的肠胃感染或者需要维修的交流发电机得不到处理。要解决或分析一个问题,我们必须进行根本原因分析,找出确切的原因以及解决方法。
本文将定义根本原因分析,简要介绍常用技巧,演示模板方法,并提供一些示例。
那什么是根本原因分析呢?
根本原因分析 (RCA) 指为了确定适合的解决方案而探查问题根本原因的过程。
RCA 认为,与解决临时问题和被动应对相比,以系统化方式防范和解决基础问题可以让效果得到显著改善。
根本原因分析可以综合运用一系列原理、技巧和方法来找出某个事件或趋势的根本原因。
RCA 可以透过表层的因果关系,显示流程或系统最初在哪个环节出现故障或造成问题。
目标和优势
根本原因分析的第一个目标是发现问题或事件的根本原因。
第二个目标是全面了解如何修复、弥补根本原因内的深层问题,以及如何吸取教训。
第三个目标是将从分析中获得的见解应用到实践中,从而以系统化方式预防各种问题,或者再次运用成功的做法。
分析的价值只能通过应用来体现,因此 RCA 的第三个目标十分重要。我们还可以通过 RCA 来修改核心流程或解决系统问题,从而避免将来可能出现的事故。举例来说,在橄榄球运动员出现脑震荡时,我们不仅仅要治疗症状,还可以通过根本原因分析来建议运动员佩戴头盔,减少再次出现脑震荡的风险。
对症治疗看起来非常有效。解决大量的问题会让人获得成就感。但如果不切实诊断出问题的根本原因,我们就可能一而再,再而三地遇到相同的问题。新闻编辑不仅仅要将每一个缺失的逗号补上,还需要对新闻作者进行培训,让他们知道如何在日后的新闻稿件中正确使用逗号,从而防止类似的问题。
核心原则
要有效进行根本原因分析,我们必须遵循几条核心原则,其中的一些原则是显而易见的。
这些原则不仅有助于确保分析质量,还可以帮助分析师获得利益相关者、客户或患者的信任和支持。
您的重点应该是针对根本原因进行纠正和弥补,而不是仅仅消除症状。 但对症治疗可以在短期内缓解症状,您不应该忽视其重要性。 您需要认识到,问题可能有多个根本原因,这种情况经常出现。 专注于事情如何发生以及为何发生,而不是应该归咎于谁。 应该讲究策略,找出实实在在的因果证据来支持自己的根本原因结论。 提供充足的信息作为更正措施的依据。 考虑如何在日后防范(或复制)根本原因。 以上原则表明:分析深层次的问题或原因时,我们必须采用从整体出发,采取全面的策略。我们不但要发现根本原因,还应该努力提供相关背景和信息,以便制定决策或行动方案。
记住:高质量的分析是可以付诸行动的分析。
如何进行有效的根本原因分析:技巧和方法
我们可以在进行根本原因分析时选用大量的技巧和策略,下文并未列出所有技巧和策略。
但我们将介绍一些最常用、适用范围最广泛的技巧。
5 个为什么
进行根本原因分析时,一种较为常见的技巧是 5 问法。我们也可以将这种方法视为顽皮宝宝的方法。
得到每个问题(“为什么”)的答案后,继续提出更深入的问题(“好,那为什么”)。
儿童能够有效地进行根本原因分析,这让很多人感到惊讶。根据常识,我们可以通过大约五个“为什么”找到最根本的原因 — 但有时只需要问两次,有时需要问 50 次。
示例:我们回到刚才的橄榄球运动员脑震荡示例。首先,我们的运动员会反映一个问题:为什么我的头痛这么严重?这是第一个“为什么”。 第一个答案:因为我视物模糊。 第二个“为什么”:为什么您视物模糊? 第二个答案:因为我的头撞到了地面。 第三个“为什么”:为什么您的头撞到了地面? 第三个答案:我在对手的阻截下倒地,头重重地撞到地面。 第四个“为什么”:为什么撞到地面后会这么痛? 第四个答案:因为我没有佩戴头盔。 第五个“为什么”:为什么您没有佩戴头盔? 第五个“为什么”:因为更衣室没有足够多的头盔。
啊哈。通过这五个问题,我们发现脑震荡的根本原因最有可能是头盔数量不足。今后,为了防止此类脑震荡的风险,我们可以确保每名橄榄球运动员都有一顶头盔。(当然,佩戴头盔也不能保证脑震荡一定不会发生。因此要多加小心!)
这 5 个问题所起的作用是避免我们进行无根据的假设。针对递进式问题探寻详细的答复,答案会在每一轮变得更加明确、更加精炼。在理想情况下,最后一个问题会揭示出某个失败的过程,此时我们就能够对此过程采取更正措施。
变更分析/事件分析
在进行根本原因分析时,另一个有用的方法是仔细分析事件发生之前的各种变更。
如果存在大量可能的原因,这种方法会非常管用。我们的调查不应该局限于出现问题的具体日期或时刻,而是应该覆盖一个更长的时期,以便获得历史背景。
1.首先,我们列出可能导致某个事件发生的所有潜在原因。这应该包括所有有害、有益及良性变更。
示例:我们假设,要分析的事件是我们在纽约市的销售额在某一天出奇地高,我们想知道这个销售额背后的原因,以便重现这样的事件。首先,我们列出每个主要客户的每个接触点、每个事件、每个可能相关的变更。
2.接下来,我们根据自己对每个变更或事件的影响力对其进行分类。我们的类别可以是“内部/外部”、“自有/非自有”等等。
示例:在我们的“日销售额超高”示例中,我们开始梳理出一些事情,例如“销售代表进行了关于社会影响的新幻灯片演示”(内部),“季度最后一天”(外部)或“春季第一天”(外部)等。
3.第三步,我们逐个分析每个事件,确定该事件是无关因素、相关因素、促成因素,还是可能的根本原因。大部分分析工作都集中在这个阶段,我们也可以在此阶段使用其他方法,例如“5 问法”。
示例:我们在分析中发现,那些制作精美的新销售幻灯片其实是无关因素,而那个时间节点(季度最后一天)肯定是一个促成因素。但可能性最大的根本原因却是另一个因素:该地区的销售主管搬到了车程更近的新住所,因此从该季度的最后一个星期开始,她与客户会面的时间比以往早了 10 分钟。
4.第四步,我们研究怎样才能复制根本原因或者对其采取纠正措施。
示例:让每个人都搬家不太现实,但我们的组织决定:如果销售代表能够在季度的最后一星期每天提前十分钟与客户会面,他们就有可能复制这个根本原因并取得成功。
因果鱼骨图
另一种常见的方法是创建鱼骨图(又称 Ishikawa 图)来对因果关系进行可视化呈现。
这种方法有助于发现问题的可能原因;根据此方法,我们沿着类别分支路径找到各种潜在原因并最终确定根本原因。它与 5 问法类似但直观程度远高于 5 问法。
通常,我们先把问题放在图形中部(鱼的脊柱),然后通过头脑风暴找出几个类别的原因,将这些原因放到从主线散发出的分支(鱼骨架的肋骨)上。这些类别非常宽泛,可能包括“人”或者“环境”等。划分类别后,我们将其细分为更小的群组。举例来说,在“人”下方,我们可以考虑“领导”、“职员”或“培训”等潜在的根本原因。
我们越来越深入地分析潜在的原因和次级原因,对每个分支提出问题,并在这个过程中越来越接近问题的来源。
通过这种方法,我们可以去除无关类别,确定相关因素,并且可能找到根本原因。为简明起见,请在创建图表前仔细考虑要使用的类别。
创建鱼骨图时可以考虑的常见类别:
机器(设备,技术) 方法(流程) 物料(包括原料、消耗品和信息) 人/智力(体力或脑力劳动) 测量(检查) 任务(目的,预期) 管理/财力(领导) 维护 产品(或服务) 价格 推广(营销) 流程(系统) 人员(员工) 实物证据 绩效 场所(地点,环境) 供应方 技能
关于如何有效进行根本原因分析的提示
通过提问来澄清信息并接近答案。越是针对每个可能的原因提出深入的问题,我们就越容易找到根本原因。
一旦认为自己找到了问题的根本原因(而不仅仅是另一种表面现象),我们可以提出更多问题:为什么说这个原因(而非其他原因)是根本原因?我们如何解决根本原因,防止问题再次发生?
使用简单的问题,例如“为什么?”“如何?”以及“那意味着什么”来寻找理解问题的途径。
进行团队合作并寻求新颖的观点
无论是单个合作伙伴还是由同事组成的整个团队,不同的视角总是有助于我们更快地找到解决方案,还可以打消我们的偏见。获取其他人的意见也有助于发掘更多的观点,帮助我们验证自己的假设。
为将来的根本原因分析制定计划
进行根本原因分析的时候,我们必须注意流程本身。做好笔记。提出关于分析流程本身的问题。根据您的具体业务需求和环境,确定是否存在某种最适合您的技术或方法。
别忘了也对成功事件进行根本原因分析
根本原因分析是确定故障环节的好方法。我们常常使用根本原因分析来诊断问题,但它在确定成功的根本原因方面同样有效。
在成功实现目标、超额或者提前完成任务时,查找成功的根本原因往往是有益的做法。这种分析有助于我们提升关键因素的优先级并主动采取保护措施,进而有可能将一个领域的成功复制到另一个领域。
分析 RCA 的方法
虽然所有 RCA 都包含相同的基本步骤,但有多种根本原因分析 (RCA) 方法可以帮助组织高效且有效地收集数据。
通常,公司会选择一种方法并使用 RCA 工具(例如分析模板和软件)来完成该过程。
五个为什么
“五个为什么”方法源自这样的理念:通过询问五个“为什么?”问题,可以帮您找到任何事情的根本原因。通过询问“五个为什么”,问题解决者可以避免提出假设,在他们找出问题的根本原因之前,只需询问“为什么”。在正式的有组织的根本原因分析(RCA) 中,团队可能只需要询问三个为什么即可找到根本原因,但他们也可能需要询问 50 个或 60 个为什么。“五个为什么”的目的是促使团队通过提出尽可能多的问题来找到正确的答案。
故障模式和影响分析 (FMEA)
故障模式和影响分析是最严格的根本原因分析(RCA) 方法之一。与风险分析类似,FMEA 确定系统/流程故障的每种可能性,并调查每个假设故障的潜在影响。然后,组织解决可能导致故障的每个根本原因。
帕累托图
帕累托图通过结合条形图和折线图的功能,用于了解组织最常见根本原因的频率。图表从最常见和最可能的原因开始,按频率从高到低的顺序显示根本原因。然后,团队解决其解决方案为组织提供最显著好处的根本原因。
影响分析
借助影响分析,组织可以评估每个可能的根本原因的 潜在的积极和消极影响。
更改分析
在系统或流程的性能发生重大变化的情况下,更改分析很有帮助。在执行此类 RCA 时,部门会研究问题或事件相关情况随时间变化的状况。调查个人、信息、基础设施或数据等因素的变化可以帮助组织了解哪些因素导致了性能变化。
事件分析
事件分析通常用于确定重大单一事件问题的原因,例如漏油或建筑物倒塌。事件分析依赖快速(但彻底)的证据收集流程来重新创建导致事件发生的事件序列。时间线确定后,组织即可更轻松地确定因果和促成因素。
因果因素树分析
因果因素树分析也称为因果因素分析,组织可以使用因果因素树分析记录和直观显示导致特定问题的每个决策、事件或行动。
石川图
石川图(或鱼骨图)是一种因果图,可以直观地显示问题相关的情况。该图类似于鱼骨架,将一长串原因分为相关的子类别。
DMAIC
DMAIC 是定义、测量、分析、改进和控制 (Define, Measure, Analyze, Improve, and Control) 流程的缩写。这种数据驱动的流程改进方法是组织的六西格玛实践的一部分。
Kepner-Tregoe 的根本原因分析 (RCA) 方法
这种 RCA 方法提出通过四步式问题解决流程来找到问题的根本原因。该流程从情境分析开始,然后是问题分析和解决方案分析,最后是潜在问题分析。
故障树分析 (FTA)
借助 FTA,组织可以直观地绘制潜在的因果关系并使用布尔逻辑确定根本原因。
障碍分析
障碍分析基于这样的理念:适当的障碍可以防范问题和事件的发生。这种类型的 RCA 通常用于风险管理,可以调查缺乏适当障碍如何导致问题,并建议设置障碍以防止问题再次发生。
根因分析
如何理解根因分析
根因分析是一种系统性的方法,旨在找出问题的根本原因,而不仅仅是解决问题的表面症状。
它是通过深入分析数据和相关信息,识别出导致问题发生的关键因素和驱动因素。
根因分析通常包括以下步骤:
定义问题:明确问题的性质、范围和影响,确保大家对问题的理解一致。
收集数据:收集与问题相关的数据和信息,包括事件发生的时间、地点、涉及的人员、相关的流程和环境等。
分析数据:对收集到的数据进行分析,寻找可能的因果关系和相关性。可以使用统计方法、可视化工具等进行数据分析。
提出假设:根据数据分析的结果,提出可能的问题原因和假设。这些假设应该能够解释问题的发生,并且可以进行验证。
验证假设:通过实验、调查、观察等方法,验证提出的假设是否成立。这可以包括对问题进行模拟实验、采集更多的数据、与相关人员进行访谈等。
确定根本原因:根据验证的结果,确定问题的根本原因。这可能是一个单一的原因,也可能是多个原因的组合。
制定解决方案:根据确定的根本原因,制定相应的解决方案。这些方案应该能够解决问题的根本原因,并且具有可行性和可操作性。
实施和监控:将制定的解决方案付诸实施,并进行监控和评估。这可以包括跟踪指标、收集反馈、调整方案等。
根因分析需要综合运用数据分析、领域知识和问题解决的技巧。它可以应用于各种领域,如生产质量管理、客户服务、信息技术故障排除等,帮助我们更好地理解和解决问题。
根因分析的常用方法
在根因分析中,有许多常用的方法可以帮助我们找到问题的根本原因。
以下是一些常见的根因分析方法:
5W1H分析法:通过回答问题的五个W(Who、What、When、Where、Why)和一个H(How),来全面了解问题的各个方面。这个方法可以帮助我们系统地收集和整理问题相关 的信息。
鱼骨图(也称为因果图或Ishikawa图):将问题作为鱼的头部,将导致问题发生的各种因素作为鱼骨的骨架,通过分析这些因素之间的关系,找到问题的根本原因。常见的 鱼骨图因素包括人员、方法、机器、材料、测量和环境等。
5 Whys法:通过反复追问“为什么”来深入挖掘问题的根本原因。这个方法可以帮助我们逐步剖析问题,直至找到最根本的原因。需要注意的是,这个方法需要避免陷入表面 原因和主观假设,要保持客观和系统性。
故事线分析:通过构建问题发生的时间线和事件顺序,将问题分解为多个子问题,并分析每个子问题的原因和影响。这个方法可以帮助我们更好地理解问题的演变过程和关 键节点。
树状图分析:将问题作为根节点,将导致问题发生的各种因素作为分支节点,通过分析每个因素的影响和关联,找到问题的根本原因。这个方法可以帮助我们建立问题和因 素之间的关系图,更好地理解问题的复杂性。
DMAIC方法:DMAIC(Define、Measure、Analyze、Improve、Control)是六西格玛质量管理方法中的一种常用的问题解决方法。它通过明确问题、测量数据、分析原 因、改进过程和控制变化,来解决问题并持续改进。
分析方法名称 | 描述 | 适用场景 | 优点 | 局限性 |
---|---|---|---|---|
5W1H分析法 | 通过回答谁、什么、为什么、何时、何地、如何等问题,深入了解问题的各个方面 | 适用于问题发生后需要全面了解问题的情况,或者需要找出问题的各个方面的原因 | 简单易用,能够全面考虑问题的各个方面 | 可能存在信息不全或不准确的问题,不能深入到问题的根本原因 |
鱼骨图 | 通过将问题作为鱼骨的骨架,将问题的各个方面作为鱼骨的分支,找出问题的根本原因 | 适用于需要系统性地分析问题的原因,或者需要多方位思考问题的原因 | 结构清晰,能够将问题的各个方面有机地联系起来 | 可能存在主观偏见,需要团队合作才能完成,时间消耗较多 |
5 Whys法 | 通过反复追问“为什么”来找出问题的根本原因 | 适用于需要深入了解问题的根本原因,或者需要解决复杂问题 | 直接针对问题的根本原因进行分析,能够找出关键因素 | 可能存在停留在表面原因的风险,需要合理的问题提问和分析技巧 |
故事线分析 | 通过将问题的发展过程以时间线的形式呈现,找出问题的关键节点和原因 | 适用于需要了解问题的发展过程和关键节点,或者需要找出问题的主要原因 | 能够清晰地展示问题的发展过程和关键节点,有助于找出问题的原因 | 可能需要大量的数据和时间来绘制故事线,对数据的准确性和完整性要求较高 |
树状图分析 | 通过将问题的各个方面作为树状图的分支,逐层分析问题的原因 | 适用于需要系统性地分析问题的各个方面,或者需要找出问题的多个层次的原因 | 结构清晰,能够将问题的各个方面有机地联系起来 | 可能存在主观偏见,需要团队合作才能完成,时间消耗较多 |
根因分析的应用场景
根因分析可以应用于各种领域和场景,下面是一些常见的应用场景:
产品质量问题:当产品出现质量问题时,根因分析可以帮助确定问题的根本原因,例如材料缺陷、制造过程问题等。
客户投诉和退货率高:根因分析可以帮助确定导致客户投诉和退货率高的原因,例如产品设计缺陷、交付问题等。
生产效率低下:当生产效率低下时,根因分析可以帮助确定影响生产效率的因素,例如设备故障、工艺问题等。
供应链延迟和中断:根因分析可以帮助确定导致供应链延迟和中断的原因,例如物流问题、供应商问题等。
安全事故和事故频发:根因分析可以帮助确定导致安全事故和事故频发的原因,例如设备故障、操作失误等。
客户流失和留存率低:根因分析可以帮助确定导致客户流失和留存率低的原因,例如产品质量问题、服务不满意等。
市场份额下降:根因分析可以帮助确定导致市场份额下降的原因,例如竞争对手优势、市场需求变化等。
营销活动效果不佳:根因分析可以帮助确定导致营销活动效果不佳的原因,例如目标受众错误、传播渠道选择不当等。
网站流量下降:根因分析可以帮助确定导致网站流量下降的原因,例如SEO优化问题、用户体验不佳等。
项目延期和超支:根因分析可以帮助确定导致项目延期和超支的原因,例如资源不足、需求变更等。
根因分析的注意事项
在进行根因分析的过程中,有一些注意事项可以帮助我们更有效地找到问题的根本原因:
多角度思考:问题往往有多个可能的原因,我们需要从不同的角度进行思考和分析。不要局限于一种假设,要保持开放的思维,并尝试不同的解释和解决方案。
数据的准确性:在进行数据分析时,要确保数据的准确性和完整性。不准确的数据可能会导致错误的结论和假设,影响根因分析的结果。
深入挖掘:在分析数据时,要尽可能地深入挖掘,寻找隐藏的关联和因果关系。有时问题的根本原因可能不显而易见,需要通过更深入的分析才能找到。
多方参与:根因分析是一个团队活动,需要多方参与和合作。不同的人员可能有不同的视角和经验,他们的参与可以帮助我们发现更全面和准确的根本原因。
验证假设:在提出假设后,要进行验证,确保假设的准确性和可靠性。验证可以通过实验、调查、观察等方法进行,以获取更多的证据和数据支持。
解决方案的可行性:在制定解决方案时,要考虑其可行性和可操作性。解决方案应该能够解决问题的根本原因,并且能够在实际操作中实施和执行。
持续改进:根因分析是一个持续改进的过程,我们应该不断学习和改进分析方法和技巧。通过总结经验和教训,不断提升根因分析的效果和效率。
参考资料
https://blog.csdn.net/JasonH2021/article/details/133465528
https://www.zhongjiegp.com/newsinfo/1202777.html
https://www.ibm.com/cn-zh/topics/root-cause-analysis
https://aws.amazon.com/cn/what-is/root-cause-analysis/
https://originx.kindlingx.com/blog/%E4%BB%80%E4%B9%88%E6%98%AF%E6%A0%B9%E5%9B%A0%E5%88%86%E6%9E%90/
https://wiki.mbalib.com/wiki/%E6%A0%B9%E6%9C%AC%E5%8E%9F%E5%9B%A0%E5%88%86%E6%9E%90
https://www.tableau.com/zh-cn/learn/articles/root-cause-analysis