3.3. 有效的故障排查手段

故障定位是一个可以自我学习，又可以传授的技能。

3.3.1. 理论

理论上，我们将故障排查过程定义为反复采用架设-排除手段的过程，针对某系统的一些观察结果和对该系统的运行机制的理论认知，我们不断提出一个造成系统问题的假设，进而跟进这些假设进行测试和排除。

通用故障排查模型如下

故障报告  ->    定位

               检查

               诊断

               测试修复      -> 治愈

造成低效的故障排查通常集中在定位、检查、诊断环节上，主要由于对系统不够了解而导致。下面几种情况要注意。

我们现在知道了那些，我们现在有啥假设，这个假设需要哪些数据，查找这些数据进行验证。

每个系统故障都起源于一份故障报告，这样每个故障都有记录和解决方案。

先判定故障影响面，大型问题可能需要全员参与的紧急会议。

止损优先：尽最大可能让系统恢复服务。可以保留一些问题现场，方便后续进行问题分析。

检查组件等工作状态，确认整个系统是否在预期工作。一般情况下，我们监控系统记录整个系统的监控指标，通过多个监控面板的相关性可以确定问题根源。

检查日志

检查rpc调用trace信息。

对系统设计的详细了解，在系统出现问题的时候可以快速提出合理猜想的主要帮助。在乜有详细了解的情况下，这是一些通用方法。

有一些假设的可能原因列表，接下来就是找到具体那个原因导致才是真正的根因。

负面结果是一项试验中预期结果没有出现，也就是试验没有成功。

理想情况下，你已经将一系列可能的错误原因减少到一个，下一步就是证明就是这个问题根源。当最终确定某个因素是问题根源后，应该将系统出错的部分，如何定位的，如何修复的，如何防止在此发生写下来。就是事后报告。