运维老鸟教你排查问题定位故障

2025-07-20 20:12:00
丁国栋
原创 324
摘要:本文是一个之前给团队做过的培训内容,现在将PPT的内容转换为此篇博文。

下载PPT

我们要达到的目标:

  • 提升和锻炼解决问题的能力和思维,能举一反三、触类旁通;
  • 当我们面对技术故障或者客户问题时,我们能从容面对,妥善解决;
  • 更好地成长,厚积薄发;

基本能力

  1. 学以致用;
  2. 空杯心态;
  3. 举一反三、触类旁通;
  4. 思维敏捷、思考缜密、逻辑清晰;
  5. 细心,耐心和善于观察;
  6. 勇于尝试和提早测试;
  7. 做好笔记、勤加练习、归纳总结、不用则退
  8. 遵循标准规范和力求最佳实践;
  9. 站在巨人的肩膀上,多向高手请教、AI搜索;
  10. 持续改进;

以下是一些补充:

  1. 深刻理解,于他人方便就是于己方便,顾全大局,客户利益着想;
  2. 提升自身知识水平和职业素质,塑造好习惯和风格;
  3. 增强韧性,锻炼自己的抗压能力;

分享一套取得成功的方法:态度决定一切、目标高于一切、能力创造价值、兴趣制造快乐、方法决定速度、行动决定结果、环境蕴藏机遇;

提问的智慧(什么是好的问题?)

  1. 目的性强,意图明确,提问者知道自己在寻求什么,回答者知道提问者想要什么。
  2. 背景清晰,描述完整,提供足够的上下文。
  3. 问题明确,逻辑清晰,无歧义,术语规范。
  4. 问题是实际问题,可操作可解决的。

及时调整心态

  1. 将问题视为学习机会,而非对能力的否定。
  2. 相信问题总可解决,但也不要过度低估难度(避免“盲目乐观”)。
  3. 焦虑、压力可能导致冲动决策;过度自信可能忽视风险。
  4. 承认自身局限,主动寻求帮助。
  5. 避免过于追求完美,过度优化。
  6. 遇到问题先从自身、内部原因思考,最后是外部、别人原因,不要一遇到问题就怀疑是某方面不行,需要有真凭实据。

感觉自己要崩溃了怎么办?

  1. 坚持自信,给自己暗示打气;
  2. 调整呼吸、洗洗脸,上个厕所;
  3. 适当体育锻炼,给自己减压;
  4. 说给小黄鸭听听(与“小黄鸭调试法”类似);
  5. 如果是他来处理此事,他会怎么做;
  6. 摇人;

集中注意力的几个方法

  1. 减少干扰;
  2. 手指口述;
  3. 双人结对;
  4. 检查单、确认单;

解决问题的办法

  1. 遇到问题,先多问几个问题,什么问题导致了这个问题的发生,问题的原因的原因是什么,搞清楚这个问题的表象、深层问题,根因分析;
  2. 问题是不是就是我们看到的、听到的那样,你是否去确认或重现了问题;
  3. 搞清楚这个问题有什么背景,有什么影响,根据问题的严重程度和影响程度去制定问题的优先级、解决方案和实施等;
  4. 搜索问题的答案之前必须要明确问题具体是因为什么造成的,如果问题不够具体,就说明问题太大别人(人类伙伴、网络、AI)也无法回答,只有具体的、小规模的问题回答起来才方便高效;
  5. 问题的答案是否是真正的有效的、高效的答案,这个需要去试验和摸索,需要经验和积累,例如你需要判断清楚AI是否在胡说八道,它的方案是否可行;
  6. 问题缓解和彻底解决,确认无误,二次验证;
  7. 问题解决后总结、积累、知识沉淀,举一反三、防患于未然;

一些有用的方法

  1. 二分法;
  2. 分层排查法;
  3. 类比、替换;
  4. PDCA循环;
  5. 练习不说“不可能”三个字;

一些金句

  1. 宝剑锋自磨砺出,梅花香自苦寒来。改变不可怕,可怕的是你从未开始。
  2. 没有什么是解决不了的,总有解决问题的办法。物极必反,否极泰来。
  3. 注重思想、目标、方法、实践、总结、习惯,永不过时。
发表评论
博客分类